Torturamos os dados até que, em algum momento, eles confessem. Essa frase acompanhou os participantes do bootcamp mission control por sete dias. Ela estava na capa dos cadernos distribuídos na abertura das aulas e nas camisetas que todos vestiram no encerramento. Então, se vamos partilhar com vocês o que aprendemos sobre big data com o time da Cappra Data Science, esse é o ponto de partida indicado, mais que isso, é a ponta do fio da meada que vai nos conduzir nos próximos posts.

Um dado isolado não serve para muita coisa, ele precisa ser cruzado com outros para ter relevância. Como big data é semelhante a um grande tangram, a tarefa começa bem! Basta juntar as peças até que formem uma imagem com algum sentido. Quanto mais dinâmico o movimento de aproximá-las, maiores as possibilidades. Quanto mais criativas as combinações, mais amplas as perspectivas. A tortura é realizada a partir de incansáveis cruzamentos a fim de que se revele uma imagem (informação) de valor.

Só vale a pena torturar dados que sejam realmente capazes de nos revelar verdades. Eis, então, a pergunta que não quer calar… Como diferenciar peças aleatórias das peças que compõem esse grande tangram? Fácil! A marca do big data está em três Vs – velocidade, volume e variedade. Quando encontramos um grande volume de dados, vindos de fontes variadas e que são gerados e processados em alta velocidade, estamos diante do que chamamos big data.

Cientes de como identificar o elemento de tortura, é preciso esclarecer os pontos que o torturador de dados precisa cumprir:

  1. saber a pergunta que deve ser respondida pelos dados
  2. estar aberto a suas revelações, sem julgamentos pessoais

Quando trabalhamos com big data, a análise é determinada pela pergunta, não pela fonte. É bem diferente da pesquisa tradicional, em que a viabilidade de um estudo depende da determinação do perfil da amostra a partir de faixa etária, gênero, classe social etc. Na análise de big data, não há perguntas diretas a um grupo de respondentes, o banco de dados é construído a partir de inputs espontâneos publicados na internet. Entre centenas de plataformas online e milhares de usuários, seria fácil se perder em uma infinidade de dados. Por isso, uma pergunta para guiar a análise. Ela serve como uma bússola para seguir na rota certa. Há muitas armadilhas que podem levar a tortura de dados por água abaixo. É aí que chegamos ao segundo ponto que o torturador precisa seguir.

Para começo de conversa, vamos esclarecer: a ideia é torturar os dados até que eles nos confessem os segredos que escondem. Está fora de questão torturá-los por via tortas para que simplesmente afirmem as percepções do torturados. Ooops! Mais um termo importante para quem se interessa pela análise de big data. Temos o péssimo hábito de tentar endossar nossas percepções com os dados que encontramos no caminho. Da mesma forma, é comum cair na armadilha de justificá-los a partir daquilo que compreendemos sobre determinada situação.

Cada um de nós, é uma base de dados construída ao longo de anos, experiências vividas, aprendizados acumulados. Dentro dela, o cruzamento de informações é refletido na maneira como interpretamos fatos, e é aí que nascem as percepções. Tudo é muito particular. Quando torturamos dados limitados, apenas nossas próprias verdades são reveladas.

Na análise de big data, lidamos com um universo muito mais amplo, capaz de ir além, até mesmo, daquilo que conhecemos. Submeter suas revelações a nossa percepção é como dirigir uma Ferrari na hora rush em São Paulo. Dado Schneider, especialista em comportamento, costuma dizer que o big data é um tapa na cara, pois ele sempre nos surpreendem com aquilo que não imaginávamos. (Se não fosse assim, dificilmente esse post teria alguma relevância…) Dado fez a turma do bootcamp desafiar as próprias percepções, mas isso fica para outro dia.

A Associação EraTransmidia, representada por Rodrigo Terra e Renata Lea, fez a cobertura do Bootcamp Mission Control, e vamos contar tudo a vocês ao longo de alguns posts. Esperamos que vocês também adotem a bandeira da Cappra e entendam como “torturar os dados até que, em algum momento, eles confessem”.
BOOTCAMP MISSION CONTROL (parte 1)