Criando valor a partir do Big Data

Por: Paul Lewis
CTO Hitachi Data Systems Canadá

Era muito mais fácil quando eu era mais inteligente que os meus filhos. Dava pra falar rapidinho um monte de respostas mais ou menos precisas às perguntas que as crianças costumam fazer, como "por que o céu é azul?" Infelizmente, a escola, a internet e a mãe deles acabaram com quase toda a minha alegria, fornecendo-lhes respostas corretas e precisas, e até mesmo os meios cognitivos de deduzir respostas por si mesmos. E eles transformaram essa sabedoria recém-descoberta em um sarcasmo insolente, dirigido na maioria das vezes na minha direção.

Recentemente, solicitei instalação um sistema novo de TV a cabo em casa que é capaz de fazer "recomendações" de conteúdos a partir de dados coletados sobre nossos hábitos. Sinceramente, quando contratei o serviço não tinha a menor noção desta função e foram meus filhos os primeiros a reconhecer e comentar a sofisticação do sistema. Um dia, chego em casa à noite e escuto: "Nosso sistema de TV tem, uma nova função que, na verdade, é uma implementação de um sistema de recomendações, que é só um exemplo de um algoritmo de aprendizagem computacional". E eu pensando "o que é mesmo que meu filho de 8 anos está falando?". Ao que ele continua: "Considerando que nós não preenchemos um formulário online sobre os tipos de programas que gostamos de assistir, ou sobre nossos hábitos televisivos, ou até dados demográficos simples, devemos concluir que eles estão usando um sistema Filtragem Colaborativa para aprender sobre os nossos hábitos diante da TV. Dã..."

Os meus olhos, igualmente vidrados e em lágrimas, faziam-lhes um pedido silencioso para que explicassem com mais detalhes. Pegaram a lousa branca onde anotamos recado e que fica grudada na geladeira. Aparentemente, eu estava prestes a receber uma lição sobre tecnologia. Imaginem uma série de olhos virando enquanto eu recebia a seguinte explicação detalhada:

"A aprendizagem computacional é como os computadores aprendem a utilizar dados para fazer boas previsões ou decisões. No caso de recomendações de filmes, um programa de aprendizagem computacional aprende sobre as nossas preferências baseado nos filmes que vemos, compramos e avaliamos. O programa, então, utiliza esse conhecimento acumulado para fazer recomendações sobre conteúdos que ainda não conhecemos. De fato, é assim também que sites como a Amazon.com chegam às suas recomendações introduzidas pela frase "clientes como você também compraram / leram / viram..."

Num mundo do Big Data, você pode pensar na Aprendizagem Computacional como aquele primo mais visionário da Data Mining ou Mineração de Dados. Enquanto o Data Mining busca descobrir propriedades ou relações no interior de um conjunto de dados, a aprendizagem computacional busca utilizar um conjunto de dados para viabilizar previsões sobre dados que ainda precisam ser avaliados (por exemplo, filmes que ainda não vimos, compramos ou avaliamos). A Aprendizagem Computacional e o data mining têm em comum a propriedade de possibilitar a monetização ou outra derivação de valor não monetário (por exemplo, risco / redução de custos) a partir dos dados. Lembre-se da história, que você vive contando para seus clientes, de que "os dados são o seu maior ativo"? De forma muito semelhante à que uma refinaria de petróleo transforma o petróleo bruto rico em energia potencial em vários tipos de produtos úteis, a aprendizagem computacional (uma refinaria de dados, talvez?) transforma dados ricos em valor potencial em insights.

Algoritmos de aprendizagem computacional são usados frequentemente porque os tipos de problemas que são tipicamente solucionados pela aprendizagem computacional são difíceis de resolver utilizando-se técnicas de programação convencionais. Considere a complexidade de escrever um código para identificar uma xícara de café, ou um conjunto de aves em voo de um vídeo (visão computacional), ou tentar entender o sentido de algum texto escrito (processamento de linguagem natural), ou garantir a segurança dos passageiros em veículos autoguiados. Expresso de maneira simples, algoritmos de aprendizagem computacional baseados em estatística ou outra técnica matemática funcionam melhor nesses tipos de problemas sem o peso de milhares de linhas de código condicional!

Vamos examinar em poucos detalhes alguns conceitos da aprendizagem computacional:

- Treinar os dados: as pessoas tendem a aprender através da prática. Algoritmos de aprendizagem computacional funcionam da mesma forma; eles aprendem por meio de treinamento em dados de treino. Nós esperamos que ao escolher dados de treino suficientemente representativos de todos os dados passíveis de serem encontrados que sejamos capazes de treinar um programa para fazer previsões úteis ou decisões sobre dados que se encontram fora do conjunto de treino.

Regressão: a regressão define uma classe de problemas de aprendizagem computacional focados sobre previsão de um número de algum tipo. Exemplos de problemas de regressão incluem a previsão do preço de uma casa ou a temperatura do parque Animal Kingdom amanhã. Se você imaginar um gráfico bidimensional de dados de treino, a forma mais simples de regressão desenharia uma linha que se encontra em média o mais próximo possível de todos os pontos. Os valores para os novos pontos são previstos encontrando a sua posição na linha.

Classificação: a classificação, por outro lado, focaliza sobre colocar as coisas no interior de grupos. Pense em prós e contras, passeios de pedalinho ou de barco etc. De novo, tente visualizar um gráfico bidimensional de dados de treino. Imagine, então, que os dados representam dois grupos. Neste caso, a forma mais simples de classificação busca desenhar uma linha reta entre os pontos de dados, de modo que os grupos ficam separados o mais corretamente possível. Fazemos previsões sobre novos dados simplesmente colocando-os no gráfico e descobrindo de que lado da linha eles se encontram.

Você está no lugar certo!

Hitachi Data Systems, Pentaho e Hitachi Insight Group agora são uma só empresa: Hitachi Vantara.

Obtenha mais soluções e inovações em dados de um parceiro que você pode confiar.