O que é Data Science e como funciona

De maneira geral, Data Science é um conjunto de técnicas aplicadas com o objetivo de extrair dos dados as informações que eles podem nos trazer. Assim, é possível gerar insights valiosos que suportem a tomada de decisão.

Utilizamos principalmente conceitos de Matemática, Estatística e Ciência da Computação para obter os resultados desejados.

Com o impressionante aumento na geração de dados que vem ocorrendo ano após ano, com certeza você já ouviu falar sobre Data Science, Machine Learning, Inteligência Artificial e Big Data, certo? 

Apesar das aplicações incríveis que podem ser desenvolvidas utilizando essas ferramentas, é muito importante entender cada uma delas. Afinal, no fim do dia, o que importa é utilizá-las para resolver problemas reais, e não dizer que trabalha com elas apenas para estar “na crista da onda”, certo?

Nesse contexto, o foco deste post é explicar um pouco melhor sobre o mundo de Data Science, além de entender como podemos tirar proveito desse conhecimento para aumentar as vendas da sua empresa.

A ideia é passarmos pelas etapas necessárias para implementar essas técnicas e obter resultados com elas.

O que é Data Science?

Para começar, é importante explicar o que é Data Science, e como ela se relaciona com os outros termos citados no início do texto.

Conforme falamos no início deste texto, Data Science é entendida como um conjunto de técnicas aplicadas com o objetivo de extrair dos dados as informações que eles podem nos trazer, de maneira a gerar insights valiosos que suportem a tomada de decisão.

Esses insights podem surgir de análises:

  • Descritivas (o que aconteceu?)
  • Diagnósticas (por que aconteceu?)
  • Preditivas (o que vai acontecer?)
  • Prescritivas (o que devemos fazer?).

A imagem abaixo, retirada de um texto do Gartner, ilustra bem a diferença entre esses tipos de análises.

E qual a relação com Machine Learning e Inteligência Artificial?

Esses são temas extensos o suficiente para abordarmos em outros posts, mas, por enquanto, entenda-os como conjuntos de técnicas de automação de tarefas e análises que são muito aplicados em Ciência de Dados, mas que não se restringem só a essa área.

Já Big Data, que abordaremos um pouco mais ao longo deste texto, é basicamente uma classificação dada a grandes conjuntos de dados, geralmente a partir da ordem de grandeza de dezenas de milhões de registros (e esta baliza vai sempre aumentando ao longo do tempo, conforme mais dados são gerados).

Como os dados podem me ajudar?

É importante ter em mente que, quanto maior o volume de dados disponíveis, maior é o potencial de impacto positivo no negócio. No entanto, mais importante ainda é saber que não basta termos todos os dados do mundo se não soubermos entender o que eles têm a nos dizer.

Dados por si só não dizem nada, e por isso usamos Data Science para extrair informações desses dados e, por fim, insights relevantes que possam direcionar diretamente a tomada de decisão, gerando impactos positivos para a empresa.

Por exemplo, de que adianta ter dados sobre as vendas da concorrência se não sabemos como utilizá-los para alavancar o nosso negócio?

Ok, mas que aplicações reais eu posso ter no meu negócio?

Data Science pode ser aplicada em vários tipos de negócio, com os mais variados propósitos. Alguns exemplos:

  • Modelagem da demanda: utilização de modelos preditivos na identificação de padrões que ajudem a explicar o comportamento da demanda dos próximos meses/anos com base em variáveis externas (indicadores econômicos e demográficos, ações de marketing etc.);
  • Previsão de demanda: com base nos padrões identificados durante a fase de modelagem, é possível gerar previsões estatísticas de qualidade para a demanda futura, auxiliando o processo de planejamento da cadeia de suprimentos;
  • Elasticidade de preço vs demanda: entendimento sobre como as variações de preço afetam a demanda, possibilitando análises de Pricing mais robustas para definição dos preços;
  • Direcionamento da força de vendas: onde meu time de vendedores deve focar mais? Por meio de análises do potencial de pontos de venda, é possível entender quais locais podem me gerar mais demanda. Com isso, consigo direcionar meu time para essas áreas e aumentar minhas vendas.

Além desses exemplos, existem inúmeros outros. Tendo dados disponíveis e sabendo analisá-los e entendê-los, é possível encontrar muitas maneiras de fazer sua empresa vender mais.

Mas uma das questões que podem surgir é: já que preciso de dados, quais são as formas de obtê-los e organizá-los?

Obtendo e organizando seus dados

Para conseguirmos realizar análises que possam de fato gerar impacto, é muito importante ter uma boa gestão dos dados disponíveis e garantir sua qualidade.

Afinal, não adianta ter um volume enorme de dados se não conseguimos acessá-los com facilidade e nem extrair informações devido a, por exemplo, muitos registros estarem incompletos e/ou errados.

Como posso obter dados para analisar?

No processo de obtenção de dados, podemos buscá-los em diferentes tipos de fontes:

Internas: os dados são obtidos a partir de sistemas já existentes na empresa (ex: dados de sell-in, preços praticados etc.).

Externas: a obtenção das informações é feita junto a fontes externas à empresa, as quais não temos controle sobre a geração e manutenção dos dados. Elas se subdividem em dois tipos:

  • Pagas: a empresa que coleta os dados cobra um pagamento para disponibilizá-los (ex: dados de demanda e preços da concorrência, dados de geolocalização).
  • Públicas: geralmente são instituições públicas como IBGE, IPEA, entre outras, ou então empresas privadas que fornecem algumas informações gratuitas, como a FGV. Alguns exemplos de dados do tipo são indicadores econômicos, sociais e demográficos.

Como organizar meus dados?

Definidas as fontes onde podemos obter dados, é necessário organizá-los de forma que seja possível ter conhecimento sobre todas as bases disponíveis, de forma a facilitar o processo análise.

Digamos que, por exemplo, você queira fazer uma modelagem da demanda no nível SKU utilizando indicadores demográficos e informações de ações de marketing. Temos as bases de dados necessárias? Quais são elas? Qual a qualidade desses dados?

Para resolver esse problema, é recomendada a criação de uma biblioteca de dados.

Não importa a ferramenta, a ideia é ter um documento resumido contendo as principais informações sobre todas as bases de dados disponíveis. Nesse documento, devem ser incluídas informações como:

  • Nível de agregação (produto, geografia, tempo);
  • Horizonte de tempo disponível;
  • Frequência de atualização;
  • Medidas disponíveis (volume, preço etc.); e
  • Outras informações relevantes.

Essas informações são o que chamamos de metadados; ou seja, são dados sobre as nossas bases de dados. E além destas mencionadas, também é importante atribuirmos notas qualitativas às bases com relação a, por exemplo, qualidade e previsibilidade dos dados.

Isso nos ajuda a entender o quanto podemos ou não confiar naquela informação e se ela pode ser aplicada em exercícios de previsão para o futuro.

Outro ponto importante sobre as bibliotecas de dados é que elas são um ponto de partida interessante para um projeto de estruturação das bases de dados.

Afinal, sabendo exatamente o que temos de informação, podemos organizá-la de forma eficiente e de fácil acesso para análises.

Estruturas de dados

Para conseguirmos lidar com grandes volumes de dados, principalmente agora com a grande penetração do Big Data no mercado, precisamos de recursos computacionais suficientes para armazenar e processar toda essa informação.

Mas, além disso, é importante que esses recursos sejam aplicados de forma eficiente, para que os dados possam ser acessados facilmente e não tenhamos custos indesejados com aquisição de capacidade computacional extra desnecessária.

Sendo assim, a utilização eficiente de recursos passa por um bom processo de estruturação de dados.

E falando de estruturas de armazenamento de dados, podemos ter alguns tipos diferentes, que são aplicados de acordo com a qualidade e quantidade de dados. Os principais são:

  • Flat files: Geralmente usado em empresas que estão na fase inicial de maturidade na gestão dos dados, onde as análises precisam ser feitas cruzando diferentes arquivos de texto, planilhas Excel etc.
  • Data Lake: Estrutura de bancos de dados dedicada ao armazenamento das informações que podem servir de base para diversas análises. Uma característica importante é que os dados em um Data Lake são quase sempre “não-refinados”, demandando um processo de limpeza e tratamento antes de serem analisados.
  • Data Warehouse: Similar ao Data Lake, mas com a diferença importante que é o fato de que os dados são mantidos já em uma forma “refinada”, estando prontos para serem analisados. Geralmente integra duas ou mais fontes de dados diferentes, utilizando processos ETL (Extração, Transformação e Carga) para fazer com que os dados fiquem no formato desejado.
  • Data Hub: Pode ser entendido como uma evolução do Data Warehouse, mas com o objetivo de integrar dados de várias fontes diferentes, possibilitando uma melhor governança dos dados. Nele se encontram não apenas dados operacionais, mas dados em diferentes níveis de granularidade que podem ser acessados de forma eficiente.

Uma boa forma de entender a diferença entre os conceitos de Data Lake, Data Warehouse e Data Hub é analisando a figura abaixo, onde é possível entender o propósito e as interações entre cada um deles.

A partir dos dados mapeados e organizados, é possível seguir para a realização das análises. E, nesse ponto, entra uma definição importante: Data Science é um processo, não um projeto.

Por que Data Science é um processo?

Com a grande quantidade de dados disponíveis, existem inúmeras análises possíveis, o que faz com que seja necessária uma frente dedicada constantemente a esse tipo de atividade, sendo que isso não é possível se trabalharmos em regime de projeto.

A vantagem de atuar dessa forma é o fato de que podemos constantemente gerar resultados relevantes para o negócio.

E, se tratando de um processo que pode entregar valor para diferentes áreas da empresa, é importante ter em mente quem são os possíveis clientes beneficiados por essa frente.

Além disso, precisamos saber como ter o apoio desses clientes ao processo, para que a sua continuidade se justifique.

Clientes do processo

Para conseguir o apoio do restante da empresa, é necessário que esteja claro que todas as áreas podem colher frutos dos resultados obtidos, inclusive clientes externos como consumidores e fornecedores. Abaixo temos alguns exemplos, incluindo possíveis análises que agregam bastante valor:

Clientes internos:

  • Vendas: análises de direcionamento da força de vendas, otimização do portfólio oferecido durante as visitas ao cliente.
  • S&OP: previsão da demanda futura com base em efeitos de sazonalidade, tendência e interferência de variáveis externas.
  • Pricing: análises de elasticidade preço x demanda para auxiliar na definição do preço ideal e entender como obter os melhores retornos com a aplicação de descontos.
  • Marketing: análises de impacto de ações e eventos promocionais realizados, com foco em ajustes para desenvolver melhores iniciativas no futuro; acompanhamento do cliente durante navegação no site de e-commerce (sistemas de recomendação).
  • Operações: por meio de previsões de vendas acuradas, é possível se preparar com antecedência e evitar a “correria” para atender à demanda
  • Além das anteriores, outras áreas do negócio podem ser impactadas, dependendo do foco da análise.

Clientes externos:

  • Fornecedores: por meio de previsões de demanda que gerem valor ao processo de planejamento, é possível preparar melhor a cadeia de suprimentos, tendo como consequência uma melhor gestão dos pedidos, fazendo com que os fornecedores consigam atender os pedidos de forma mais eficiente.
  • Consumidores: no fim do dia, os consumidores são o elo mais importante da cadeia, já que dali é gerado a demanda da empresa. Sendo assim, análises de perfil de consumo podem auxiliar no entendimento de como gerar valor para o cliente final. Além disso, um bom processo de planejamento da demanda suportado por previsões estatísticas de qualidade tende a diminuir muito a ruptura, fazendo com que o cliente não se decepcione com problemas de falta de produto e recorra à concorrência.

Conclusões

Ao longo deste texto, falamos bastante sobre conceitos envolvendo Data Science, o fato de que deve ser um processo, e porque vale a pena implementarmos dessa forma.

É importante ter em mente que a Ciência de Dados é um conjunto poderoso de ferramentas que pode ajudar muito a impulsionar as suas vendas, conforme ilustramos por meio de alguns exemplos de aplicações reais no início do post.

Além disso, é de conhecimento geral que o mercado está cada vez mais aderindo ao mundo dos dados para conseguir continuar crescendo, e as empresas que não seguirem essa tendência certamente estão fechando os olhos para evoluções importantes que poderiam obter.

No entanto, não adianta adotar essas ferramentas se não houver foco na entrega de valor ao cliente (seja ele interno – uma área da sua empresa – ou externo).

Usar Data Science apenas por usar, assim como entregar modelos “caixa-preta” de difícil entendimento em nada ajuda se não conseguirmos resolver problemas e gerar conclusões que de fato agreguem ao negócio.

Ao mesmo tempo, não é um problema utilizar o modelo mais complexo que existe: o que importa é trazer resultados facilmente interpretáveis e – novamente – que gerem valor para o cliente.

Outro ponto importante e que precisa ser destacado novamente é o fato de que Data Science é um processo, não um projeto. Só assim conseguimos gerar resultados relevantes constantemente, provando o valor que é possível de ser agregado ao negócio.

Espero que tenha gostado deste texto e que eu possa ter lhe agregado conhecimento. Continue nos acompanhando para mais textos sobre o assunto! Muito obrigado!

E não deixe de dar uma olhada na nossa solução de Data Science!

George Amarante
George Amarante

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Assine a nossa newsletter e fique por dentro dos melhores conteúdos!