Compartilhar:

Categorias:

10 min read

Data Science: o que é e como começar

O Data Science, ou ciência de dados, é uma disciplina interdisciplinar, que mescla inferência de dados, desenvolvimento de algoritmos, estatística e matemática para resolver problemas analiticamente complexos.


Não vamos iniciar esse artigo citando aquela máxima tradicional que compara dados à petróleo. É clichê e uma falsa simetria. No lugar disso, vamos tentar algo mais original.

Dados são recursos infinitos – e há um diferencial aqui. Se bem trabalhados, podem gerar insumos de negócios recorrentes. E, por serem infinitos, indefinidamente. Se bem trabalhados. E essa informação é muito, muito importante.

A Era Digital despejou um verdadeiro maremoto de informação no cotidiano das empresas – o Big Data. Para gerenciar esse grande volume de dados, era preciso criar formas mais ágeis e econômicas de processamento.

Para resolver “o problema do Big Data”, surgiu o Data Science, com o objetivo de analisar, detectar padrões e transformar essa massa de dados não-estruturados em conhecimento.

Fique conosco até o final deste artigo, entenda o que é o Data Science e como começar a aplicá-lo na sua organização!

O que é Data Science?

O uso do termo Data Science data de 1960. Na ocasião, o pioneiro dinamarquês da computação Peter Naur utilizou o termo como um sinônimo de “ciência da computação”.

 Em 2001, o cientista de computação americano William S. Cleveland começou a defender o Data Science como uma disciplina independente. Cleveland desmembrava esse conceito em algumas especialidades:

  • modelos e metodologia de dados
  • operações aritméticas com dados
  • avaliação de ferramentas
  • pedagogia
  • teoria e estudos multidisciplinares

De lá para cá, a definição sobre o que é Data Science evoluiu, é claro. Podemos dizer que a ciência de dados está inserida em um espectro interdisciplinar de áreas de conhecimento, abrangendo a matemática, a estatística, as ciências da computação e, por vezes, até mesmo a engenharia.

Data Science como resposta ao Big Data

De acordo com a Gartner, entre produzimos 15 petabytes de dados por dia, estruturados e não estruturados, em forma de texto, áudio, fotos, vídeos, entre outros. Tudo isso em decorrência dos avanços tecnológicos, que nos permitiram ampliar o acesso à Internet e baratear os custos de ferramentas como os smartphones.

E como não dá para falar de Data Science sem falar de Big Data, é importante frisar que a ciência de dados ganhou popularidade por ser uma solução economicamente viável e de alto custo-benefício no gerenciamento e qualificação de ativos de alto volume, velocidade e variedade – o Big Data.

Dados x Informação x Conhecimento

Um elemento muito importante para compreender o Data Science é saber diferenciar dados, informações e conhecimento. Os 3 termos são termos muito utilizados para referenciar estágios do tratamento da informação e adquirem significados próprios.

Por isso, é de bom tom evitar o uso deles como sinônimos. Confira as diferenças conceituais entre os termos “dado”, “informação” e “conhecimento” na ciência de dados.

Dados: dados são matéria-prima, o produto de um processo de coleta de informação. Nesta etapa, sua condição é de informação não tratada. Portanto, não possuem consistência relevante para orientar decisões de negócios. Não representam conhecimento.

Informação: neste estágio, a matéria-prima já foi refinada e tratada. O resultado deste processamento de dados revela informação útil para geração de insights de negócios, classificações, segmentações, e assim por diante.

Conhecimento: por último, há a fase de transformação de dados em conhecimento sobre o negócio. Aqui, a informação é capaz de oferecer diretrizes otimizadas para tomada de decisão em nível organizacional, fornecendo insumos para definição de perfis de clientes, jornadas do consumidor, entre outras operações. 

ETL: o bê-a-bá do Data Science

O Big Data exige formas mais ágeis e econômicas de processar grandes volumes de dados. Assim surgiu o Data Science, área interdisciplinar, que analisa e detecta padrões para transformar dados desestruturados em informação acionável para orientar decisões.

Mas, para essa receita dar certo, há uma frase crítica, que ocorre bem no início do contato dos data scientists com os bancos de dados: o processo de ETL, que envolve a extração, a transformação e a carregamento de dados para um ambiente integrado.

O ETL surge para simplificar a análise de informação armazenada em um banco de dados, estabelecendo regras e padrões de manipulação dos dados. O objetivo do procedimento é  garantir a qualidade do fluxo de tratamento da informação, desde a coleta até o momento em que ela é carregada no ambiente de dados escolhido para ser analisada.

O passo a passo de um processo de dados é complexo – e muitas vezes vemos alguns deles cortados pela web. Entretanto, a maioria deles faz parte do processo de ETL.

Por isso, vamos tentar prever (e explicar!) algumas frases que você vê por aí ligadas ao Data Science. Confere só:

Elaborar uma coleção de dados

O rastreamento e a coleta de dados são atividades que fazem parte do processo de ETL. Lembre-se que mensurar tudo não é eficiente: é preciso identificar quais dados têm maior potencial para gerar insights de valor. É dali que você irá retirá-los. Portanto, realizar o rastreamento adequado é crucial.

Melhorar o armazenamento de dados

Outra atividade associada ao Data Science é o armazenamento de dados. Armazenar dados é um trabalho altamente técnico, que requer infraestrutura adequada – e também faz parte das atividades do ETL. Entretanto, com o advento da computação em nuvem, esse processo de aprimoramento pode ser mais barato do que parece. E bastante eficiente.

Realizar a limpeza de dados

Essa aqui é figurinha carimbada do processo de ETL e, como o próprio nome já diz, refere-se à separar o joio do trigo. Basicamente, você deverá realizar algumas camadas de limpeza, para tornar o processo de identificação de valor mais fácil, além de eliminar aqueles que não agregam. Aqui, é recomendável usar ferramentas automatizadas, amplamente disponíveis no mercado para segmentar e classificar essa informação.

Analisar dados

Essa atividade diz respeito ao emprego das melhores práticas de análise de dados. Esse processo requer o uso de ferramentas específicas. E atenção: sobretudo, profissionais especializados. E aqui, vale frisar os tipos de análise de dados promovidas pelo Data Science. Todas elas são baseadas em perguntas, que devem ser respondidas.

Confira a seguir:

Há ainda 2 fatores cruciais para o bom funcionamento de uma estratégia de Data Science e a consolidação de um mindset de dados dentro das empresas que não estão ligadas ao processo de ETL,  

  • Comunicação: muita gente precisa interpretar dados no dia a dia. Só que muitas vezes essa informação não está organizada de forma “amigável” para que colaboradores tomem decisões (afinal, nem todo mundo é cientista de dados).

    Por isso, frequentemente, é exigido dos cientistas de dados o entendimento sobre a melhor forma de comunicar essa informação. Dessa necessidade surgiu o conceito de Visualização de Dados, que você pode conhecer melhor neste infográfico.
  • Cultura de dados: uma estratégia de dados só vale se houver um movimento conjunto na direção de uma cultura analítica. Ou seja, todos na organização precisam estar dispostos a deixar os achismos e vieses de confirmação de lado em prol da geração de insumos para orientar decisões de negócios melhor embasadas.

Portanto, sempre que você ouvir falar em algumas dessas diretrizes, saiba que fazem parte do processo de ETL, imprescindível

Data Science x Data Analytics

A cada ano, mais e mais termos são incorporados ao glossário corporativo, ao passo que abordagens vêm sendo refinadas – e novas surgem, para resolver problemas mais atuais. 

Um dos casos é a confusão que existe entre as definições de Data Science e Data Analytics, por exemplo, de difícil consenso até mesmo entre os especialistas. Mas nós vamos nos atrever a explicar a diferença. Vamos lá!

O Data Science, como você viu aqui, é um conjunto de técnicas, teorias, análises, parâmetros de observação, algoritmos e princípios que dão suporte ao trabalho com dados. A função do cientista de dados é transformar dados não estruturados em informação consolidada para orientar decisões de negócios.

O processo de Data Science é mais complexo e completo do ponto de vista de negócios. Para os cientistas de dados, não basta apenas refinar dados para orientar o processo de decisão. Espera-se deles também uma investigação sobre as questões-chave da organização para definir diretrizes em âmbito estratégico.

Já o analista de dados, recebe  essas formulações prontas da equipe de negócios e busca confirmar hipóteses e orientar soluções com base na análise de dados. Pode-se dizer que a análise de dados, como você viu aqui, é uma fase do processo de ciência de dados.

Ambos devem estar aptos a trabalhar com engenheiros de dados para obtenção, formatação e cruzamento dos dados convergentes ao objetivo (como no processo de ETL).

A diferença aqui é que, enquanto o analista de dados normalmente trabalha com ferramentas de Business Intelligence e uso de SQL em banco de dados, os cientistas de dados precisam criar modelos estatísticos, utilizando frameworks de programação avançada e ajuda do Machine Learning.

Por que investir em Data Science?

A ciência de dados é um campo emergente. E, se dados aumentam em progressão geométrica (leia: velocidade exponencial), pense no quanto o mercado demandará esse tipo de tratamento e gerenciamento do fluxo de informação no futuro.

Atualmente, é possível obter um recorte sobre qualquer coisa na sua organização. Toda informação registrada em um computador ou rede pode ser analisada, organizada e transformada em insights acionáveis. 

Esses insights podem desempenhar papel fundamental no aumento do diferencial competitivo, revertendo isso em um aumento de eficiência operacional e ganhos de lucratividade.

Além disso, melhorar a maturidade de dados dentro da sua organização ajuda a identificar novas oportunidades de negócios, tendências de mercado e auxiliam na compreensão do comportamento da sua carteira de clientes

Só para não te deixar no escuro, confira 2 exemplos do uso do Data Science nos negócios:

Mitigação de riscos e fraudes

Os cientistas de dados são treinados para identificar dados que se destacam por padrões diametralmente opostos da média, dentro de um contexto. Dessa forma, eles criam metodologias estatísticas, de rede, de caminho e de Big Data para construir modelos preditivos de propensão a fraudes.

O objetivo é criar alertas que garantam respostas oportunas quando uma ação incomum é feita dentro de um banco de dados (leia: dados incomuns são reconhecidos).

Melhorar a aderência de produtos/serviços

Um dos benefícios mais interessantes da Data Science é a capacidade de que equipes de marketing e vendas entendam as minúcias de seu público, por meio da criação de personas, jornadas e funis data-driven.

Com esse conhecimento em mãos, uma empresa pode identificar oportunidades, garantindo maior assertividade ao oferecer a solução certa, para os clientes certos – no momento mais adequado. Além, é claro, de aprimorar a aderência de produtos/serviços já existentes.

Em quais setores podemos utilizar o Data Science

Por mais que o Data Science utilize as linguagens matemática, estatística e de programação no coração do processo de transformação de dados em informação, sua utilização vai muito além do desenvolvimento ou dos departamentos de TI.

A ciência de dados é uma ferramenta valiosa para qualquer empresa, de qualquer segmento. Conheça agora alguns setores que já estão aproveitando os benefícios do Data Science:

Varejo

As empresas de varejo se beneficiam da ciência de dados analisando o comportamento de compra do cliente. Por meio dos dados, é possível examinar extrair informações, confirmar hipóteses e melhorar a retenção e fidelização de clientes.

Saúde

No setor de saúde, a ciência de dados permite a criação de análises de similaridade como base para o tratamento individualizado dos pacientes e a otimização dos medicamentos.

Logística

As empresas de logística usam Data Science para melhorar seus processos de trabalho e a qualidade de seus serviços de transporte. 

Indústria manufatureira

Na indústria, cientistas de dados controlam e otimizam os processos de fabricação, armazenamento e distribuição de produtos.

Bancos e seguradoras

Os bancos e seguradoras usam a ciência de dados para explorar o potencial de seus dados externos e internos para melhorar seus produtos e serviços e aumentar o sucesso de vendas.

4 passos para começar a aplicar o Data Science no seu negócio: o MJV Way

Agora que você entende o que é Data Science, como funciona e quais são os benefícios, é hora de entender como trazê-lo para a realidade do seu negócio. 

A seguir, confira quais serão os pilares dessa virada de chave!

0. DT + DS 

Você já sabe que atender seu cliente é importante. O difícil é responder:

  • O que ele quer?
  • Como ele quer?
  • Quando ele quer?
  • Que ofertas, de fato, fazem sentido para ele?

Definimos esse primeiro passo como o estágio zero, pois ainda não implementamos a ciências de dados em si. Essa é a fase em que preparamos o terreno.

Aqui na MJV, nós empregamos o Design Thinking para elaborar projetos de Data Science. Ela nos permite entender seu nível de maturidade em dados, compreender as problemáticas a serem solucionadas pelo projeto – além de oferecer uma visão detalhada sobre os hábitos de consumo dos clientes, colocando-os no centro do projeto.

Afinal, são eles que irão nortear seus esforços, certo?

Saiba mais: Design Thinking: o primeiro passo para a criação de um braço de Data Science na sua empresa!

Agora sim, entramos definitivamente no Data Science.

1) Avaliar a governança e a organização do nosso cliente 

A governança é muito importante, pois devemos manter uma rígida política de documentação para entendermos como os dados vão ser utilizados e monitoramento de atualizações nas regulamentações de proteção de dados, como a LGPD e o GDPR.

Segurança de dados é coisa séria e deve ser tratada com profissionalismo, por uma equipe que conta com cientistas e engenheiros de dados, além de profissionais especializados em segurança jurídica e compliance.

Por isso, o primeiro passo é entender a governança e organização do nosso cliente. 

2) Entender como funciona a arquitetura de dados do cliente

Depois da primeira etapa, precisamos saber:

  • Que tecnologias o cliente utiliza?
  • Como essas tecnologias se integram?
  • Onde essas tecnologias estão localizadas? 

3) Data Science
 

  • Business & Data Immersion: entender o negócio do cliente e como os dados podem melhorá-los e impactá-los positivamente. É como diz o nosso jargão: entender a linguagem do cliente. Dessa forma, se torna mais fácil acessar os processos corretamente e otimizar os processos que precisaremos tocar com o projeto de Data Science. 

Nota: se você lembrou de Design Thinking por aqui, está absolutamente certo! Isso é muito importante para fazermos o processo de imersão e aculturamento dentro da empresa. 

  • Data Acquisition & Harmonization: fazer a aquisição do dado. Depois de entender onde a tecnologia se distribui, o dado é capturado e harmonizado em uma tabela única – que será a nossa tabela de trabalho. Nela, iremos acessar a informação, entender como o dado está distribuído, entender quais são as chaves que ligam àquele dado aos clientes e pacificar os dados para que todas as tabelas estejam integradas.  
  • AI Workbench: uma bancada de trabalho de Inteligência Artificial. Nela, vamos gerar, testar e ajustar vários modelos diferentes para entender rapidamente qual terá mais sucesso ao ser implementado na fase final do projeto. 
  • Business Focused Deploy: entregamos o modelo da melhor maneira possível. Entendemos que gerar valor não está relacionado somente ao dado em si, mas sim em dar um panorama correto e real para o cliente. É por isso, inclusive, que o Design Thinking é um dos nossos pilares, que imprime em nosso DNA o foco no humano. 
  • Project End: o momento que o cliente mais espera! É quando entregamos o valor para ele de uma maneira efetiva.

Nota: como rodamos dentro da metodologia Ágil em todos os nossos projetos, não pense que somente aqui o cliente terá contato com o projeto. Em todas as etapas, a participação do cliente é efetiva para validar e cocriar conosco. E isso faz toda a diferença! 


O Data Science pode agregar valor a qualquer empresa, desde estatísticas e insights em fluxos de trabalho e contratação de novos candidatos, até auxiliar executivos a tomar decisões mais bem fundamentadas.

Voltar