O que é Big Data e seus V's
Introdução
Hoje, se fala muito das oportunidades do Big Data, que é o novo petróleo, que é revolucionário... Mas o que é o Big Data? E que oportunidades ele traz?
Este post é um compilado. Para mais detalhes, ao final, referenciarei materiais que utilizei.
Definição
O termo Big Data pode se referir a um conjunto de dados maior e mais complexo, que impõe desafios ao gerenciamento de dados. Desafios devido aos crescentes volume, velocidade e variedade dos dados, que não podem ser resolvidos com softwares tradicionais de processamento de dados, pois simplesmente não conseguem gerenciá-los.
Quando tratamos de Big Data, estamos, portanto, nos referindo a fontes de dados cada vez mais complexas do que as de dados tradicionais, que estão sendo impulsionadas, principalmente, por inteligência artificial (IA), dispositivos móveis, mídias sociais e internet das coisas (IoT). Com estas características, precisamos de novas abordagens que consigam extrair valor dos dados.
Os V's do Big Data
Big Data não é uma única tecnologia, mas uma combinação de
tecnologias novas e antigas que ajudam as empresas a conseguirem ideias
viáveis. A partir disso, Big Data permite que as organizações armazenem,
administrem e manipulem
vastas quantidades de dados díspares na velocidade certa e no tempo
certo. Para conseguir os insights certos, Big Data é, normalmente,
dividido em três características:
Volume - Quantidade de dados
A quantidade de dados importa. Com o Big Data, você terá que processar
grandes volumes de dados não estruturados de baixa densidade. Podem ser
dados de valor desconhecido, como feeds de dados do Twitter, fluxos de
cliques em uma página web ou em um aplicativo para dispositivos móveis,
ou ainda um equipamento habilitado para sensores. Para algumas empresas,
isso pode utilizar dezenas de terabytes de dados. Para outras, podem
ser centenas de petabytes.
Velocidade - A rapidez com que esses dados são processados
Velocidade é a taxa mais rápida na qual os dados são recebidos e talvez
administrados. Normalmente, a velocidade mais alta dos dados é
transmitida diretamente para a memória, em vez de ser gravada no disco.
Alguns produtos inteligentes habilitados para internet operam em tempo
real ou quase em tempo real e exigem avaliação e ação em tempo real.
Variedade - Os vários tipos de dados
Variedade refere-se aos vários tipos de dados disponíveis. Tipos de dados tradicionais foram estruturados e se adequam perfeitamente a um banco de dados relacional. Com o aumento de big data, os dados vêm em novos tipos de dados não estruturados. Tipos de dados não estruturados e semi-estruturados, como texto, áudio e vídeo, exigem um pré-processamento adicional para obter significado e dar suporte a metadados.
Atenção
Embora seja conveniente simplificar Big Data em três V's, pode ser enganoso e simplista demais. Ainda mais importante é o quarto V, veracidade. Ou seja, quão precisos são esses dados em prever valor de negócios? Os resultados de uma análise Big Data realmente fazem sentido? Os dados devem ser verificados com base tanto em previsão quanto em contexto.
Funcionamento
Na maioria dos casos, o processamento de Big Data envolve um fluxo de
dados comum, da coleta de dados brutos ao consumo de informações
práticas.
Coleta
A coleta de dados brutos (transações, logs, dispositivos móveis e muito mais) é o primeiro desafio que muitas organizações enfrentam quando tratam com big data. Uma boa plataforma de big data torna esta etapa mais fácil, permitindo aos desenvolvedores ingerir uma ampla variedade de dados estruturados ou não estruturados a qualquer velocidade, deste em tempo real até em lote.
Armazenamento
Qualquer plataforma de big data precisa de um repositório seguro, escalável e durável para armazenar dados antes ou, até mesmo, depois de processar tarefas. Dependendo dos seus requisitos específicos, você também pode precisar de armazenamentos temporários para dados em trânsito.
Processamento e análise
Esta é etapa em que os dados são transformados do estado bruto para um formato consumível, normalmente por meio da classificação, do agregamento, da união e, até mesmo, da execução de funções e algoritmos avançados. Os conjuntos de dados resultantes são então armazenados para processamento posterior ou disponibilizados para consumo através de inteligência de negócio e ferramentas de visualização de dados.
Consumo e visualização
O objetivo do Big Data é obter descobertas práticas e de alto valor com base nos seus ativos de dados. Idealmente, os dados são disponibilizados para as partes envolvidas através de inteligência de negócio de autoatendimento e ferramentas ágeis de visualização de dados que permitem a exploração rápida e fácil de conjuntos de dados. Dependendo do tipo de análise, os usuários finais também podem consumir os dados resultantes na forma de "previsões" estatísticas, no caso de análise preditiva, ou ações recomendadas, no caso de análise prescritiva.
Conclusão
Com o aumento da complexidade das fontes de dados, seja pelos desafios de volume, velocidade ou variedade dos dados, nota-se que sistemas tradicionais de dados não conseguem lidar com tais desafios. Foi preciso, portanto, de novas abordagens e tecnologias que consigam utilizar o Big Data para se extrair valor. As características do Big Data permitem obter benefícios como:
- Com o big data, você obtém respostas mais completas, porque tem mais informações.
- Respostas mais completas significam mais confiança nos dados, ou seja, uma abordagem completamente diferente para lidar com problemas.
Referências
- https://www.coursera.org/specializations/cloudera-big-data-analysis-sql
- https://www.oracle.com/br/big-data/what-is-big-data/
- https://aws.amazon.com/pt/big-data/what-is-big-data/
- https://www.ibm.com/analytics/big-data-analytics
- https://www.datascienceacademy.com.br/course/big-data-fundamentos-3
Fique à vontade para deixar nos comentários opiniões ou sugestões de melhoria.
Comentários
Postar um comentário