Definição – O que significa Análise de Big Data de código aberto?
A análise de big data de código aberto refere-se ao uso de software e ferramentas de código aberto para analisar grandes quantidades de dados a fim de reunir informações relevantes e acionáveis que uma organização pode usar a fim de promover seus objetivos de negócios. O maior jogador em análise de big data de código aberto é o Hadoop da Apache – é a biblioteca de software mais amplamente usada para processar enormes conjuntos de dados em um cluster de computadores usando um processo distribuído para paralelismo.
Definirtec explica Open-Source Big Data Analytics
A análise de big data de código aberto faz uso de software e ferramentas de código aberto para executar análises de big data usando uma plataforma de software completa ou várias ferramentas de código aberto para diferentes tarefas no processo de análise de dados. Apache Hadoop é o sistema mais conhecido para análise de big data, mas outros componentes são necessários antes que um sistema analítico real possa ser montado.
Hadoop é a implementação de código aberto do algoritmo MapReduce criado pelo Google e Yahoo, por isso é a base da maioria dos sistemas analíticos atuais. Muitas ferramentas de análise de big data usam código aberto, incluindo sistemas de banco de dados robustos, como o MongoDB de código aberto, um banco de dados NoSQL sofisticado e escalável muito adequado para aplicativos de big data, entre outros.
Os serviços de análise de big data de código aberto abrangem:
- Sistema de coleta de dados
- Centro de controle para administrar e monitorar clusters
- Biblioteca de aprendizado de máquina e mineração de dados
- Serviço de coordenação de aplicativos
- Compute engine
- Estrutura de execução