Por que usar R?
A pergunta do título sugere que devemos utilizar a linguagem R, mas por quê?
Ao longo deste post irei dando algumas definições da linguagem R para que gradualmente entendermos de que esta é uma ferramenta proeminente, principalmente, em momentos de fazer ciência com dados.
O que é a linguagem R?
Nenhuma definição, geralmente, é melhor do que a feita pela própria ferramenta. Abaixo, encontra-se uma breve descrição feita pelo site do projeto R:"R é um ambiente de software livre para computação estatística e gráficos. Ele compila e roda em uma ampla variedade de plataformas UNIX, Windows e MacOS."
A linguagem R é um projeto open-source, o que significa que não há custo de licença e seu desenvolvimento é feito graças a contribuidores bastante ativos de todo o mundo. Inicialmente, foi desenvolvida por estatísticos do departamento de Estatística da Universidade de Auckland, Nova Zelândia.
Uma de suas principais características é fornecer uma ampla variedade de técnicas estatísticas, como modelagem linear e não linear, testes estatísticos clássicos, análise de séries temporais, classificação, agrupamento, etc. e gráficas, e é altamente extensível.
R também tem um sistema de repositórios, conhecido como CRAN (Comprehensive R Archive Network), que atua na distribuição de pacotes de extensão e documentação.
Por que usar R para Análise de Dados?
Agora que sabemos as características de R, qual seu papel e benefícios dentro da área em Ciência de Dados/Análise de Dados?
Primeiro, como comentamos é uma linguagem open-source. Tudo que precisamos fazer para começar a utilizar é baixar e instalar o seu interpretador.
R é um software estatístico onde modelos estatísticos complexos como regressão linear, regressão logística, testes de hipótese, ANOVA (Análise de Variância), GLM (Modelo Linear Generalizado), etc., podem ser executados.
R tem ótimas ferramentas para ajudar na visualização de dados para criar vários tipos de gráficos, como gráficos de barras, gráficos de dispersão e outros gráficos personalizados.
Diversos algoritmos de Machine Learning como SVM, Teorema de Naives Bayes, XGboost, Decision Tree e Random Forest estão disponíveis em R.
É possível integrar R com outras ferramentas como SAS e Power BI, assim que códigos em R são amplamente usados e os programadores estão se familiarizando com eles.
Os programadores podem desenvolver seus próprios algoritmos e pacotes personalizados.
Concluindo
Para concluir, podemos citar as principais vantagens do uso de R:
- Está disponível em todas as plataformas, como Linux, Mac e Windows.
- Tem a capacidade de integração com linguagens C, C++, .Net, Python ou FORTRAN.
- Tem um tratamento de dados eficaz e facilidade de armazenamento.
- Fornece uma ampla variedade de coleção integrada de ferramentas para análise de dados.
Referências
- https://www.r-project.org/
- https://pt.wikipedia.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o)
- https://www.simplilearn.com/learn-data-science-with-r-basics-skillup
Fique à vontade para deixar nos comentários opiniões ou sugestões de melhoria.
Comentários
Postar um comentário