Por que usar R?

A pergunta do título sugere que devemos utilizar a linguagem R, mas por quê?

Ao longo deste post irei dando algumas definições da linguagem R para que gradualmente entendermos de que esta é uma ferramenta proeminente, principalmente, em momentos de fazer ciência com dados.

O que é a linguagem R?

Nenhuma definição, geralmente, é melhor do que a feita pela própria ferramenta. Abaixo, encontra-se uma breve descrição feita pelo site do projeto R:

"R é um ambiente de software livre para computação estatística e gráficos. Ele compila e roda em uma ampla variedade de plataformas UNIX, Windows e MacOS."

A linguagem R é um projeto open-source, o que significa que não há custo de licença e seu desenvolvimento é feito graças a contribuidores bastante ativos de todo o mundo. Inicialmente, foi desenvolvida por estatísticos do departamento de Estatística da Universidade de Auckland, Nova Zelândia.

Uma de suas principais características é fornecer uma ampla variedade de técnicas estatísticas, como modelagem linear e não linear, testes estatísticos clássicos, análise de séries temporais, classificação, agrupamento, etc. e gráficas, e é altamente extensível.

R também tem um sistema de repositórios, conhecido como CRAN (Comprehensive R Archive Network), que atua na distribuição de pacotes de extensão e documentação.

Por que usar R para Análise de Dados?

Agora que sabemos as características de R, qual seu papel e benefícios dentro da área em Ciência de Dados/Análise de Dados?

Primeiro, como comentamos é uma linguagem open-source. Tudo que precisamos fazer para começar a utilizar é baixar e instalar o seu interpretador.

R é um software estatístico onde modelos estatísticos complexos como regressão linear, regressão logística, testes de hipótese, ANOVA (Análise de Variância), GLM (Modelo Linear Generalizado), etc., podem ser executados.

R tem ótimas ferramentas para ajudar na visualização de dados para criar vários tipos de gráficos, como gráficos de barras, gráficos de dispersão e outros gráficos personalizados.

Diversos algoritmos de Machine Learning como SVM, Teorema de Naives Bayes, XGboost, Decision Tree e Random Forest estão disponíveis em R.

É possível integrar R com outras ferramentas como SAS e Power BI, assim que códigos em R são amplamente usados e os programadores estão se familiarizando com eles.

Os programadores podem desenvolver seus próprios algoritmos e pacotes personalizados.

Concluindo

Para concluir, podemos citar as principais vantagens do uso de R:

  • Está disponível em todas as plataformas, como Linux, Mac e Windows.
  • Tem a capacidade de integração com linguagens C, C++, .Net, Python ou FORTRAN.
  • Tem um tratamento de dados eficaz e facilidade de armazenamento.
  • Fornece uma ampla variedade de coleção integrada de ferramentas para análise de dados.

Referências

  • https://www.r-project.org/
  • https://pt.wikipedia.org/wiki/R_(linguagem_de_programa%C3%A7%C3%A3o)
  • https://www.simplilearn.com/learn-data-science-with-r-basics-skillup

Fique à vontade para deixar nos comentários opiniões ou sugestões de melhoria.

Comentários

Postagens mais visitadas deste blog

Dados Estruturados, Semi-Estruturados e Desestruturados

Normalização e Desnormalização de Banco de Dados

Tipos de Análise de Dados

Dashboard de Vendas com Power BI - RoupasParaTodos