Onde achar Datasets e Notebooks Interessantes na Internet

Existe uma pergunta muito frequente na Ciência de Dados. Onde achar Datasets e Notebooks(Jupyter) para estudar e/ou explorar? Existem na Internet diversos sites que oferecem bases de dados que qualquer pessoa pode ter acesso e baixar para realizar seus próprios estudos e análises exploratórias dos dados. Existem sites também, que oferecem Notebooks, geralmente escritos em Python, que podem contribuir com vários exemplos de como analisar devidamente uma base de dados e criando se possível, uma máquina preditiva com um modelo matemático apropriado para o problema em questão. 

Abaixo uma lista dos melhores sites para downloads de Datasets e Notebooks:

 

1. Dados Brasil - Governo

www.dados.gov.br

 

2. Kaggle

www.kaggle.com

 

3. Dados EUA - Governo

www.data.gov

 

4. Brasil IO

www.brasil.io

 

5. FiveThirtyEight

www.data.fivethirtyeight.com

 

 

Todos os sites acima apresentam uma boa variedade de Datasets. Pode-se pesquisar por categorias ou simplesmente navegar pelas Base de Dados e escolher uma que mais lhe interesse. Existem dados de Aviação Comercial, Genética e Genoma Humanos, Diagnósticos de Doenças, Estatísticas esportivas e muitos outros tipos de dados.

Levando em consideração o imenso universo de dados disponíveis em sites como Kaggle, DadosBrasil e outros, é impossível não reconhecer neles uma oportunidade de testar suas habilidades de Análise com Datasets reais e também entender o ponto de vista de como outros Cientistas de Dados analisariam e criariam soluções de Machine Learning baseado nesse imendo universo de dados.

É possível também realizar consultas em Bancos de Dados usando APIs e receber dados em tempo real para alimentar Dashboards. As Redes Sociais mais famosas e plataformas de Streaming mais acessadas, possuem um endereço de acesso à API, e é nesse endereço que faríamos autenticação e requisição dos dados em tempo real. Atualmente uma das integrações com API mais usadas é a análise de sentimentos via TwitterAPI, onde é possível analisar qual tipo de sentimento as pessoas estão transmitindo em seus posts sobre determinado assunto, marca, candidato, produtos e quase qualquer outra coisa que queiramos analisar. As aplicações desse tipo de integração são tantas, que ferramentas estão sendo desenvolvidas medindo alcance e impacto de ações em Redes Sociais, com implicações nas áreas de Marketing, Economia, Finanças, Saúde, Educação e muitas outras.

  

 

 

Google Data Studio

A Google fez de novo!

Entendendo a necessidade constante das empresas de gerarem relatórios e análises de dados cada vez mais precisas e claras que proporcionam uma tomada de decisão melhor, a Google criou o Data Studio. Os concorrentes diretos, se é que podemos chamá-los assim, são o POWER BI da Microsoft e o TABLEAU, ambos softwares que possibilitam a geração de gráficos e relatórios a partir de Bases de Dados, assim como o Data Studio.

Com um visual arrojado e um software extremamente intuitivo, o Google Data Studio tem tudo para ser uma das ferramentas mais usadas na geração de relatórios dinâmicos e análise exploratória de dados, por ter funções de compartilhamento direto e restrito, algo bem comum em todos os produtos Google.

datastudio attribution dashboard 2450x1225

Na imagem acima temos uma pequena demonstração dos tipos de gráficos e relatórios que podemos gerar usando o Data Studio. É possível notar que por padrão a própria aplicação traz cores, formatações, fontes e divs muito bem apresentadas.

É importante lembrar que existem duas versões do Google Data Studio, sendo uma Free e uma Paga, que claramente oferece funções ainda mais avançadas e úteis.

 

Link para Tutorial Google Data Studio https://support.google.com/datastudio/answer/6292570?hl=pt-BR

 

Python - Origens e Usos

A linguagem Python vem se tornando cada vez mais popular em diversas áreas do Desenvolvimento de Software, mas entre todas as áreas a que mais se destaca sem dúvida é a Ciência de Dados e suas diversas vertentes. As origens da linguagem Python podem ser mais supreendentes que muitos imaginam.

Criada em 1989 pelo Matemático Holandês Guido Van Rossum, a linguagem Python recebeu o nome inspirado no grupo humorístico Monty Python, criadores do programa Britânico de Humor Monty Python's Flying Circus. 

Dentre as principais características do Python estão:

- Linguagem de Alto Nível

- Interpretada

- De Script

- Imperativa

- Orientada à objetos

- Funcional

- Tipagem Dinâmica e Forte

- Multiparadigma

Python valoriza a legibilidade do código e a facilidade de desenvolvimento, além de possuir uma filosofia voltada a simplicidade e a constante evolução, conhecida como ZEN do PYTHON.

ZEN of PYTHON 


Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Complex is better than complicated. Flat is better than nested. Sparse is better than dense. Readability counts. Special cases aren't special enough to break the rules. Although practicality beats purity. Errors should never pass silently. Unless explicitly silenced. In the face of ambiguity, refuse the temptation to guess. There should be one—and preferably only one—obvious way to do it. Although that way may not be obvious at first unless you're Dutch. Now is better than never. Although never is often better than *right* now. If the implementation is hard to explain, it's a bad idea. If the implementation is easy to explain, it may be a good idea. Namespaces are one honking great idea—let's do more of those!

Português


Bonito é melhor que feio Explícito é melhor que implícito Simples é melhor que complexo Complexo é melhor que complicado Linear é melhor do que aninhado Esparso é melhor que denso Legibilidade conta Casos especiais não são especiais o bastante para quebrar as regras. Ainda que praticidade vença a pureza Erros nunca devem passar silenciosamente. A menos que sejam explicitamente silenciados Diante da ambiguidade, recuse a tentação de adivinhar Deveria haver um — e preferencialmente apenas um — modo óbvio para fazer algo. Embora esse modo possa não ser óbvio a princípio a menos que você seja holandês Agora é melhor que nunca Embora nunca freqüentemente seja melhor que já Se a implementação é difícil de explicar, é uma má ideia Se a implementação é fácil de explicar, pode ser uma boa ideia Namespaces são uma grande ideia — vamos ter mais dessas!

 

Além de ser uma linguagem de licença gratuita, existem diversas bibliotecas desenvolvidas por terceiros que facilitam o desenvolvimento de código para as mais diversas áreas. Na Matemática e Ciência de Dados temos bibliotecas como NumPY, Pandas, Statistics, Matplotlib e muitas outras envolvendo também Machine Learning e Inteligência Artificial que foram desenvolvidas especificamente para determinadas abordagens e projetos de dados. Para desenvolvimento em desktop temos a bilbioteca TKinter e na Web temos dois Frameworks entre os mais conhecidos que são DJANGO e FLESK. 

Em resumo não existe tarefa que não possa ser executada em Python e cada vez mais a linguagem vem ganhando espaço, principalmente entre Matemáticos e Cientistas de Dados. Recomenda-se que no início dos estudos de Python, busque-se fixar bem os conceitos básicos da linguagem que são um pouco diferentes de outras linguagens.

Segue link dando uma introdução ao Python - https://python.org.br/introducao/