Onde achar Datasets e Notebooks Interessantes na Internet

Existe uma pergunta muito frequente na Ciência de Dados. Onde achar Datasets e Notebooks(Jupyter) para estudar e/ou explorar? Existem na Internet diversos sites que oferecem bases de dados que qualquer pessoa pode ter acesso e baixar para realizar seus próprios estudos e análises exploratórias dos dados. Existem sites também, que oferecem Notebooks, geralmente escritos em Python, que podem contribuir com vários exemplos de como analisar devidamente uma base de dados e criando se possível, uma máquina preditiva com um modelo matemático apropriado para o problema em questão. 

Abaixo uma lista dos melhores sites para downloads de Datasets e Notebooks:

 

1. Dados Brasil - Governo

www.dados.gov.br

 

2. Kaggle

www.kaggle.com

 

3. Dados EUA - Governo

www.data.gov

 

4. Brasil IO

www.brasil.io

 

5. FiveThirtyEight

www.data.fivethirtyeight.com

 

 

Todos os sites acima apresentam uma boa variedade de Datasets. Pode-se pesquisar por categorias ou simplesmente navegar pelas Base de Dados e escolher uma que mais lhe interesse. Existem dados de Aviação Comercial, Genética e Genoma Humanos, Diagnósticos de Doenças, Estatísticas esportivas e muitos outros tipos de dados.

Levando em consideração o imenso universo de dados disponíveis em sites como Kaggle, DadosBrasil e outros, é impossível não reconhecer neles uma oportunidade de testar suas habilidades de Análise com Datasets reais e também entender o ponto de vista de como outros Cientistas de Dados analisariam e criariam soluções de Machine Learning baseado nesse imendo universo de dados.

É possível também realizar consultas em Bancos de Dados usando APIs e receber dados em tempo real para alimentar Dashboards. As Redes Sociais mais famosas e plataformas de Streaming mais acessadas, possuem um endereço de acesso à API, e é nesse endereço que faríamos autenticação e requisição dos dados em tempo real. Atualmente uma das integrações com API mais usadas é a análise de sentimentos via TwitterAPI, onde é possível analisar qual tipo de sentimento as pessoas estão transmitindo em seus posts sobre determinado assunto, marca, candidato, produtos e quase qualquer outra coisa que queiramos analisar. As aplicações desse tipo de integração são tantas, que ferramentas estão sendo desenvolvidas medindo alcance e impacto de ações em Redes Sociais, com implicações nas áreas de Marketing, Economia, Finanças, Saúde, Educação e muitas outras.