Como aprender grandes dados
De um ponto de vista onde "grandes dados" só difere dos dados "regulares" nos aspectos de Volume, Velocidade e Variedade (os famosos 3 Vs), você pode colocar grandes dados no contexto mais amplo da ciência de dados, uma disciplina que visa extrair conhecimento ou insights a partir de dados (des)estruturados. Você pode considerar grandes dados como inerentemente ligados ou mesmo parte da ciência de dados, pois os dados que você estará trabalhando como um cientista de dados ou parte de uma equipe de ciência de dados podem ser grandes dados.
P>Eu acho que você deve, portanto, ver também a aprendizagem de grandes dados no contexto mais amplo da aprendizagem da ciência de dados. Veja os oito passos que são mencionados neste infográfico: Aprender Ciência de Dados - Infográfico. O que você deve aprender é o seguinte:
>ul>Você precisa entender como dados grandes diferem dos dados regulares,li>li>li>Grasp a abordagem distribuída de armazenamento e processamento de dados, eli>li>Ustand the advantage of the in-memory cluster computing framework.Minha explicação pode parecer abstrata até agora, mas era necessária para explicar os passos pelos quais eu passei quando entrei na ciência dos dados:
- >li>Step 1. Certifique-se de que você pode programar em Python ou Scala
Para Python, você poderia considerar os seguintes cursos: Aprenda Python para Ciência de Dados - Curso Online e Introdução ao Python para Ciência de Dados, onde você aprenderá o Python que você precisa para começar com a ciência de dados. Claro que há muitos outros materiais, mas no final, eu mencionei esses recursos porque você deve ter como objetivo obter a introdução mais prática, aprender fazendo em Python que você puder obter.
Para Scala, eu fiz uso da "Programação em Scala" do Odersky. Este livro dá uma introdução completa, com muitos exemplos para começar. Eu não encontrei nenhum curso de Scala que desse uma abordagem muito prática, então vou apenas mencionar o livro aqui. Além disso, se você considerar o parágrafo seguinte, você também entenderá porque uma abordagem prática para aprender Scala é menos relevante no início.
O que escolher? Pense em quais linguagens de programação você já conhece. Se você tem experiência em programação com Java, basta ir para Scala. Isto deve ser um pouco simples porque o Spark apenas funciona melhor com Scala e não é muito difícil de lidar se você já está nesse nível. Se você está apenas começando, escolha Python, mas considere migrar para Scala a longo prazo.
- Step 2. Seja Introduzido ao Spark
- Step 4. Get Introduced to/Revise Data Management
Um componente que muitas pessoas esquecem quando estão trabalhando com Big Data é o fato de que os dados em si trazem problemas específicos para a tabela sobre os quais você normalmente não precisa se preocupar quando você está trabalhando com arquivos de texto simples.
Seriamente considere a leitura sobre o que significa implementar a qualidade dos dados e gerenciamento de dados mestres, e se você não tem uma base de conhecimento em data warehousing e BI, coloque isso mesmo antes da qualidade dos dados e gerenciamento de dados mestres para começar. Mais tarde, você também deve considerar a arquitetura de dados e segurança de dados.
>ul>li>Step 5. Pratique!No início, confira alguns exemplos, tais como snowplow/spark-example-project e databricks/learning-spark.
Next, encontre um grande problema de dados e comece a trabalhar nisso. Siga todos os passos que você daria com o fluxo de trabalho da ciência dos dados: importe os dados, explore, explore, modele, valide e visualize. Você pode usar os passos que você já passou acima para passar pela maioria das fases, mas não se esqueça de começar também com softwares de visualização como o Tableau ou fazer uso da biblioteca de visualização Bokeh.
- Step 6. Considere Seguir um Treinamento (Opcional)
Se você realmente quiser, você também pode seguir um treinamento corporativo ou particular da Cloudera ou do Databricks Training.
Artigos semelhantes
- Para aprender ciências de dados, o Data Camp é melhor do que a especialização em ciências de dados do Coursera?
- Como compilar uma pasta de dados em um .exe, se o .exe requer os dados na pasta de dados para rodar
- Como os Grandes Dados e a Inteligência Artificial estão relacionados?
- Onde posso encontrar grandes conjuntos de dados abertos ao público?