Engenheiro de Dados em 2022

Já se foi o tempo em que era preciso ter cursado engenharia para poder ocupar o papel de engenheiro. Não sei exatamente quando a moda começou a invadir as empresas de tecnologia e o desenvolvedor se tornou engenheiro de software e o analista de banco de dados virou engenheiro de dados. Não vou nem mencionar o analista que depois de um banho de estatística (ou pelo menos é o que deveria ter acontecido) virou cientista de dados, ainda mais levando em consideração a performance lamentável do Brasil em matemática.


Ranço a parte, muitas pessoas se perguntam qual seria o melhor caminho para tentar ingressar na carreira de Eng. de Dados em 2022. Separei as principais áreas, por ordem de relevância e de facilidade de aprendizado, para quem está iniciando. De maneira resumida, o Eng. de Dados precisa saber 4 assuntos principais: Banco de Dados, APIs REST, Big Data, e principais produtos de dados de algum provedor de nuvem ( AWS, Google, Azure). Um bônus (mas não necessário) é algum conhecimento de Machine Learning e como é normalmente usado em produção.


Banco de Dados


Como era de se esperar, conhecimento de banco de dados é o mais relevante para a área. Saber os diferentes tipos de bancos de dados ( relacionais, NoSQL, tabulares, etc) e suas aplicações, e principalmente saber montar um banco relacional em SQL e deixar algumas queries prontas. 

Uma das vantagens de aprender SQL é que existem ferramentas de big data como o apache Spark que o utilizam. 

Outro tipo de banco de dados que é cada vez mais utilizado são os NoSQL, como o MongoDB por exemplo. Saber como fazer consultas com boa performance e modelar seus documentos de maneira a acomodar mudanças com facilidade são os pontos principais para iniciar. Esse tipo de BD possui uma vantagem significativa com relação ao relacional quanto a facilidade em escalabilidade, portanto vale a pena ser estudado quando pode ou não ser utilizado.

Finalmente, quando estamos falando de disponibilização de dados para consumo em larga escala, é bom saber da existência de alguns bancos de dados orientados a colunas, como o Apache Cassandra. Ele também é um NoSQL, mas a caracterítisca principal por trás do seu design é a replicação e alta disponibilidade. Ele também suporta o método Map Reduce, muito usado em processamento de larga escala.

Links relevantes:
Mode.com tutorial SQL - possui um tutorial completo, gratuito, de SQL com um sistema online de execução de queries. É muito bom pois não é somente teoria.
SQL for Data Science - curso que cobre bem todo o conteúdo básico de SQL, com uma pitada de Data Science no final.

APIs REST



Esse é um tópico cuja demanda tem crescido bastante, porque é um dos jeitos mais eficazes de tornar os dados disponíveis para consumo. Não é esperado que você saiba fazer sistemas complexos, mas apenas manter uma API funcional.

Um banco de dados interessante para ser usado como Cache em sistemas com multiplos endpoints REST é o Redis, que guarda dados em memória e tem uma performance excelente para operações de leitura.

Dependendo da sua linguagem preferida, ficam aí alguns frameworks que vale a pena ler o tutorial e aprender o básico:

- Python - Flask, FastAPI
- JavaScript - Express no NodeJS

Big Data



Saber bem o básico de SQL e bancos de dados vai te ajudar muito, mas o diferencial para conseguir uma vaga com certeza será o conhecimento de técnicas e ferramentas de big data. Uma dica boa para quem quer treinar sem ter que desembolsar muito dinheiro é o ambiente Community do DataBricks

DataBricks é um serviço que proporciona cluster gerenciados para criar Jobs em Spark. Spark, pra quem não conhece, é um engine especializado em processamento em larga escala. É uma das ferramentas básicas de Big Data.

Um curso interessante para aprender o básico de Spark é o Distributed Computing with Spark SQL .

Cloud 



Aqui entra uma aposta de qual Cloud escolher, pois embora elas sejam semelhantes, os produtos de dados são bem diferentes. Pela minha experiência, o mais caro, porém mais fácil e com melhor suporte, é a Azure. Porém, é o menos utilizado pelas empresas, por isso eu não começaria a aprender por ela. As duas principais alternativas são AWS e Google Cloud. Uma boa regra do polegar para escolher com qual começar poderia ser pensando em qual tamanho de empresa você deseja trabalhar: o Google Cloud embora seja mais barato, é mais utilizado por empresas de porte menor, e com usuários menos espalhados pelo mundo. A AWS é mais utilizada por empresas de grande porte, mesmo sendo mais cara.

Os produtos "da moda" para a área de Eng. de Dados, segundo minha percepção, para 2021 foram:
- Google Cloud: DataFlow, Composer, BigQuery, BigTable.
- AWS: Redshift, EMR, Glue Databrew, Athena.

O mais importante não é dominar todos a fundo, mas saber quando usar e quais as vantagens com relação a criar uma instância própria e trazer o gerenciamento para sua empresa.

O Google tem uma parceria com o Coursera, e por isso existem diversos cursos e especializações para aprender GCP. Vale a pena pesquisar!

Machine Learning em Prod



Chegamos no último item da lista, e esse é mais um bônus do que algo pra se aventurar. Definitivamente não é responsabilidade do Eng. de Dados saber o funcionamento de algoritmos de Machine Learning nem suas aplicações, mas algo que pode te proporcionar uma vantagem competitiva enorme é saber usar recursos do seu provedor de cloud que oferecem soluções quase prontas. 

Um bom exemplo são os algoritmos de ML integrados no BigQuery do Google Cloud. Usando sintaxe em SQL, você pode aplicar alguns modelos simples de ML em seus dados e fazer algumas previsões. Não é algo otimizado e passa longe de uma solução feita sob medida, mas dependendo da performance pode encorajar a empresa a gastar recursos desenvolvendo uma solução própria.

Um curso que mostra uma aplicação prática e é bem curto é o Smart Analytics, Machine Learning, and AI on GCP

Conclusão


O tamanho da lista pode ser meio intimidador, mas em parte justifica o salário alto que o Eng. de Dados têm recebido no mercado. Se você acha que faltou algo importante na lista, por favor adicione nos comentários e a lista será atualizada (com créditos =D). Abraço!

Comentários

Top 3 em 1 ano: