Sou um entusiasta de Dados, Cloud e Machine Learning, com experiência em ETL, arquitetura de medalhão (Medallion Architecture) e integração entre diferentes camadas analíticas.
Atualmente foco meus estudos e projetos em Databricks, Engenharia de Dados, Machine Learning e Visualização de Dados.
Conjunto de projetos desenvolvidos para explorar o ecossistema Databricks, desde ingestão e transformação de dados até análises e machine learning.
databricks-projects/
├── retail/
│ ├── etl/ # Pipelines de ingestão e transformação de dados
│ ├── api_integration/ # Consultas a APIs externas e caching para performance
│ ├── medallion_architecture/ # Estrutura Bronze → Silver → Gold
│ └── jobs/ # Jobs e pipelines automatizados
│
├── credit-card-fraud/
│ ├── 01_bronze_ingestion_dev.ipynb/ # Limpeza e pré-processamento de dados
│ └── 02_silver_dev.ipynb/ # Modelagem e avaliação de algoritmos de detecção de fraude
│
├── fly-analysis/ # Dados de voo
│ ├── 02_silver_layer.ipynb/ # Limpeza e pré-processamento de dados
│ └── 03_gold_layer.py.ipynb/ # Arquivo com array pca para modelo de ML
│
├── mongodb/
│ └── sample_mflix/ # Limpeza e pré-processamento de arquivos json (Achatamento)
│
└── telemetria/
├── iot/ # Limpeza e pré-processamento de arquivos
└── iot-streaming/
Destaques:
- ETL com Spark e Delta Lake
- Testes de cache e otimização de consultas a API
- Estrutura completa Medallion (Bronze → Silver → Gold)
- Pipeline e orquestração de jobs
- Modelos de Machine Learning aplicados a detecção de fraudes (PCA)
- Análises rápidas com notebooks Databricks
Repositório com as aulas e práticas do bootcamp de Cloud Computing (AWS).
Explora a criação e gerenciamento de infraestrutura como código com Terraform.
Conteúdo:
- Criação de instâncias EC2
- Configuração de S3, IAM e VPC
- Automação de ambientes para Data Engineering
Coleção de relatórios e dashboards criados em Power BI, com arquivos .pbix e exportações em PDF.
Destaques:
- Dashboards de vendas e performance
- Análises comparativas e indicadores de negócio
- Layouts otimizados para storytelling de dados
- Projeto Power BI
Materiais de estudo e códigos de apoio que uso como base para projetos mais avançados.
- data_science_python → Conceitos fundamentais de Python para ciência de dados
- data_science_python_avançada → Técnicas avançadas de modelagem e pré-processamento
- curso-databricks → Conteúdo de referência e anotações de aulas de Databricks
| Categoria | Ferramentas |
|---|---|
| Data Engineering | Databricks, Apache Spark, Delta Lake, SQL |
| Machine Learning | Scikit-learn, Pandas, PySpark MLlib |
| Cloud | AWS, Terraform |
| Visualização | Power BI |
| Versionamento e DevOps | Git, Docker, CI/CD |
- 🧑💻 GitHub
- ✉️ tiagonovelli95@gmail.com
⭐ Curta ou siga meus projetos se quiser acompanhar meu progresso em engenharia e ciência de dados!