Este projeto de ETL (Extract, Transform, Load) em Python extrai dados de arquivos Excel em uma pasta, transforma-os e carrega-os em um novo arquivo Excel.
-
Extração (Extract):
- Os dados são extraídos dos arquivos Excel na pasta especificada usando a biblioteca
glob.
- Os dados são extraídos dos arquivos Excel na pasta especificada usando a biblioteca
-
Transformação (Transform):
- Adiciona uma coluna com o nome do arquivo de origem.
- Adiciona uma coluna com a localização, determinada pelo nome do arquivo.
- Extrai o nome da campanha da coluna
utm_linke adiciona uma nova coluna com este nome. - Combina todos os DataFrames em um único DataFrame.
-
Carregamento (Load):
- Salva o DataFrame resultante em um novo arquivo Excel na pasta de saída.
- Python
- Pandas
- os
- glob
- src/: Pasta principal do projeto
- data/: Pasta para os arquivos de entrada e saída
- raw/: Contém os arquivos Excel de entrada
- ready/: Onde o arquivo Excel resultante será salvo
- main.py: Script Python com o código do ETL
- data/: Pasta para os arquivos de entrada e saída
- Coloque os arquivos Excel de entrada em
data/raw. - Execute o script
main.py. - Certifique-se de ter permissão de escrita em
data/readypara salvar o arquivo resultante.
Este é um exemplo simples de um processo ETL em Python e pode ser expandido conforme necessário para atender a requisitos adicionais.