Skip to content

yurivenancio30/PySpark-Project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

cc36bdc · Feb 5, 2024

History

10 Commits
Dec 29, 2023
Dec 29, 2023
Jan 3, 2024
Feb 5, 2024
Jan 4, 2024
Jan 3, 2024
Jan 4, 2024
Jan 3, 2024
Jan 4, 2024
Jan 4, 2024
Jan 3, 2024
Jan 3, 2024
Jan 3, 2024

Repository files navigation

Processando dados com o SparkOperator no Minikube

Pré-requisitos

Certifique-se de ter instalado os seguintes requisitos antes de prosseguir:

Passo a passo para rodar o projeto

  1. Clone este repositório:

    git clone https://github.com/yurivenancio30/PySpark-Project
  2. Navegue até o diretório do projeto:

    cd PySpark-Project
  3. Crie um ambiente virtual com o micromamba através do taskfile:

    task create:env
  4. Suba o Mysql e o Postgres com o docker compose:

    docker compose up
  5. Crie a tabela no Mysql:

    CREATE TABLE `person` ( `id`   BIGINT UNSIGNED NOT NULL   AUTO_INCREMENT, `name`  varchar(10000)  DEFAULT NULL, `age`  BIGINT UNSIGNED  DEFAULT NULL, PRIMARY KEY (`id`));
  6. Aplique o helm chart para subir o operador no cluster:

    helmfile apply
  7. Ative o ambiente virtual com o micromamba:

    micromamba activate spark
  8. Rode o o script em python para gerar os dados fakes no mysql:

    task fake_data:mysql
  9. Após a Criação dos dados, aplique o yaml do sparkapplication contra o cluster minikube para enviar os dados para o postgres:

    task apply:spark

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published