Processando dados com o SparkOperator no Minikube

Pré-requisitos

Certifique-se de ter instalado os seguintes requisitos antes de prosseguir:

Python (versão recomendada: 3.8)
Micromamba (versão recomendada: 1.4.9)
Docker (versão recomendada: 24.0.7)
Docker Compose (versão recomendada: v2.23.3-desktop.2)
kubectl (versão recomendada: v1.28.2)
Helmfile (versão recomendada: 0.155.0)
Taskfile (versão recomendada: 3.22.0)

Passo a passo para rodar o projeto

Clone este repositório:

git clone https://github.com/yurivenancio30/PySpark-Project

Navegue até o diretório do projeto:
```
cd PySpark-Project
```
Crie um ambiente virtual com o micromamba através do taskfile:
```
task create:env
```
Suba o Mysql e o Postgres com o docker compose:
```
docker compose up
```

Crie a tabela no Mysql:

CREATE TABLE `person` ( `id`   BIGINT UNSIGNED NOT NULL   AUTO_INCREMENT, `name`  varchar(10000)  DEFAULT NULL, `age`  BIGINT UNSIGNED  DEFAULT NULL, PRIMARY KEY (`id`));

Aplique o helm chart para subir o operador no cluster:
```
helmfile apply
```
Ative o ambiente virtual com o micromamba:
```
micromamba activate spark
```
Rode o o script em python para gerar os dados fakes no mysql:
```
task fake_data:mysql
```
Após a Criação dos dados, aplique o yaml do sparkapplication contra o cluster minikube para enviar os dados para o postgres:
```
task apply:spark
```

Name	Name	Last commit message	Last commit date
Latest commit yurivenancio30 Update README.md Feb 5, 2024 cc36bdc · Feb 5, 2024 History 10 Commits
jars	jars	chore: add postgres and mysql jar	Dec 29, 2023
.gitignore	.gitignore	chore: add stuffs in gitignore	Dec 29, 2023
Dockerfile	Dockerfile	feat: wip	Jan 3, 2024
README.md	README.md	Update README.md	Feb 5, 2024
Taskfile.yaml	Taskfile.yaml	chore: wip	Jan 4, 2024
compose.yaml	compose.yaml	chore: adding volumes in docker compose with databases	Jan 3, 2024
fake_data_to_mysql.py	fake_data_to_mysql.py	chore: wip	Jan 4, 2024
helmfile.yaml	helmfile.yaml	feat: wip	Jan 3, 2024
pyspark_project.py	pyspark_project.py	feat: add secrets to postgres	Jan 4, 2024
raw-values.yaml	raw-values.yaml	feat: add secrets to postgres	Jan 4, 2024
spark-operator-project.yaml	spark-operator-project.yaml	feat: wip	Jan 3, 2024
spark-operator-values.yaml	spark-operator-values.yaml	feat: wip	Jan 3, 2024
spark.env.yaml	spark.env.yaml	feat: wip	Jan 3, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Processando dados com o SparkOperator no Minikube

Pré-requisitos

Passo a passo para rodar o projeto

About

Releases

Packages

Languages

yurivenancio30/PySpark-Project

Folders and files

Latest commit

History

Repository files navigation

Processando dados com o SparkOperator no Minikube

Pré-requisitos

Passo a passo para rodar o projeto

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages