0% acharam este documento útil (0 voto)

314 visualizações15 páginas

Guia PySpark

O documento apresenta um tutorial sobre o uso do PySpark para análise de big data, cobrindo tópicos como pré-processamento de dados, regressão linear, regressão logística, random forest, naive bayes e kmeans. O tutorial demonstra essas técnicas usando um conjunto de dados com mais de 1,5 milhão de registros no Google Colab.

Enviado por

Bruno Cury

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

314 visualizações15 páginas

Guia PySpark

Enviado por

Bruno Cury

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 15

@Odemir Depieri Jr Compartilhe

Tour pelo PySpark

Trabalhando com BigData

✓ Tratamento de Dados
✓ Pré-processamento
✓ Regressão Linear (ML - Linear)
✓ Regressão Logística (ML - Classificação)
✓ Random Forest (ML - Classificação)
✓ Naive Bayes (ML – Classificação)
✓ KMeans (ML – Clusterização)

100% Português (Br)

@Odemir Depieri Jr

Um resumo do Spark

O que é Apache Spark ?

O Apache Spark é um mecanismo multilíngue para executar engenharia de dados,
ciência de dados e aprendizado de máquina em máquinas ou clusters de nó único.

PySpark
PySpark é a interface alto nível que permite você conseguir acessar e usar o Spark
por meio da linguagem Python. Usando o PySpark, você consegue escrever todo o
seu código usando apenas o nosso estilo Python de escrever código.

Big Data e Python

A biblioteca PySpark permite você criar seu servidor Apache Spark, trabalhar
com grandes volumes de dados e até mesmo fazer streaming em tempo real.

Spark é o dos melhores framework para trabalhar com Big Data.

Tenha certeza que o PySpark vai te ajudar muito ao criar uma interface Python
que permita a comunicação entre seu projeto e o servidor.

Fonte da pesquisa:
https://spark.apache.org/
https://bityli.com/kysit
@Odemir Depieri Jr

Iniciando e Instalando o PySpark no Google Colab

Iniciar a sessão do Spark

Carregando uma base de dados.

Estava usando uma base com mais de 1.5 milhões de registros.
@Odemir Depieri Jr

Verificando os registros
@Odemir Depieri Jr

Operando nas colunas

Removendo valores nulos

@Odemir Depieri Jr
@Odemir Depieri Jr

Filtrando
@Odemir Depieri Jr

Agrupando

Join
@Odemir Depieri Jr

Ordenando

Pré-processamento
@Odemir Depieri Jr

Correlação

Regressão Linear
@Odemir Depieri Jr

Continuação da Regressão

Regressão Logística
@Odemir Depieri Jr

Continuação da Regressão

Random Forest
@Odemir Depieri Jr

Continuação Random Forest

Naive Bayes
@Odemir Depieri Jr

Continuação Naive Bayes

Kmeans
@Odemir Depieri Jr

Final
Esse guia foi elaborada para demostrar o uso do PySpark

Link do código
https://colab.research.google.com/drive/1_ZPm80kl7zs5EDSUmcvtGVTp
6WrRZiGj?usp=sharing

Odemir Depieri Jr
Data Intelligence Analyst Sr
Tech Lead
Specialization AI

Guia PySpark

Enviado por

Guia PySpark

Enviado por

@Odemir Depieri Jr Compartilhe

Tour pelo PySpark

Trabalhando com BigData

100% Português (Br)

O que é Apache Spark ?

Big Data e Python

Spark é o dos melhores framework para trabalhar com Big Data.

Iniciando e Instalando o PySpark no Google Colab

Iniciar a sessão do Spark

Carregando uma base de dados.

Operando nas colunas

Removendo valores nulos

Continuação Random Forest

Continuação Naive Bayes

Você também pode gostar

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.