0% acharam este documento útil (0 voto)
314 visualizações15 páginas

Guia PySpark

O documento apresenta um tutorial sobre o uso do PySpark para análise de big data, cobrindo tópicos como pré-processamento de dados, regressão linear, regressão logística, random forest, naive bayes e kmeans. O tutorial demonstra essas técnicas usando um conjunto de dados com mais de 1,5 milhão de registros no Google Colab.

Enviado por

Bruno Cury
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
314 visualizações15 páginas

Guia PySpark

O documento apresenta um tutorial sobre o uso do PySpark para análise de big data, cobrindo tópicos como pré-processamento de dados, regressão linear, regressão logística, random forest, naive bayes e kmeans. O tutorial demonstra essas técnicas usando um conjunto de dados com mais de 1,5 milhão de registros no Google Colab.

Enviado por

Bruno Cury
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 15

@Odemir Depieri Jr Compartilhe

Tour pelo PySpark

Trabalhando com BigData

✓ Tratamento de Dados
✓ Pré-processamento
✓ Regressão Linear (ML - Linear)
✓ Regressão Logística (ML - Classificação)
✓ Random Forest (ML - Classificação)
✓ Naive Bayes (ML – Classificação)
✓ KMeans (ML – Clusterização)

100% Português (Br)


@Odemir Depieri Jr

Um resumo do Spark

O que é Apache Spark ?


O Apache Spark é um mecanismo multilíngue para executar engenharia de dados,
ciência de dados e aprendizado de máquina em máquinas ou clusters de nó único.

PySpark
PySpark é a interface alto nível que permite você conseguir acessar e usar o Spark
por meio da linguagem Python. Usando o PySpark, você consegue escrever todo o
seu código usando apenas o nosso estilo Python de escrever código.

Big Data e Python


A biblioteca PySpark permite você criar seu servidor Apache Spark, trabalhar
com grandes volumes de dados e até mesmo fazer streaming em tempo real.

Spark é o dos melhores framework para trabalhar com Big Data.


Tenha certeza que o PySpark vai te ajudar muito ao criar uma interface Python
que permita a comunicação entre seu projeto e o servidor.

Fonte da pesquisa:
https://spark.apache.org/
https://bityli.com/kysit
@Odemir Depieri Jr

Iniciando e Instalando o PySpark no Google Colab

Iniciar a sessão do Spark

Carregando uma base de dados.


Estava usando uma base com mais de 1.5 milhões de registros.
@Odemir Depieri Jr

Verificando os registros
@Odemir Depieri Jr

Operando nas colunas

Removendo valores nulos


@Odemir Depieri Jr
@Odemir Depieri Jr

Filtrando
@Odemir Depieri Jr

Agrupando

Join
@Odemir Depieri Jr

Ordenando

Pré-processamento
@Odemir Depieri Jr

Correlação

Regressão Linear
@Odemir Depieri Jr

Continuação da Regressão

Regressão Logística
@Odemir Depieri Jr

Continuação da Regressão

Random Forest
@Odemir Depieri Jr

Continuação Random Forest

Naive Bayes
@Odemir Depieri Jr

Continuação Naive Bayes

Kmeans
@Odemir Depieri Jr

Final
Esse guia foi elaborada para demostrar o uso do PySpark

Link do código
https://colab.research.google.com/drive/1_ZPm80kl7zs5EDSUmcvtGVTp
6WrRZiGj?usp=sharing

Odemir Depieri Jr
Data Intelligence Analyst Sr
Tech Lead
Specialization AI

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy