0% acharam este documento útil (0 voto)

214 visualizações15 páginas

Ebook Data Science e Machine Learning

Enviado por

gsilvainacio

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

214 visualizações15 páginas

Ebook Data Science e Machine Learning

Enviado por

gsilvainacio

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 15

original Online Gratuito Com Certificado

Dominando Data Science

e Machine Learning:
Um Guia Completo com Cheatsheet
de Algoritmos de <A a Z/>
Sumário

Por Aprendizado 3

Aprendizado Supervisionado 3

Aprendizado Não Supervisionado 5

Por Categoria de Aplicação/Finalidade 7

Ensemble Learning 7

Modelos Explicativos 8

Agrupamento 9

Redução de Dimensionalidade 10

Por Similaridade 11
Introdução

Olá, seja bem-vindo(a)!

O
O Data Science é uma área da tecnologia que usa técnicas,
algoritmos, processos e sistemas para extrair conhecimento
e insights de dados estruturados e não estruturados.

Por conta disso, é muito importante dominar os métodos de

machine learning, que se concentra no desenvolvimento de
modelos que permitem que sistemas computacionais apren-
dam e melhorem o desempenho em tarefas específicas com
base em dados, sem serem explicitamente programados.

Com a variedade de algoritmos que existem — e com muitas

finalidades para as quais eles podem ser utilizados —, é
importante entender o funcionamento de cada método para
saber qual aplicar em cada momento.

Para ajudar você, desenvolvemos um guia completo com os

algoritmos mais importantes e a principal aplicação de cada
um deles.

Guarde esse cheatsheet para uso no futuro.

Boa leitura!
Por Aprendizado

Q
Quando um modelo ou sistema computacional sente a
necessidade de melhorar sua capacidade de desempenhar
uma tarefa específica, ele passa pelo processo conhecido
como aprendizagem.

À medida que é alimentado com mais dados e informações,

os algoritmos aprendem com a experiência e ajustam seu
comportamento com base no que foi fornecido.

Os algoritmos irão variar de acordo com o tipo de

aprendizagem que será aplicado.

Aprendizado Supervisionado
Neste tipo de aprendizado, o algoritmo é treinado em um
conjunto de dados que inclui entradas e as respostas desejadas
associadas a essas entradas. O objetivo é aprender uma função
que possa mapear as entradas para as saídas corretas.

Regressão Linear Regressão Logística

Regressão Ridge Regressão Lasso

Árvores de Decisão

3
ALGORITMO O QUE É PARA QUE SERVE

Regressão É um método estatístico É comumente usado para

Linear que modela a relação prever ou explicar
entre uma variável de relações entre variáveis.
saída (ou resposta) Por exemplo, pode ser
contínua e uma ou mais usado para prever o preço
variáveis de entrada (ou de uma casa com base
preditoras) em uma forma em seus recursos, como
linear, ou seja, uma reta número de quartos, área,
ou um plano. localização, etc.

Regressão Algoritmo que modela a Seu maior uso se

Logística probabilidade de uma concentra na
variável binária ou classificação binária,
categórica dependente como prever se um e-mail
com base em uma ou é spam ou não, mas
mais variáveis também é aplicado em
independentes. problemas de
classificação multiclasse.

Regressão Técnica de regressão É usado quando há

Ridge linear que adiciona uma multicolinearidade
penalidade à função de (correlação alta entre
custo para evitar variáveis independentes)
coeficientes de regressão nos dados ou quando se
muito grandes, o que deseja regularizar o
ajuda a evitar o modelo de regressão
overfitting (ajuste linear.
excessivo).

4
ALGORITMO O QUE É PARA QUE SERVE

Regressão A a regressão Lasso É útil para seleção de

Lasso (Least Absolute características
Shrinkage and Selection (eliminação de
Operator) é semelhante à características menos
regressão Ridge, mas usa importantes) e também
uma penalização para evitar o overfitting.
diferente que tende a
zerar alguns coeficientes,
fazendo uma seleção de
recursos automática.

Árvores de Modelos que dividem os São usadas para

Decisão dados em ramificações classificação e regressão,
com base em regras de já que são fáceis de
decisão, criando uma entender e interpretar.
estrutura de árvore onde Também podem ser
cada nó representa uma usadas em problemas de
decisão ou um teste em machine learning onde a
uma característica. interpretabilidade é
importante.

Aprendizado Não Supervisionado

N
Nesse tipo de aprendizado, o algoritmo é treinado em um
conjunto de dados sem rótulos ou respostas conhecidas. O
objetivo é identificar estruturas, padrões ou agrupamentos
nos dados.

K-Means Agrupamento Hierárquico

5
ALGORITMO O QUE É PARA QUE SERVE

K-Means Um algoritmo que agrupa Segmentar clientes com

pontos de dados em base em comportamentos
clusters com base na de compra semelhantes,
semelhança entre eles. O recomendação de
objetivo do K-Means é produtos com
encontrar grupos que características similares,
sejam homogêneos segmentar uma imagem
internamente e em regiões com cores
diferentes entre si. parecidas, agrupar dados
com base em atributos
observados, reunião de
documentos com
temáticas relacionadas,
entre outros.

Agrupamento Algoritmo que em vez de Detecção de padrões de

Hierárquico criar clusters específicos, fraudes, agrupamento de
constrói uma hierarquia documentos com
entre eles, de modo que conteúdo semelhante e
sejam aninhados em facilitar a recuperação de
outros clusters maiores. informações, criação de
árvores taxonômicas de
espécies com base em
características genéticas
e morfológicas,
agrupamento de
genomas, segmentação
de mercado, etc.

6
Por categoria de Aplicação/
Finalidade

E
Em alguns casos, para facilitar a compreensão e o uso desses
algoritmos, eles são agrupados em categorias com base em suas
finalidades e aplicações específicas. Afinal, existem alguns
contextos que requerem a utilização de determinadas técnicas
de construção algorítmica.

São elas:

Ensemble Learning
Ensemble Learning é uma técnica que envolve a combinação de
vários modelos individuais (geralmente do mesmo tipo) para
criar uma versão mais robusta e precisa, superando as limitações
de qualquer modelo único. O resultado acaba sendo mais estável
e com menor probabilidade de overfitting.

Finalidade
Melhorar o desempenho preditivo, reduzir o overfitting
e aumentar a estabilidade dos modelos.

Os algoritmos encontrados para essa finalidade são:

Random Forests
Combina várias árvores de decisão para melhorar o desempenho
de classificação ou regressão.

7
XGBoost
Extreme Gradient Boosting é baseado em árvores e conhecido
por sua eficácia em competições de ciência de dados.

LightGBM
Outro algoritmo de boosting baseado em árvores, sendo
otimizado para eficiência e velocidade.

CatBoost
Llida bem com variáveis categóricas, o que é útil em muitos
cenários do mundo real.

Modelos Explicativos

M
Modelos Explicativos são usados quando a interpretabilidade do
modelo é importante. Eles ajudam a entender como são tomadas
as decisões, o que pode ser crucial em áreas como finanças,
medicina e direito.

Finalidade
Tornar os modelos mais interpretáveis e explicar o raciocínio
por trás das previsões.

Os algoritmos são:

Regressão Linear
Combina várias árvores de decisão para melhorar o desempenho
de classificação ou regressão.

8
Regressão Logística
Para classificação binária e multiclasse, onde o objetivo é
prever probabilidades de classes.

SHAP
SHapley Additive exPlanations explica as previsões de
modelos de machine learning, tornando o modelo mais
interpretável.

LIME
Local Interpretable Model-agnostic Explanations é usado
para explicar as previsões de modelos de machine learning.

Agrupamento

O
Os algoritmos de agrupamento são usados para encontrar
padrões e estruturas nos dados, agrupando pontos semelhantes
em clusters, o que é importante para a segmentação de
informações e a organização de elementos não rotulados.

Finalidade
Identificar grupos naturais e desconhecidos em um conjunto de
dados, com base na similaridade entre os pontos de dados.

Os principais algoritmos utilizados nessa categoria são:

K-Means
Divide dados em clusters com base na similaridade dos
pontos.

9
Agrupamento Hierárquico
Cria uma hierarquia de clusters, onde os clusters são
aninhados em outros clusters maiores.

Redução de Dimensionalidade

É
É importante para diminuir a quantidade de variáveis ou recursos
(dimensões) em um conjunto de dados, preservando o máximo
de informações relevantes. Isso é feito para simplificar a análise
de dados, acelerar o treinamento de modelos e melhorar o
desempenho de algoritmos, especialmente quando se lida com
dados de alta dimensionalidade.

Finalidade
Reduzir a dimensionalidade de conjuntos de dados, mantendo
as informações relevantes.

Conheça os algoritmos usados para essa finalidade:

PCA (Principal Component Analysis)

Uma técnica que reduz a dimensionalidade dos dados, mantendo
as principais informações.dimensionalidade enquanto maximiza
a separação entre classes em problemas.

LDA (Linear Discriminant Analysis)

Usado para reduzir a dimensionalidade enquanto maximiza a
separação entre classes.

10
Por Similaridade

A
Algoritmos e métricas de similaridade são usados para medir a
proximidade entre dados e objetos. Isso é importante na
construção de sistemas de recomendação (usando o KNN),
processamento de linguagem natural (usando medidas de
similaridade de texto) e reconhecimento de padrões.

Finalidade
Medir a semelhança ou distância entre objetos ou pontos
de dados.

São eles:

KNN (K-Nearest Neighbors)

Faz previsões com base nas classes dos vizinhos mais próximos
em um espaço de características.

Distância Euclidiana
Métrica comum de distância usada para medir a proximidade
entre pontos em espaços euclidianos.

Similaridade de Cosseno
Utilizada para a medição de similaridade entre vetores, com base
no ângulo entre eles.

Distância de Levenshtein
Mede a diferença entre duas strings calculando o número
mínimo de operações necessárias para convertê-las em
iguais.

11
Similaridade de Jaro-Winkler
Métrica de similaridade de strings que considera os caracteres
comuns no início da string e penaliza diferenças posteriores.

SVD (Singular Value Decomposition)

Redução de dimensionalidade e análise de fatores latentes em
dados multidimensionais.

12
Conheça a XP Educação e seja um
especialista em Data Science

A
A XP Educação é uma iniciativa que reúne o IGTI, premiada
instituição por sua excelência no campo da tecnologia, e a
Xpeed, a prestigiada escola financeira da XP Inc. Essa união
representa a integração única entre o mundo acadêmico e o
mercado, com o objetivo de revolucionar o modelo
tradicional de ensino tanto nas áreas de tecnologia como
na de finanças.

Nosso diferencial é trazer experts que atuam ativamente no

mercado de trabalho e conseguem trazer a prática e a
perspectiva profissional para as aulas. Aqui, você aprende
com quem faz!

Este é o seu caminho para se tornar um programador

altamente qualificado com a chancela da XP Educação!
Descubra nossa Pós-Graduação em Data Science & Machine
Learning e esteja pronto para embarcar em uma carreira
promissora.

14
original Online Gratuito Com Certificado

xpeducacao.com.br