Ebook Data Science e Machine Learning
Ebook Data Science e Machine Learning
Por Aprendizado 3
Aprendizado Supervisionado 3
Ensemble Learning 7
Modelos Explicativos 8
Agrupamento 9
Redução de Dimensionalidade 10
Por Similaridade 11
Introdução
O
O Data Science é uma área da tecnologia que usa técnicas,
algoritmos, processos e sistemas para extrair conhecimento
e insights de dados estruturados e não estruturados.
Boa leitura!
Por Aprendizado
Q
Quando um modelo ou sistema computacional sente a
necessidade de melhorar sua capacidade de desempenhar
uma tarefa específica, ele passa pelo processo conhecido
como aprendizagem.
Aprendizado Supervisionado
Neste tipo de aprendizado, o algoritmo é treinado em um
conjunto de dados que inclui entradas e as respostas desejadas
associadas a essas entradas. O objetivo é aprender uma função
que possa mapear as entradas para as saídas corretas.
Árvores de Decisão
3
ALGORITMO O QUE É PARA QUE SERVE
4
ALGORITMO O QUE É PARA QUE SERVE
N
Nesse tipo de aprendizado, o algoritmo é treinado em um
conjunto de dados sem rótulos ou respostas conhecidas. O
objetivo é identificar estruturas, padrões ou agrupamentos
nos dados.
5
ALGORITMO O QUE É PARA QUE SERVE
6
Por categoria de Aplicação/
Finalidade
E
Em alguns casos, para facilitar a compreensão e o uso desses
algoritmos, eles são agrupados em categorias com base em suas
finalidades e aplicações específicas. Afinal, existem alguns
contextos que requerem a utilização de determinadas técnicas
de construção algorítmica.
São elas:
Ensemble Learning
Ensemble Learning é uma técnica que envolve a combinação de
vários modelos individuais (geralmente do mesmo tipo) para
criar uma versão mais robusta e precisa, superando as limitações
de qualquer modelo único. O resultado acaba sendo mais estável
e com menor probabilidade de overfitting.
Finalidade
Melhorar o desempenho preditivo, reduzir o overfitting
e aumentar a estabilidade dos modelos.
Random Forests
Combina várias árvores de decisão para melhorar o desempenho
de classificação ou regressão.
7
XGBoost
Extreme Gradient Boosting é baseado em árvores e conhecido
por sua eficácia em competições de ciência de dados.
LightGBM
Outro algoritmo de boosting baseado em árvores, sendo
otimizado para eficiência e velocidade.
CatBoost
Llida bem com variáveis categóricas, o que é útil em muitos
cenários do mundo real.
Modelos Explicativos
M
Modelos Explicativos são usados quando a interpretabilidade do
modelo é importante. Eles ajudam a entender como são tomadas
as decisões, o que pode ser crucial em áreas como finanças,
medicina e direito.
Finalidade
Tornar os modelos mais interpretáveis e explicar o raciocínio
por trás das previsões.
Os algoritmos são:
Regressão Linear
Combina várias árvores de decisão para melhorar o desempenho
de classificação ou regressão.
8
Regressão Logística
Para classificação binária e multiclasse, onde o objetivo é
prever probabilidades de classes.
SHAP
SHapley Additive exPlanations explica as previsões de
modelos de machine learning, tornando o modelo mais
interpretável.
LIME
Local Interpretable Model-agnostic Explanations é usado
para explicar as previsões de modelos de machine learning.
Agrupamento
O
Os algoritmos de agrupamento são usados para encontrar
padrões e estruturas nos dados, agrupando pontos semelhantes
em clusters, o que é importante para a segmentação de
informações e a organização de elementos não rotulados.
Finalidade
Identificar grupos naturais e desconhecidos em um conjunto de
dados, com base na similaridade entre os pontos de dados.
K-Means
Divide dados em clusters com base na similaridade dos
pontos.
9
Agrupamento Hierárquico
Cria uma hierarquia de clusters, onde os clusters são
aninhados em outros clusters maiores.
Redução de Dimensionalidade
É
É importante para diminuir a quantidade de variáveis ou recursos
(dimensões) em um conjunto de dados, preservando o máximo
de informações relevantes. Isso é feito para simplificar a análise
de dados, acelerar o treinamento de modelos e melhorar o
desempenho de algoritmos, especialmente quando se lida com
dados de alta dimensionalidade.
Finalidade
Reduzir a dimensionalidade de conjuntos de dados, mantendo
as informações relevantes.
10
Por Similaridade
A
Algoritmos e métricas de similaridade são usados para medir a
proximidade entre dados e objetos. Isso é importante na
construção de sistemas de recomendação (usando o KNN),
processamento de linguagem natural (usando medidas de
similaridade de texto) e reconhecimento de padrões.
Finalidade
Medir a semelhança ou distância entre objetos ou pontos
de dados.
São eles:
Distância Euclidiana
Métrica comum de distância usada para medir a proximidade
entre pontos em espaços euclidianos.
Similaridade de Cosseno
Utilizada para a medição de similaridade entre vetores, com base
no ângulo entre eles.
Distância de Levenshtein
Mede a diferença entre duas strings calculando o número
mínimo de operações necessárias para convertê-las em
iguais.
11
Similaridade de Jaro-Winkler
Métrica de similaridade de strings que considera os caracteres
comuns no início da string e penaliza diferenças posteriores.
12
Conheça a XP Educação e seja um
especialista em Data Science
A
A XP Educação é uma iniciativa que reúne o IGTI, premiada
instituição por sua excelência no campo da tecnologia, e a
Xpeed, a prestigiada escola financeira da XP Inc. Essa união
representa a integração única entre o mundo acadêmico e o
mercado, com o objetivo de revolucionar o modelo
tradicional de ensino tanto nas áreas de tecnologia como
na de finanças.
14
original Online Gratuito Com Certificado
xpeducacao.com.br