0% acharam este documento útil (0 voto)
18 visualizações2 páginas

Guia ML2

Enviado por

Fabiano Trindade
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
18 visualizações2 páginas

Guia ML2

Enviado por

Fabiano Trindade
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 2

A Inteligência Computacional difere da Inteligência Artificial (IA) 2.

Neurônios (Neurons) •Os neurônios são as unidades básicas


“clássica” por basear-se em modelos inspirados na natureza de uma rede neural. Cada neurônio em uma camada é conectado
como, por exemplo, Redes Neurais Artificiais, Algoritmos a neurônios na camada anterior e na camada seguinte. •Pesos
Genéticos, ou Inteligência de Enxames. Por outro lado, a IA (Weights): Cada conexão entre neurônios tem um peso associado
usualmente utiliza modelos baseados nas diversas formas de que é ajustado durante o treinamento.
raciocínio humano. 3. Função de Ativação (Activation Function) •Cada neurônio
O aprendizado de máquina é o estudo de algoritmos que aplica uma função de ativação à soma ponderada de suas
aprendem com exemplos e experiências, em vez de confiar em entradas para introduzir não-linearidades no modelo, permitindo
regras codificadas e fazer previsões com base em novos dados. que a rede aprenda funções complexas. ReLU (Rectified Linear
O aprendizado profundo é um subcampo do aprendizado de Unit): Max(0, x)
máquina que se concentra no aprendizado de representações de 4. Perda (Loss) e Otimização (Optimization) Durante o
dados como camadas sucessivas de representações cada vez treinamento, a rede aprende ajustando os pesos e bias para
mais significativas. minimizar a função de perda. •Função de Perda (Loss Function):
Mede o erro da rede. Exemplos incluem erro quadrático médio
1. Aprendizado Supervisionado: •Classificação de Imagens: (MSE) para regressão e entropia cruzada para classificação.
Redes Neurais Convolucionais (CNNs) usadas para identificar e •Otimizadores (Optimizers): Algoritmos usados para atualizar os
classificar objetos em imagens (e.g., detecção de cães e gatos). pesos de maneira eficiente.
•Reconhecimento de Fala: Modelos de Redes Neurais Otimização Convexa Métodos de otimização usados em
Recorrentes (RNNs) para transcrever áudio em texto. problemas convexos, onde a função objetivo tem uma única
2. Aprendizado não Supervisionado: •Análise de solução ótima.
Agrupamento: Algoritmos como Autoencoders e Redes Método de Lagrange Técnica para encontrar os máximos e
Adversariais Generativas (GANs) para encontrar padrões ocultos mínimos de uma função com restrições, introduzindo
e agrupar dados semelhantes (e.g., segmentação de clientes). multiplicadores de Lagrange para incorporar as restrições na
•Redução de Dimensionalidade: Uso de técnicas como PCA e função objetivo.
t-SNE para reduzir a complexidade dos dados. Momentum: Técnica que acumula uma média exponencial das
3. Aprendizado por Reforço: •Jogos de Vídeo: Agentes de direções passadas dos gradientes para acelerar a convergência e
aprendizado profundo (e.g., DQN e AlphaGo) que aprendem a melhorar a estabilidade.
jogar jogos complexos como xadrez ou Go através de interação e Nesterov Momentum: Variação do momentum que ajusta a
feedback de recompensas. •Robótica: Agentes que aprendem a direção da atualização dos pesos para tentar prever a posição
realizar tarefas físicas, como andar ou pegar objetos, através de futura, potencialmente melhorando a convergência em áreas de
trial and error. curvatura acentuada.
4. Aprendizado Auto-Supervisionado: •Modelos de SGD (Stochastic Gradient Descent) Algoritmo de otimização
Linguagem Natural: Treinamento de modelos como BERT e que calcula e atualiza os pesos da rede neural com base em um
GPT, onde partes de dados (e.g., palavras ou frases) são subconjunto aleatório dos dados de treinamento em cada
mascaradas e o modelo aprende a prever o conteúdo oculto. iteração, eficiente para grandes conjuntos de dados.
•Geração de Imagens: Modelos que geram novas imagens Adam (Adaptive Moment Estimation) Método de otimização que
realistas aprendendo a preencher partes ausentes de imagens de combina as vantagens do momentum e do RMSprop. Ele calcula
treino (e.g., inpainting com GANs). os gradientes adaptativamente, ajustando as taxas de
aprendizado para cada parâmetro e acumulando momentos de
Dados • Os humanos aprendem por observação e aprendizagem primeira e segunda ordem.
não supervisionada • modelo de mundo / raciocínio de bom senso 5. Propagação (Propagation) •Forward Propagation: Os dados
• O aprendizado de máquina precisa de muitos dados (rotulados) são passados pela rede, camada por camada, até que uma saída
Dados para Deep Learning • Tensores: generalização de matrizes seja produzida. •Backward Propagation (Backpropagation): A rede
para n dimensões (ou classificação, ordem, grau) • Treinamento – calcula os gradientes da função de perda em relação aos pesos e
validação – divisão de teste bias, ajustando-os para minimizar a perda.
Gradiente descente • Derivada e mínimos/máximos de funções 6. Hiperparâmetros (Hyperparameters) Parâmetros que não
• Gradiente: a derivada de uma função multivariável são aprendidos diretamente pela rede, mas definidos antes do
Sobreajuste e subajuste, generalização, regularização • Modelos treinamento: •Taxa de Aprendizado (Learning Rate): Controla a
com muitos parâmetros podem facilmente ajustar-se aos dados magnitude das atualizações de peso. •Número de Épocas
de treinamento • Generalização: a qualidade do modelo de ML é (Epochs): Número de passagens completas pelo conjunto de
medida em amostras novas e inéditas • Regularização: qualquer treinamento.•Tamanho do Lote (Batch Size): Número de amostras
método* para evitar overfitting • simplicity, sparsity, dropout, early usadas para calcular o gradiente em cada iteração.
stopping 7. Regularização Técnicas para evitar overfitting:• Dropout:
Desativa aleatoriamente uma fração dos neurônios durante o
Anatomia de uma rede neural profunda• Camadas (Layers) • treinamento. •Regularização L2 (Weight Decay): Penaliza grandes
Dados de entrada e Rótulos• Função de perda (Loss function) • pesos na função de perda.
Otimizador O perceptron é um modelo simples e fundamental de um neurônio
1. Camadas (Layers) •Camada de Entrada (Input Layer): Recebe artificial, que serve como base para redes neurais mais
os dados brutos do ambiente externo. O número de neurônios na complexas. Ele realiza uma soma ponderada das entradas e
camada de entrada é igual ao número de características ou aplica uma função de ativação para produzir uma saída binária,
atributos no conjunto de dados de entrada.• Camadas Ocultas sendo treinado ajustando seus pesos e bias para minimizar o erro
(Hidden Layers): Intermediárias entre a camada de entrada e a nas predições.Limitações •Linearidade: O perceptron só pode
camada de saída, essas camadas processam os dados. Em uma resolver problemas linearmente separáveis. Para problemas
rede profunda, há múltiplas camadas ocultas. Cada camada não-linearmente separáveis, são necessárias arquiteturas mais
oculta realiza uma transformação não-linear nos dados. complexas (e.g., redes neurais multicamadas). • Capacidade de
•Camada de Saída (Output Layer): Produz o resultado final da Aprendizagem: É limitado em sua capacidade de aprendizagem, o
rede. O número de neurônios nesta camada depende da tarefa que o torna inadequado para tarefas complexas sem
específica. modificações.
anteriores. •Uso de Feedback: A saída anterior é realimentada
como entrada para o próximo passo de tempo. •Uso Comum:
Modelagem de Sequências Temporais, Tradução Automática,
Geração de Texto. •Problemas: Difícil Treinamento de Longo
Prazo: RNNs têm dificuldade em lembrar dependências de longo
prazo devido ao problema do gradiente que desaparece ou
explode. Processamento Sequencial: Limitações de eficiência
computacional devido à natureza sequencial do processamento.

Problemas Comuns em CNN e MLP •Overfitting: Pode ocorrer


quando o modelo se ajusta demais aos dados de treinamento,
resultando em desempenho fraco em dados não vistos.
•Limitações de Generalização: MLPs podem não ser capazes
de capturar relações complexas ou padrões em dados de alta
dimensão sem o ajuste adequado dos hiperparâmetros.

𝑉𝑃+𝑉𝑁 𝑉𝑃
Acurácia = Sensibilidade =
𝑉𝑃+𝑉𝑁+𝐹𝑁+𝐹𝑃 𝑉𝑃+𝐹𝑁
𝑉𝑁 𝑉𝑃
Redes Feedforward: Dados fluem de entrada para saída, sem Especificidade = Precisão =
loops.Dados são processados em uma única direção, da camada
𝑉𝑁+𝐹𝑃 𝑉𝑃+𝐹𝑃
de entrada para a camada de saída, passando por uma ou mais 𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 × 𝑠𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒
F-Score= 2 ×
camadas ocultas. Características: •Fluxo Direto: Informações 𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 + 𝑠𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒
fluem em uma única direção, sem loops ou feedback.
•Estrutura Simples: Cada camada é totalmente conectada à Verdadeiros Positivos (True Positive - TP): São os casos em
próxima. •Uso Comum: Principalmente para tarefas de que o modelo previu corretamente uma classe positiva (1) como
classificação e regressão. positiva. Falsos Positivos (False Positive - FP): São os casos
Backpropagation: Algoritmo de treinamento que ajusta os pesos em que o modelo previu incorretamente uma classe negativa (0)
minimizando a perda.Cálculo da Perda: Comparação da saída como positiva. Verdadeiros Negativos (True Negative - TN):
prevista com a saída real para calcular a perda. •Erro: O erro é São os casos em que o modelo previu corretamente uma classe
propagado de volta pela rede, da saída para a entrada. negativa como negativa. Falsos Negativos (False Negative -
•Gradientes: Gradientes são calculados para cada peso. FN): São os casos em que o modelo previu incorretamente uma
Atualização: Pesos são ajustados na direção que reduz a perda. classe positiva como negativa.
MLP: Rede feedforward com múltiplas camadas, incluindo Técnicas de Validação
camadas ocultas, treinada usando backpropagation. •Camada de •Validação Cruzada (Cross-Validation): Divide o conjunto de
Entrad, Camadas Oculta,Camada de Saída dados em subconjuntos de treino e teste, repetindo o processo
Aprendizagem Supervisionada: Normalmente treinado usando várias vezes para obter uma estimativa mais robusta do
backpropagation. Capacidade de Modelagem: Pode modelar desempenho do modelo. •Holdout: Divide os dados em conjunto
relações não-lineares complexas nos dados. Flexibilidade: Pode de treinamento e teste uma vez. Menos computacionalmente
ser configurado com diferentes números de camadas e neurônios intensivo, mas pode ter variância alta dependendo da divisão.
por camada. •Random Subsampling (Amostragem Aleatória): Divide os dados
em um conjunto fixo de treino e teste, o que pode levar a
CNN (Convolutional Neural Network) •CNN é um tipo variações nos resultados dependendo da aleatoriedade da
especializado de rede neural usada principalmente para divisão. •Bootstrapping: É útil para estimar a distribuição de uma
processamento de imagens e reconhecimento visual. •Camadas estatística de interesse, como a média ou o erro de generalização
Convolucionais: Realizam convoluções para extrair de um modelo, quando a distribuição original dos dados não é
características espaciais dos dados. •Camadas de Pooling: conhecida ou é difícil de obter.
Reduzem a dimensionalidade das representações espaciais. Avaliação de Classificadores
•Totalmente Conectadas: Camadas finais conectadas para Curvas ROC (Receiver Operating Characteristic): Gráfico que
produzir a saída final. •Uso Comum: Reconhecimento de mostra o desempenho do classificador à medida que o limite de
Imagens, Detecção de Objetos, Segmentação Semântica. decisão é variado. Matriz de Confusão: Tabela que mostra as
•Problemas: Explosão de Parâmetros: Com o aumento da classificações corretas e incorretas feitas por um classificador.
profundidade e largura da rede, o número de parâmetros pode Comparando Classificadores
crescer exponencialmente, levando a maior demanda Comparação direta entre diferentes modelos de Machine Learning
computacional e necessidade de mais dados de treinamento. para determinar qual deles é mais adequado para uma tarefa
Interpretabilidade Limitada: Às vezes, é difícil interpretar como específica.
e por que a rede faz suas predições. O teste de Wilcoxon Signed-Rank é um teste estatístico não
paramétrico usado para determinar se há diferença significativa
RNN (Recurrent Neural Network) •RNN é um tipo de rede neural entre pares de observações relacionadas. Ele é usado quando os
projetada para lidar com dados sequenciais, onde a saída atual dados não seguem uma distribuição normal ou quando a
depende não apenas dos dados atuais, mas também de dados diferença entre as observações é mais importante do que os
anteriores. •Recorrência: Possui conexões que permitem estados próprios valores absolutos.
ocultos (memória) que mantêm informações sobre sequências Cross-Validation: Aplicado para obter estimativas robustas do
desempenho de cada modelo e compará-los de maneira justa.

Você também pode gostar

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy