Guia ML2

Enviado por

Fabiano Trindade

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

18 visualizações2 páginas

Guia ML2

Enviado por

Fabiano Trindade

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 2

A Inteligência Computacional difere da Inteligência Artificial (IA) 2.

Neurônios (Neurons) •Os neurônios são as unidades básicas

“clássica” por basear-se em modelos inspirados na natureza de uma rede neural. Cada neurônio em uma camada é conectado
como, por exemplo, Redes Neurais Artificiais, Algoritmos a neurônios na camada anterior e na camada seguinte. •Pesos
Genéticos, ou Inteligência de Enxames. Por outro lado, a IA (Weights): Cada conexão entre neurônios tem um peso associado
usualmente utiliza modelos baseados nas diversas formas de que é ajustado durante o treinamento.
raciocínio humano. 3. Função de Ativação (Activation Function) •Cada neurônio
O aprendizado de máquina é o estudo de algoritmos que aplica uma função de ativação à soma ponderada de suas
aprendem com exemplos e experiências, em vez de confiar em entradas para introduzir não-linearidades no modelo, permitindo
regras codificadas e fazer previsões com base em novos dados. que a rede aprenda funções complexas. ReLU (Rectified Linear
O aprendizado profundo é um subcampo do aprendizado de Unit): Max(0, x)
máquina que se concentra no aprendizado de representações de 4. Perda (Loss) e Otimização (Optimization) Durante o
dados como camadas sucessivas de representações cada vez treinamento, a rede aprende ajustando os pesos e bias para
mais significativas. minimizar a função de perda. •Função de Perda (Loss Function):
Mede o erro da rede. Exemplos incluem erro quadrático médio
1. Aprendizado Supervisionado: •Classificação de Imagens: (MSE) para regressão e entropia cruzada para classificação.
Redes Neurais Convolucionais (CNNs) usadas para identificar e •Otimizadores (Optimizers): Algoritmos usados para atualizar os
classificar objetos em imagens (e.g., detecção de cães e gatos). pesos de maneira eficiente.
•Reconhecimento de Fala: Modelos de Redes Neurais Otimização Convexa Métodos de otimização usados em
Recorrentes (RNNs) para transcrever áudio em texto. problemas convexos, onde a função objetivo tem uma única
2. Aprendizado não Supervisionado: •Análise de solução ótima.
Agrupamento: Algoritmos como Autoencoders e Redes Método de Lagrange Técnica para encontrar os máximos e
Adversariais Generativas (GANs) para encontrar padrões ocultos mínimos de uma função com restrições, introduzindo
e agrupar dados semelhantes (e.g., segmentação de clientes). multiplicadores de Lagrange para incorporar as restrições na
•Redução de Dimensionalidade: Uso de técnicas como PCA e função objetivo.
t-SNE para reduzir a complexidade dos dados. Momentum: Técnica que acumula uma média exponencial das
3. Aprendizado por Reforço: •Jogos de Vídeo: Agentes de direções passadas dos gradientes para acelerar a convergência e
aprendizado profundo (e.g., DQN e AlphaGo) que aprendem a melhorar a estabilidade.
jogar jogos complexos como xadrez ou Go através de interação e Nesterov Momentum: Variação do momentum que ajusta a
feedback de recompensas. •Robótica: Agentes que aprendem a direção da atualização dos pesos para tentar prever a posição
realizar tarefas físicas, como andar ou pegar objetos, através de futura, potencialmente melhorando a convergência em áreas de
trial and error. curvatura acentuada.
4. Aprendizado Auto-Supervisionado: •Modelos de SGD (Stochastic Gradient Descent) Algoritmo de otimização
Linguagem Natural: Treinamento de modelos como BERT e que calcula e atualiza os pesos da rede neural com base em um
GPT, onde partes de dados (e.g., palavras ou frases) são subconjunto aleatório dos dados de treinamento em cada
mascaradas e o modelo aprende a prever o conteúdo oculto. iteração, eficiente para grandes conjuntos de dados.
•Geração de Imagens: Modelos que geram novas imagens Adam (Adaptive Moment Estimation) Método de otimização que
realistas aprendendo a preencher partes ausentes de imagens de combina as vantagens do momentum e do RMSprop. Ele calcula
treino (e.g., inpainting com GANs). os gradientes adaptativamente, ajustando as taxas de
aprendizado para cada parâmetro e acumulando momentos de
Dados • Os humanos aprendem por observação e aprendizagem primeira e segunda ordem.
não supervisionada • modelo de mundo / raciocínio de bom senso 5. Propagação (Propagation) •Forward Propagation: Os dados
• O aprendizado de máquina precisa de muitos dados (rotulados) são passados pela rede, camada por camada, até que uma saída
Dados para Deep Learning • Tensores: generalização de matrizes seja produzida. •Backward Propagation (Backpropagation): A rede
para n dimensões (ou classificação, ordem, grau) • Treinamento – calcula os gradientes da função de perda em relação aos pesos e
validação – divisão de teste bias, ajustando-os para minimizar a perda.
Gradiente descente • Derivada e mínimos/máximos de funções 6. Hiperparâmetros (Hyperparameters) Parâmetros que não
• Gradiente: a derivada de uma função multivariável são aprendidos diretamente pela rede, mas definidos antes do
Sobreajuste e subajuste, generalização, regularização • Modelos treinamento: •Taxa de Aprendizado (Learning Rate): Controla a
com muitos parâmetros podem facilmente ajustar-se aos dados magnitude das atualizações de peso. •Número de Épocas
de treinamento • Generalização: a qualidade do modelo de ML é (Epochs): Número de passagens completas pelo conjunto de
medida em amostras novas e inéditas • Regularização: qualquer treinamento.•Tamanho do Lote (Batch Size): Número de amostras
método* para evitar overfitting • simplicity, sparsity, dropout, early usadas para calcular o gradiente em cada iteração.
stopping 7. Regularização Técnicas para evitar overfitting:• Dropout:
Desativa aleatoriamente uma fração dos neurônios durante o
Anatomia de uma rede neural profunda• Camadas (Layers) • treinamento. •Regularização L2 (Weight Decay): Penaliza grandes
Dados de entrada e Rótulos• Função de perda (Loss function) • pesos na função de perda.
Otimizador O perceptron é um modelo simples e fundamental de um neurônio
1. Camadas (Layers) •Camada de Entrada (Input Layer): Recebe artificial, que serve como base para redes neurais mais
os dados brutos do ambiente externo. O número de neurônios na complexas. Ele realiza uma soma ponderada das entradas e
camada de entrada é igual ao número de características ou aplica uma função de ativação para produzir uma saída binária,
atributos no conjunto de dados de entrada.• Camadas Ocultas sendo treinado ajustando seus pesos e bias para minimizar o erro
(Hidden Layers): Intermediárias entre a camada de entrada e a nas predições.Limitações •Linearidade: O perceptron só pode
camada de saída, essas camadas processam os dados. Em uma resolver problemas linearmente separáveis. Para problemas
rede profunda, há múltiplas camadas ocultas. Cada camada não-linearmente separáveis, são necessárias arquiteturas mais
oculta realiza uma transformação não-linear nos dados. complexas (e.g., redes neurais multicamadas). • Capacidade de
•Camada de Saída (Output Layer): Produz o resultado final da Aprendizagem: É limitado em sua capacidade de aprendizagem, o
rede. O número de neurônios nesta camada depende da tarefa que o torna inadequado para tarefas complexas sem
específica. modificações.
anteriores. •Uso de Feedback: A saída anterior é realimentada
como entrada para o próximo passo de tempo. •Uso Comum:
Modelagem de Sequências Temporais, Tradução Automática,
Geração de Texto. •Problemas: Difícil Treinamento de Longo
Prazo: RNNs têm dificuldade em lembrar dependências de longo
prazo devido ao problema do gradiente que desaparece ou
explode. Processamento Sequencial: Limitações de eficiência
computacional devido à natureza sequencial do processamento.

Problemas Comuns em CNN e MLP •Overfitting: Pode ocorrer

quando o modelo se ajusta demais aos dados de treinamento,
resultando em desempenho fraco em dados não vistos.
•Limitações de Generalização: MLPs podem não ser capazes
de capturar relações complexas ou padrões em dados de alta
dimensão sem o ajuste adequado dos hiperparâmetros.

𝑉𝑃+𝑉𝑁 𝑉𝑃
Acurácia = Sensibilidade =
𝑉𝑃+𝑉𝑁+𝐹𝑁+𝐹𝑃 𝑉𝑃+𝐹𝑁
𝑉𝑁 𝑉𝑃
Redes Feedforward: Dados fluem de entrada para saída, sem Especificidade = Precisão =
loops.Dados são processados em uma única direção, da camada
𝑉𝑁+𝐹𝑃 𝑉𝑃+𝐹𝑃
de entrada para a camada de saída, passando por uma ou mais 𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 × 𝑠𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒
F-Score= 2 ×
camadas ocultas. Características: •Fluxo Direto: Informações 𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 + 𝑠𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒
fluem em uma única direção, sem loops ou feedback.
•Estrutura Simples: Cada camada é totalmente conectada à Verdadeiros Positivos (True Positive - TP): São os casos em
próxima. •Uso Comum: Principalmente para tarefas de que o modelo previu corretamente uma classe positiva (1) como
classificação e regressão. positiva. Falsos Positivos (False Positive - FP): São os casos
Backpropagation: Algoritmo de treinamento que ajusta os pesos em que o modelo previu incorretamente uma classe negativa (0)
minimizando a perda.Cálculo da Perda: Comparação da saída como positiva. Verdadeiros Negativos (True Negative - TN):
prevista com a saída real para calcular a perda. •Erro: O erro é São os casos em que o modelo previu corretamente uma classe
propagado de volta pela rede, da saída para a entrada. negativa como negativa. Falsos Negativos (False Negative -
•Gradientes: Gradientes são calculados para cada peso. FN): São os casos em que o modelo previu incorretamente uma
Atualização: Pesos são ajustados na direção que reduz a perda. classe positiva como negativa.
MLP: Rede feedforward com múltiplas camadas, incluindo Técnicas de Validação
camadas ocultas, treinada usando backpropagation. •Camada de •Validação Cruzada (Cross-Validation): Divide o conjunto de
Entrad, Camadas Oculta,Camada de Saída dados em subconjuntos de treino e teste, repetindo o processo
Aprendizagem Supervisionada: Normalmente treinado usando várias vezes para obter uma estimativa mais robusta do
backpropagation. Capacidade de Modelagem: Pode modelar desempenho do modelo. •Holdout: Divide os dados em conjunto
relações não-lineares complexas nos dados. Flexibilidade: Pode de treinamento e teste uma vez. Menos computacionalmente
ser configurado com diferentes números de camadas e neurônios intensivo, mas pode ter variância alta dependendo da divisão.
por camada. •Random Subsampling (Amostragem Aleatória): Divide os dados
em um conjunto fixo de treino e teste, o que pode levar a
CNN (Convolutional Neural Network) •CNN é um tipo variações nos resultados dependendo da aleatoriedade da
especializado de rede neural usada principalmente para divisão. •Bootstrapping: É útil para estimar a distribuição de uma
processamento de imagens e reconhecimento visual. •Camadas estatística de interesse, como a média ou o erro de generalização
Convolucionais: Realizam convoluções para extrair de um modelo, quando a distribuição original dos dados não é
características espaciais dos dados. •Camadas de Pooling: conhecida ou é difícil de obter.
Reduzem a dimensionalidade das representações espaciais. Avaliação de Classificadores
•Totalmente Conectadas: Camadas finais conectadas para Curvas ROC (Receiver Operating Characteristic): Gráfico que
produzir a saída final. •Uso Comum: Reconhecimento de mostra o desempenho do classificador à medida que o limite de
Imagens, Detecção de Objetos, Segmentação Semântica. decisão é variado. Matriz de Confusão: Tabela que mostra as
•Problemas: Explosão de Parâmetros: Com o aumento da classificações corretas e incorretas feitas por um classificador.
profundidade e largura da rede, o número de parâmetros pode Comparando Classificadores
crescer exponencialmente, levando a maior demanda Comparação direta entre diferentes modelos de Machine Learning
computacional e necessidade de mais dados de treinamento. para determinar qual deles é mais adequado para uma tarefa
Interpretabilidade Limitada: Às vezes, é difícil interpretar como específica.
e por que a rede faz suas predições. O teste de Wilcoxon Signed-Rank é um teste estatístico não
paramétrico usado para determinar se há diferença significativa
RNN (Recurrent Neural Network) •RNN é um tipo de rede neural entre pares de observações relacionadas. Ele é usado quando os
projetada para lidar com dados sequenciais, onde a saída atual dados não seguem uma distribuição normal ou quando a
depende não apenas dos dados atuais, mas também de dados diferença entre as observações é mais importante do que os
anteriores. •Recorrência: Possui conexões que permitem estados próprios valores absolutos.
ocultos (memória) que mantêm informações sobre sequências Cross-Validation: Aplicado para obter estimativas robustas do
desempenho de cada modelo e compará-los de maneira justa.

Guia ML2

Enviado por

Guia ML2

Enviado por

A Inteligência Computacional difere da Inteligência Artificial (IA) 2.

Neurônios (Neurons) •Os neurônios são as unidades básicas

Problemas Comuns em CNN e MLP •Overfitting: Pode ocorrer

Você também pode gostar

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.