DeepSeek图解10页
DeepSeek图解10页
1 DeepSeek . . . . . . . . . . . . . . . . . . . . . . 2
1.1 DeepSeek . . . . . . . . . . . . . . . . . 2
1.2 DeepSeek . . . . . . . . . . . . . . . . . . . 2
1.3 DeepSeek . . . . . . . . . . . . . . . . . . . 4
2 DeepSeek . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1 LLM . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Transformer . . . . . . . . . . . . . . . . . . . . . . 6
2.3 LLM . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.1 Pretraining . . . . . . . . . . . . . . . . . . 7
2.3.2 Supervised Fine-Tuning, SFT . . . . . . 7
2.3.3 Reinforcement Learning, RL . . . . . . . 7
3 DeepSeek-R1 . . . . . . . . . . . . . . . . . . . . . . . 7
3.1 DeepSeek-R1 . . . . . . . . . . . . . . . . . . . 7
3.1.1 1 R1-Zero . . . . . . . 8
3.1.2 2 . . . . . . . . . . . . . . . 8
3.2 R1-Zero . . . . . . . . . . . . . . 9
3.3 . . . . . . . . . . . . . . . . . . . . . . 10
3.4 DeepSeek-R1 . . . . . . . . . . . . . . . . . . . . . . . . 11
4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1
1 DeepSeek
1.1 DeepSeek
DeepSeek
1.
2. Fine-tuning
3.
DeepSeek
DeepSeek
• DeepSeek R1
1.2 DeepSeek
DeepSeek
ollama ollama
Ollama
1
1:
ollama
10 2
2: Ollama
3: DeepSeek-r1
DeepSeek
cmd(Windows ) terminal(
) ollama run deepseek-r1:1.5b
4
4: Ollama deepseek-r1
1.3 DeepSeek
DeepSeek
Python ? think
5: deepseek-r1
think
6 :
6: deepseek-r1
2 DeepSeek
DeepSeek-R1 LLM
AI Large
Language Model, LLM LLM NLP
LLM
LLM
2.1 LLM
Scaling Laws
Scaling Laws
Scaling Laws
2.2 Transformer
Transformer
1.
2.
3. AI
2.3 LLM
2.3.1 Pretraining
LLM 1.
2.
3.
SFT
RL RLHF,
Reinforcement Learning from Human Feedback
RLHF
• 1
• 2
• 3
3 DeepSeek-R1
3.1 DeepSeek-R1
DeepSeek-R1
AI RL SFT
AI
DeepSeek-V3
SFT +
7
7: R1
DeepSeek-R1 DeepSeek-v3-Base
3.1.1 1 R1-Zero
DeepSeek-R1
DeepSeek-R1-Zero
R1-Zero Chain-of-Thought,
CoT SFT 7 3.2
3.1.2 2
R1-Zero
DeepSeek
3.2 R1-Zero
SFT 8
SFT
DeepSeek
R1-Zero
R1-Zero SFT
9 V3
9: R1-Zero
OpenAI O1
10 pass@1 16
cons@16
OpenAI O1 DeepSeek-R1-Zero
OpenAI O1.
10: R1-Zero
3.3
Preference Tuning 11
R1
DeepSeek-R1 R1-Zero
AI
11: R1
3.4 DeepSeek-R1
Reasoning-Oriented RL
CoT
DeepSeek-R1 R1-Zero
AI
Reasoning-Oriented
RL CoT
DeepSeek-R1 R1-Zero
AI
4
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
https://www.interconnects.ai/p/deepseek-r1-recipe-for-o1
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-
experts