【大模型】炼丹笔记
🗓 2026年01月24日 📁 文章归类: 0x23_深度学习
版权声明:本文作者是郭飞。转载随意,标明原文链接即可。
原文链接:https://www.guofei.site/2026/01/24/llm_train.html
一些经验
资料上的经验
CoT 有效性的共识和分歧
- CoT 在“多步可分解推理任务”上显著有效
- 典型任务:数学推理(GSM8K、MultiArith)、组合推理(24 点、Countdown)、符号推理、逻辑题
- 核心论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models(2022)
Countdown 任务
任务
- 是什么?给定一组整数、一个目标数,要求通过加减乘除运算得到目标数,每个数字最多用一次。
- 为什么?可以考察模型的以下能力:
- 多步推理。需要多步算完
- 搜索与规划。搜索空间很大
- 符号计算与约束遵守
- 数字不能重复
- 除法需整除
- 运算顺序必须合法
- 防幻觉:很容易“编出一个看似合理但实际上不对”的解
用途:
- 测评 CoT 的有效性。
- 直接生成(Direct Answer)
- CoT
- Tree-of-Thought / DFS / BFS
- Self-Consistency
未完待续…
模型能力调研
huggingface 的(慢慢步)
闭源api
- 通用模型:Qwen、DeepSeek
- https://ai.baidu.com/
- P图相关的:https://ai.meitu.com/index
- 短视频相关:https://kuaizi.cn/
- …
一些细节
以下机制,在训练框架中基本上是默认开启的,这里提一下
- Chat Template:把原始序列转为 Token 序列
dialog = [{"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "鸟儿为什么会飞"}, {"role": "assistant", "content": "生命因何沉睡"}] chat = tokenizer.apply_chat_template(dialog, tokenize=False) - Completions only:训练时,没必要对系统提示词计算 loss,可以只对答案部分计算 loss
- 做法:做一个 mask,用来标记是否计算 loss
- NEFTune(Noisy Embedding Finetuning),对 Token 加入 noise,效果类似“数据增强”
您的支持将鼓励我继续创作!