【大模型】炼丹笔记

一些经验

资料上的经验

【读论文】大模型相关

CoT 有效性的共识和分歧

CoT 在“多步可分解推理任务”上显著有效
- 典型任务：数学推理（GSM8K、MultiArith）、组合推理（24 点、Countdown）、符号推理、逻辑题
- 核心论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models（2022）

Countdown 任务

任务

是什么？给定一组整数、一个目标数，要求通过加减乘除运算得到目标数，每个数字最多用一次。
为什么？可以考察模型的以下能力：
- 多步推理。需要多步算完
- 搜索与规划。搜索空间很大
- 符号计算与约束遵守
  - 数字不能重复
  - 除法需整除
  - 运算顺序必须合法
- 防幻觉：很容易“编出一个看似合理但实际上不对”的解

用途：

测评 CoT 的有效性。
- 直接生成（Direct Answer）
- CoT
- Tree-of-Thought / DFS / BFS
- Self-Consistency

未完待续…

模型能力调研

huggingface 的（慢慢步）

闭源api

通用模型：Qwen、DeepSeek
https://ai.baidu.com/
P图相关的：https://ai.meitu.com/index
短视频相关：https://kuaizi.cn/
…

一些细节

以下机制，在训练框架中基本上是默认开启的，这里提一下

Chat Template：把原始序列转为 Token 序列

dialog = [{"role": "system", "content": "You are a helpful assistant."},
          {"role": "user", "content": "鸟儿为什么会飞"},
          {"role": "assistant", "content": "生命因何沉睡"}]
chat = tokenizer.apply_chat_template(dialog, tokenize=False)

Completions only：训练时，没必要对系统提示词计算 loss，可以只对答案部分计算 loss
- 做法：做一个 mask，用来标记是否计算 loss
NEFTune（Noisy Embedding Finetuning），对 Token 加入 noise，效果类似“数据增强”