【大模型】炼丹笔记

一些经验

资料上的经验

【读论文】大模型相关

CoT 有效性的共识和分歧

  1. CoT 在“多步可分解推理任务”上显著有效

Countdown 任务

任务

  • 是什么?给定一组整数、一个目标数,要求通过加减乘除运算得到目标数,每个数字最多用一次。
  • 为什么?可以考察模型的以下能力:
    • 多步推理。需要多步算完
    • 搜索与规划。搜索空间很大
    • 符号计算与约束遵守
      • 数字不能重复
      • 除法需整除
      • 运算顺序必须合法
    • 防幻觉:很容易“编出一个看似合理但实际上不对”的解

用途:

  • 测评 CoT 的有效性。
    • 直接生成(Direct Answer)
    • CoT
    • Tree-of-Thought / DFS / BFS
    • Self-Consistency

未完待续…

模型能力调研

huggingface 的(慢慢步)

闭源api

  • 通用模型:Qwen、DeepSeek
  • https://ai.baidu.com/
  • P图相关的:https://ai.meitu.com/index
  • 短视频相关:https://kuaizi.cn/

一些细节

以下机制,在训练框架中基本上是默认开启的,这里提一下

  • Chat Template:把原始序列转为 Token 序列
    dialog = [{"role": "system", "content": "You are a helpful assistant."},
              {"role": "user", "content": "鸟儿为什么会飞"},
              {"role": "assistant", "content": "生命因何沉睡"}]
    chat = tokenizer.apply_chat_template(dialog, tokenize=False)
    
  • Completions only:训练时,没必要对系统提示词计算 loss,可以只对答案部分计算 loss
    • 做法:做一个 mask,用来标记是否计算 loss
  • NEFTune(Noisy Embedding Finetuning),对 Token 加入 noise,效果类似“数据增强”


您的支持将鼓励我继续创作!