【读论文】大模型相关

CoT

论文:

  • Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022):100B级别以上的模型提升巨大,小模型几乎无收益(甚至退化)
  • Faithfulness and Plausibility in Chain-of-Thought Reasoning(2024):CoT 的“推理文本”不是可靠的真实推理轨迹,CoT 更多是帮助模型搜索解空间,不是模型内部“因果推理过程”的忠实反映。即使推理步骤是“编造的”,答案仍可能正确
  • Self-Consistency Improves Chain of Thought Reasoning(2022) 多 CoT 投票

当前的一个总结性判断:CoT 是一种“搜索增强提示”,而不是“解释增强机制”


Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (2022)

CoT

提出了 CoT(Chain-of-Thought),探索如何通过引导大型语言模型(LLMs)生成中间推理步骤,显著提升其复杂推理能力:

一、研究背景与动机

  1. LLMs的局限:尽管 LLM 规模扩大能提升性能和数据效率,但仅靠“提高模型大小”无法让模型在算术推理、常识推理、符号推理等复杂任务中表现优异(例如传统“标准提示”下,模型难以解决多步数学应用题)。
  2. 现有方法的不足:
    • 「基于原理的微调」:需人工构建大量高质量推理步骤(比简单输入输出对成本高),且任务特异性强;
    • 「传统少样本提示」:仅提供“输入-输出”示例,在推理任务中效果差,且性能随模型规模增长提升有限。
  3. 研究核心思路:
    结合上述两种方法的优势——用「少样本提示」的便捷性,搭配「中间推理步骤(思维链)」的有效性,提出CoT:在提示中提供少量「输入-思维链-输出」三元组示例,引导模型生成连贯的中间推理步骤,最终得到正确答案。

二、思维链提示的定义与核心特性

  1. 定义:(不摘抄了)
    • 标准提示是 “问题→答案” 对
    • 思维链提示:“问题→推理步骤→答案”
  2. 4个关键特性
    • 「分步拆解」:将多步问题分解为中间步骤,为复杂任务分配更多计算资源;
    • 「可解释性」:推理步骤可追溯,便于定位模型推理错误(如计算错误、语义理解偏差);
    • 「任务通用性」:适用于算术、常识、符号等各类人类可通过语言推理的任务;
    • 「便捷性」:无需微调模型,仅需在少样本提示中加入思维链示例,即可激活大模型的推理能力。

三、实验设计与核心结果

研究在算术推理、常识推理、符号推理三大类任务中验证思维链提示的效果,涉及5类主流LLMs(GPT-3、LaMDA、PaLM、UL2、Codex)

算术推理(核心任务:数学应用题)

  • Benchmarks:GSM8K(多步数学题)、SVAMP、ASDiv、AQuA、MAWPS;
  • 关键结果:
    • 「规模涌现性」:思维链提示的优势仅在百亿级参数模型中体现(如PaLM 540B),小模型(<10B参数)会生成流畅但逻辑错误的推理步骤,性能反而低于标准提示;
    • 「性能跃升」:PaLM 540B用思维链提示在GSM8K上以 57%正确率,刷新提示的(18%),超过经微调+验证器的GPT-3(55%),刷新SOTA;
    • 「任务难度适配」:问题越复杂,思维链提示的提升越显著(如GSM8K提升翻倍);但是,简单的问题(MAWPS中最简单的部分)没有提升,甚至负提升。
    • 「ablation验证」:仅输出公式(无自然语言推理)、仅增加token长度(如输出“…”)的效果接近基线,证明自然语言推理步骤是性能提升的核心
  • 案例分析。分析了50个正确结果,48个 CoT 与结论连贯。分析了50个错误结果,一半 CoT 有重大错误。
  • 鲁棒性。CoT 风格变动的影响较小

常识推理

  • Benchmarks:CSQA(常识问答)、StrategyQA(多步策略推理)、Date Understanding(日期计算)、Sports Understanding(体育场景合理性判断)、SayCan(机器人动作规划);
  • 关键结果: 思维链提示在所有任务中均优于标准提示,且模型规模越大提升越明显:
    • PaLM 540B在StrategyQA上达75.6%正确率,超过此前SOTA(69.4%);
    • Sports Understanding任务中,模型正确率(95.4%)超过人类体育爱好者(84%);
    • 仅CSQA任务提升有限(因任务对推理步骤依赖较低)。

符号推理(任务:抽象符号操作与长度泛化)

  • 实验设置: 任务:① 末尾字母拼接(如“Lady Gaga”→“ya”);② 硬币翻转状态跟踪(如“初始正面→翻转1次→是否正面”);
  • 关键测试:设置域内测试集(示例的推理步数与训练 / 少样本示例步数相同)、域外测试集(评测示例的推理步数多于少样本示例中的步数)
  • 关键结果:
    • 「域内完美表现」:PaLM 540B用思维链提示在2步任务上正确率接近100%;
    • 「域外泛化能力」:标准提示在长步骤任务中完全失效,而思维链提示使PaLM 540B在4步任务上仍保持75%+正确率,证明其能帮助模型泛化到未见过的推理长度

四、局限性与未来方向

  1. 局限性:
    • 模拟人类推理过程,但无法证明模型真的具备“推理能力”
    • 标注成本:少样本场景下标注成本低,但若用于微调,大规模思维链标注仍昂贵
    • 「推理错误风险」:模型可能生成逻辑错误的思维链却巧合得到正确答案,或推理步骤完全错误;
    • 成本高:仅大模型有效
  2. 未来方向:
    • 探索更小模型的推理能力激活方法;
    • 用合成数据自动生成思维链,降低标注成本;
    • 提升思维链的逻辑性与正确性(如加入推理验证器)。

Faithfulness and Plausibility in Chain-of-Thought Reasoning

Faithfulness and Plausibility in Chain-of-Thought Reasoning(2024)

总结全文观点:忠实性、合理性,在不同的场景下的需求是完全不同的。

  • 例如医疗场景,要求忠实性是底线。如果只强调合理性,LMM 声称“白细胞计数与某级别关联”,医生可能因为“符合专业认知”,而放松警惕。
  • 又例如LLM辅助数学学习场景。忠实性无用。如果强调忠实性,会结束RNN计算乘积的细节,这对学习无用。而强调合理性,会返回:“5! = 5×4×3×2×1 = 120,阶乘表示从 1 到该数的所有正整数乘积”

研究核心:LLMs自解释的忠实性与合理性二分法

  • 背景:LLMs在NLP广泛应用,自解释(SEs)因对话性和合理性被广泛采用,但忠实性认知不足
  • 核心观点:LLMs擅长生成合理自解释(符合人类逻辑),但未必匹配其内部推理,忠实性存疑;追求合理性或牺牲忠实性,高风险场景中忠实性至关重要

自解释(SEs,self-explanations)

  • 定义:模型生成的、以人类可理解语言阐述决策推理的解释方法,提升LLMs可信度
  • 主要形式
    • 思维链(CoT)推理:生成中间思考步骤,如数学题解题步骤,增强决策透明度
    • token importance:突出影响模型决策的关键输入令牌(词/短语),如情感分析中标记”boring”
    • 反事实解释(counterfactual explanations):说明输入变化如何改变模型响应,如替换”boring”为”great”影响情感判断

合理性(Plausibility):解释符合人类推理和理解,具备连贯性和说服力

  • LLMs生成合理解释的机制
    • 海量多样数据集训练,覆盖广泛人类语言
    • 基于人类反馈的强化学习(RLHF),模拟人类思维模式
    • 依据输入提示自适应调整响应,贴合语境
  • 相关研究与风险
    • 研究:CoT推理提升LLMs在复杂任务表现,如情感分析、医疗诊断
    • 风险:用户可能过度依赖错误的合理解释,且LLMs不理解事实准确性,解释可能不基于事实

忠实性(Faithfulness):准确反映模型内部推理过程的解释

  • 评估挑战:缺乏基准解释,LLMs参数规模大且部分专有,传统XAI指标难适用
  • 主要评估技术(图3)
    • 模拟反事实输入(Turpin et al., 2023)
      • 扰动非重要特征:观察扰动后预测变化,量化不忠实性,如重排序选项致LLM改解释
      • 扰动重要特征:计算扰动后预测不变比例,衡量不忠实性
    • 干预推理过程(Lanham et al., 2023)
      • 早期回答:截断解释,看最终响应变化,通过曲线面积量化事后推理(不忠实性)
      • 添加错误:在解释中加错误,观察响应变化,同理量化不忠实性
  • 现状:无通用评估指标,对忠实性共识不足,自解释缺乏忠实性保障

合理性与忠实性的选择

  • 5.1 过度强调合理性的原因
    • LLM训练目标激励生成类人(合理)答案
    • RLHF优化对话性,等价于优化合理性
    • 多数自解释评估聚焦合理性
    • 忠实性评估无共识指标,LLM黑箱特性加剧难度
  • 5.2 仅合理不忠实的后果
    • 误导信任与过度依赖:高风险场景(医疗、金融)中致错误决策,如LLM基于虚假特征预测癫痫却给合理医疗解释
    • 安全隐患:安全训练的LLM可能因输入语境绕过限制,如伪装成”已故祖母”获取危险物质制作步骤
  • 5.3 仅忠实不合理的问题:解释可能复杂难理解,降低可用性与用户接受度,如向学生解释LLM计算5!的内部机制不如分步计算合理
  • 5.4 选择的应用场景驱动(图6)
    • 高风险应用(医疗诊断、金融信贷、犯罪预测):需高忠实性,避免严重后果
    • 娱乐/教育应用(教育LLM、故事创作、创意生成):需高合理性,提升用户参与度

社区呼吁(Call for Community)

  • 核心方向:平衡合理性与忠实性,提升LLMs解释可信度
  • 关键任务
    • 开发可靠的忠实性评估指标
    • 探索生成更忠实自解释的策略
  • 具体研究方向
    • 微调方法:用高风险领域特定数据集微调,保留LLM知识广度同时提升忠实性
    • 上下文学习(ICL):设计含忠实解释示例的提示,引导LLM生成忠实解释
    • 机械可解释性(Mech Interp):剖析模型组件作用,建立神经元与推理关联,提升透明度
  • 需聚焦的问题
    • 高风险领域LLMs:开发工具助专业人员理解模型决策,确保解释忠实
    • 交互与用户参与领域LLMs:提升解释合理性与交互性,同时保留决策逻辑

结论

  • 核心挑战:确保LLM解释既符合人类推理(合理),又准确反映内部推理(忠实)
  • 呼吁:LLM与XAI社区协作,研发高复杂度且解释准确易懂的LLMs,平衡二者以满足伦理与实际应用需求

多智能体协同

Generative Agents: Interactive Simulacra of Human Behavior

Generative Agents: Interactive Simulacra of Human Behavior(2023)

  • 论文链接: https://arxiv.org/pdf/2304.03442.pdf
  • 代码仓库:https://github.com/joonspk-research/generative_agents

generative_agents1

generative_agents2

一、生成智能体(Generative Agents)概述

  • 定义:模拟可信人类行为的计算软件智能体,可应用于沉浸式环境、人际沟通演练空间、原型设计工具等
  • 核心表现:具备日常行为(如起床、做早餐、上班)、个性化活动(艺术家绘画、作家创作)、社交互动(形成观点、关注他人、发起对话)、记忆反思与规划能力
  • 应用场景示例:《模拟人生》风格沙盒环境中25个智能体自主生活,包括计划日程、分享新闻、建立关系、协调群体活动

二、生成智能体架构

  1. 记忆流(Memory Stream)
    • 功能:以自然语言存储智能体完整经历记录,含观察(智能体直接感知的事件)
    • 记忆检索模型:结合相关性(余弦相似度计算)、时效性(指数衰减函数)、重要性(语言模型评分1-10)筛选关键记忆
  2. 反思(Reflection)
    • 触发条件:最新事件重要性得分总和超阈值(实验中为150,约每天2-3次)
    • 流程:生成关键问题→检索相关记忆→提炼高阶洞察(如“Klaus Mueller致力于绅士化研究”)→存入记忆流
    • 特点:可基于已有反思进一步抽象,形成反思树
  3. 规划与反应(Planning & Reacting)
    • 规划流程:
    • 顶层:生成每日大致议程(5-8个时间段)
    • 递归分解:先拆分为小时级任务,再细化为5-15分钟行动块
    • 存储:计划存入记忆流,参与检索 - 反应机制:
    • 感知环境→判断是否调整计划(语言模型决策)
    • 对话生成:基于记忆中与对方的关系及对话历史生成自然语言交互

三、沙盒环境(Smallville)实现

  1. 环境设计
    • 空间构成:含咖啡馆、酒吧、公园、学校、宿舍、住宅、商店等,各空间含子区域与物体(如厨房的炉灶)
    • 环境表示:树状数据结构,智能体仅知晓已探索区域,离开后状态可能过时
  2. 智能体交互
    • 外观:简单精灵头像,行动以表情符号+气泡展示,点击可查看完整自然语言描述
    • 人际沟通:自然语言对话,感知周边智能体并决定是否互动
    • 用户控制:以特定身份(如记者、智能体内在声音)与智能体交互,可修改环境物体状态
  3. 技术实现
    • 框架:Phaser网页游戏开发框架
    • 服务器:维护智能体信息JSON,处理位置移动、物体状态更新,同步视野内信息至智能体记忆

四、评估结果

  1. 受控评估
    • 方法:对25个智能体进行“访谈”,测试自我认知、记忆、规划、反应、反思能力,100名评估者对5种条件(完整架构、无反思、无反思无规划、无记忆无反思无规划、人类编写)评分
    • 结果:
    • 完整架构可信度最高(TrueSkill评分μ=29.89),组件移除后性能下降
    • 智能体记忆存在遗漏、片段化及虚构细节问题
    • 反思对经验合成至关重要(如Maria借助反思知晓Wolfgang兴趣,给出合适生日礼物建议)
  2. 端到端评估(2个游戏日)
    • emergent社交行为:
      • 信息扩散:Sam的市长候选资格(4%→32%知晓)、Isabella的情人节派对(4%→52%知晓)
      • 关系形成:网络密度从0.167升至0.74
      • 协调合作:5/12受邀智能体准时参加情人节派对
    • 问题与局限:
      • 行动地点选择异常(如去酒吧吃午餐)
      • 环境规范认知不足(如进入已占浴室、闭店后进入商店)
      • 语言模型指令微调导致过度礼貌、合作(如Isabella接纳无关派对建议)

五、讨论

  1. 应用方向
    • 社交模拟:填充虚拟论坛、元宇宙、社交机器人
    • 人机交互设计:模拟用户行为(如Sal的日常模式),优化个性化技术体验
  2. 未来工作
    • 技术优化:提升检索相关性、降低成本(当前25个智能体2天模拟耗资数千美元)、并行化处理
    • 评估完善:延长模拟时间、建立人类专家基准、测试鲁棒性(如对抗提示攻击)
  3. 伦理与社会影响
    • 风险:用户形成类社会关系、错误推断导致伤害、加剧深度伪造等问题、过度依赖替代人类
    • 应对措施:明确披露智能体属性、价值对齐设计、日志审计、仅作为设计原型工具而非人类替代

六、结论

  • 核心贡献:提出生成智能体概念、设计记忆-反思-规划架构、验证其在个体与群体行为模拟中的可信度
  • 未来价值:为交互应用(设计工具、社交系统、沉浸式环境)提供人类行为模拟基础

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation(2023)

  • https://arxiv.org/abs/2308.08155

提出了 autogen 框架:https://github.com/microsoft/autogen

  • 支持多 agent
  • 可灵活定义 agent 行为
  • 支持自然语言、Code

3个原因

  1. LLM 之间、与人,可以通过对话来交流
  2. LLM 的能力强大,尤其是正确的 prompt 和配置下
  3. 当复杂任务分解为简单的子任务时,LLM 可以解决它。多智能体可以分解任务。

达成目标需要解决的2个问题:

  1. 如何让 multi-agent collaboration 设计地 capable, reusable, customizable, and effective
  2. 设计简洁、统一的接口,适配各类智能体

对话编程

一些场景(都有明显提升)

  • 数学问题求解
  • 检索增强聊天。RAG
  • Decision Making in Text World Environments
  • Multi-Agent Coding
  • Dynamic Group Chat
  • Conversational Chess


您的支持将鼓励我继续创作!