当前动态:涉及29676辆新能源汽车...
根据《海南省工业和信息化厅海南省财政厅海南...
符尧(yao.fu@ed.ac.uk),爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学。本文原文为英文,由作者与 GPT-4 交互翻译为中文。 感谢艾伦人工智能研究所 彭昊, Tushar Khot 的深入讨论。
最近,很多关于较小模型的研究取得了令人振奋的对话能力,这让人们想象,是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的性能。一般来说,语言模型具有多维能力,所以模型之间的相互对比较为困难。找到正确的衡量标准对于开发强大的语言模型至关重要。在目前阶段,研究者们急切想知道什么是度量大语言模型潜力的关键因素。
在 GPT-4 发布博客中,作者写道:“在一次随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂程度达到足够的阈值时,差异就会显现出来。” 这意味着复杂任务很可能是大型和小型语言模型的关键差异因素。
更重要的是,复杂推理为基于语言模型构建大量应用程序提供了机会,从而使语言模型有机会成为下一代计算平台 / 操作系统。这有可能从根本上改变人类与机器的交互方式,重塑整个计算生态系统。
【资料图】
在这篇文章中,我们将仔细分析讨论如何让大语言模型拥有强大的复杂推理能力。
在天体摄影中,当使用长曝光拍摄星轨时,北极星位于星轨的中心,始终指向真正的北方。在古代,它为旅行者指引方向。目录1 - 动机:大语言模型作为新一代计算平台我们研究复杂推理的原因有两个: 正如上文提到的,复杂推理是标志着小模型与大模型差异的关键因素,这一点在 GPT-4 发布文章中已经讨论过。 复杂推理是使模型成为下一代操作系统的核心能力。 将语言模型视为下一代操作系统的愿景尤为有趣,因为它为构建新应用程序和创建基于语言模型的计算生态系统(可能比超级应用程序如 ChatGPT 提供更大的机会)开辟了无数可能性。复杂推理能力是基础,因为如果我们希望模型成为新的操作系统,它需要能够通过与工具、用户和外部环境的所有元素互动来完成复杂的指令。 本文研究了如何训练具有强大复杂推理能力的模型,如何进行提示工程以充分发挥模型的推理能力,以及如何评估模型的推理性能。本文的内容分为以下几部分: 在第 2 部分,我们讨论了构建具有强大复杂推理能力的语言模型的现有方法。复杂推理的方案与通用大型语言模型(LLM)开发的方案相似,包括三个阶段:持续训练 (continue training)、指令微调 (instruction finetuning) 和强化学习 (reinforcement learning)。我们还会进一步讨论代码与推理之间令人惊讶的耦合关系。 在第 3 部分,我们讨论了复杂推理的提示工程 (prompt engineering) 技术。当语言模型成为新一代操作系统内核时,提示工程 / 场景学习将成为新一代脚本编程 (shell script)。 在第 4 部分,我们讨论了如何评估大型语言模型的推理能力。我们介绍 Chain-of-thought Hub,这是一个包含 100 多个推理任务的数据集合,清楚地标示了大型与小型模型的差异。我们重点介绍了 LLaMA 65B 的出色表现。我们认为它具有非常强大的潜力,可作为再现 ChatGPT-3.5 的基座模型。 2 - 增加大语言模型推理能力的方案推理的方案与构建通用大型语言模型和聊天机器人的方案密切相关。总共有三个阶段: 预训练 / 持续训练:在这个阶段,我们通常在大型数据集(如科学文献或代码数据)上训练大型模型。 有监督微调:在这个阶段,我们对模型进行微调,以便完成复杂任务的指令。 强化学习:在这个阶段,我们使用诸如任务是否已全部 / 部分完成的信号作为奖励。 我们进一步回顾了在代码上进行训练也可以提高模型推理能力的假设。因此,在我们的文献分析中,我们同时考虑推理和编码。我们将看到,就学习方法而言,这两者之间存在惊人的相关性。 2.1 - 预训练与持续训练我们分析以下几项研究:Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models
在来自 Arxiv 论文的 38.5B 的 token 上继续训练 PaLM 540B。
在 MATH (一个需要使用 LaTeX 格式回答问题的困难数据集),上的得分为 33.6(GPT-4 的得分是 42.5)
Taylor et. al. 2022. Galactica: A Large Language Model for Science
在包含论文、代码、参考资料、知识库和其他内容的 106B token 上预训练一个120B语言模型。
在MATH上的表现为 20.4(Minerva 33.6,GPT-4 42.5)
Chen et. al. 2021. Codex: Evaluating Large Language Models Trained on Code
在159GB代码数据上继续训练 12B GPT-3 模型,提高了 HumanEval 数据集上的代码性能。
这些研究发现,在大量科学文献 / 代码上进行训练可以显著提高基础模型的推理/编码能力。
2.2 - 监督微调我们分析:Chung et. al. 2022. Scaling Instruction-Finetuned Language Models
使用多样化的指令显著提高了模型零样本泛化的能力
在指令集合中混合思维链数据(the flan collection 文章中进一步讨论了这个问题)明显提高了模型的思维链能力
注意:尽管 the flan collection 数据集从多个维度激发了基础模型的能力,但这些指令并非来自真实的聊天机器人用户互动,因此可能无法直接转化为更好的聊天性能。
Fu et. al. 2023. Specializing Smaller Language Models towards Multi-Step Reasoning
将思维链推理能力提炼到较小规模(小于或等于 10B)的模型。通常,10B 规模的模型非常适合部署(更大的模型太贵了,更小的模型太弱了)。
本文讨论了很多工程细节,如数据工程、能力平衡以及小型和大型模型之间的差异
Li et. al. 2022. Competition-Level Code Generation with AlphaCode
在 715GB 的 GitHub 代码上预训练一个 41B 模型,然后在包含 13k 问题的 CodeContest 数据集上进行微调
在测试期间,使用采样并根据是否通过示例测试来过滤解决方案。从某种意义上说,这种做法类似于推理问题中的 self-consistency 方法。
目前关于指令微调的理解是:通过使用对话格式的数据,将基本模型调优为聊天机器人相对容易(参见像 Alpaca 和 MOSS 这样的优秀示例)。然而,闲聊的能力并不能转化为执行复杂任务的能力。从这个角度来看,模型就像人类一样:说得多不如干得好,代码见真章。
实际上,指令调优问题是一个数据混合问题:如何最好地混合来自不同来源的指令数据,以便从所有角度均匀地提高模型性能(而不是像在 CoT specialization 和 the flan collection 中讨论的那样,增加一个维度但降低另一个维度)。
数据混合的简单起点是:使用 10-20 个非思维链的数据点(以平衡不同维度的能力),但尽可能多地使用链式思维数据(以最大化推理能力)。
2.3 - 强化学习我们分析:Uesato. et. al. 2022. Solving math word problems with process- and outcome-based feedback
基于中间推理和最终推理结果构建奖励模型。
Le et. al. 2022. CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning
根据诸如编译错误、运行时错误或是否通过测试等信号训练奖励模型。
这两项工作都使用中间信号(对于推理,看中间步骤是否正确;对于编码,看代码是否编译)和最终信号(对于推理,最终答案是否正确;对于编码,代码是否通过测试)作为奖励。需要注意的是,这种类型的强化学习与基于人类反馈的强化学习(RLHF)有所不同,因为它不需要人类反馈。 2.4 - 推理能力和代码能力的耦合在我们之前的讨论中,我们提出了一个假设,即在代码上进行训练可能会提高推理能力,原因如下:代码注释是自然存在的链式思维数据
面向过程编程类似于逐步解决任务。这适用于简单和中等复杂度的任务
面向对象编程类似于将任务分解为较小的任务,然后分别解决它们。这适用于较高复杂度的任务。
从这个显著的一致性中,我们看到提高推理能力与提高编程能力非常相似。在此,我们通过强调训练大型语言模型进行推理或编码的配方相似性,深化了这个假设: 我们看到推理和代码都经历了: 在连续训练阶段,可以在基础模型上增加代码和科学文献数据。 在有监督的微调阶段,可以根据要求完成复杂任务的指令或编写代码对模型进行微调 在强化学习阶段,将中间推理步骤 / 编译率和最终推理结果 / 代码通过率作为奖励 在解码过程中,推理和编码都会采样多个解决方案,然后从解码空间中选择最佳方案。 这些相似性使得代码和推理之间的联系非常有趣。综上所述,我们建议使用 in-context chain-of-thought 进行评估:
In-context 是评估 pretrained checkpoint 的更好方法,因为它更好地揭示了模型潜力。Zero-shot 可能低估模型性能,尤其是对于不支持 Zero-shot chain-of-thought 的(“让我们逐步思考”)的模型。 Chain-of-thought prompting 是评估推理能力的更好方法,因为它比 answer-only prompting 更充分地发挥了模型的推理性能。 4.2 - Chain-of-thought Hub 简介项目链接:https://github.com/FranxYao/chain-of-thought-hub 在讨论了所有评估基础知识之后,我们介绍 Chain-of-thought Hub,这是一个正在进行的工作,希望成为评估语言模型推理能力的统一平台。我们汇编了一个包括数学(GSM8K)、科学(MATH)、符号(BBH)、知识(MMLU)等复杂推理任务的列表,以衡量哪些模型确实更好。下面是当前的排行榜。尽管许多数字还没跑出来,但当前的内容仍然能给一个大概的模型排名: 总的来说: 我们根据 GSM8K 对模型性能进行排名,这是一个经典的基准测试,用于衡量链式思维数学推理性能。这不是唯一的度量标准,但一个很好的解释是 “在保持其他通用能力的同时,模型在数学方面的表现如何” —— 这也非常困难。 GPT-4 在 GSM8K 和 MMLU 上明显优于所有其他模型。 65B LLaMA 与 text/code-davinci-002 非常接近,这意味着基于它,如果 SFT 和 RLHF 操作正确,我们很有可能基于 65B LLaMA 复现 ChatGPT。 Claude 是唯一可以与 GPT 系列相媲美的模型家族。 较小的模型,如 FlanT5 11B 和 LLaMA 7B,明显落后于排行榜,这意味着复杂推理可能只是大型模型的能力。 进一步地,在 github 仓库中,我们包括了: 详细的实验设置和结果分析 用于重现 GPT 和 Claude 所有结果的脚本 试一下吧 :)人世间数百万个闲暇的小时流逝过去,方始出现一个真正的历史性时刻,人类星光闪耀的时刻 —— 《人类群星闪耀时》斯蒂芬·茨威格
©THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
关键词:
经常德海关检验合格放行,桃源县湘北茶叶有限公司133 5吨绿茶近日发往广州口岸,出口非洲乍得。这是常德茶叶单票出口最大的一笔业务,也是
湖南日报 2022-09-085月19日,证券板块整体跌幅0 09%,但方正证券上涨3 78%,涨幅位居板块第一。消息面上,方正证券发布公告称,大连中院依法作出执行裁定书,
深圳商报 2022-05-20近来,不少权益基金放开限购、开门迎客,其中不乏明星基金经理旗下产品。与此同时,大量债券基金却收紧了申购门槛,个别将限购金额上限定为
深圳商报 2022-05-20在排队11个月后,国产汽水第一股冰峰饮料上会前主动撤回申请资料,这意味着其IPO告吹。发审委18日晚称,因冰峰饮料撤回申报材料,故取消19
深圳商报 2022-05-2023年过去,A股市场发生了翻天覆地的变化。同花顺数据显示,1999年5月19日,A股上市公司只有857家,A股总市值仅有2 05万亿元。而今年5月19日
深圳商报 2022-05-20深圳创新能力,再获国家首肯。23家深圳专精特新小巨人,进入国家专精特新中小企业高质量发展最新建议支持名单。按照安排,国家将拿出100亿
深圳商报 2022-05-20中新经纬11月24日电 (张澍楠)虽说三百六十行,行行出状元,但行业之间的差距,仍然很大。究竟什么行业“最香”?被视为“高富帅”的金
2021-11-24经常德海关检验合格放行,桃源县湘北茶叶有限公司133 5吨绿茶近日发往广州口岸,出口非洲乍得。这是常德茶叶单票出口最大的一笔业务,也是
湖南日报 2022-09-085月19日,证券板块整体跌幅0 09%,但方正证券上涨3 78%,涨幅位居板块第一。消息面上,方正证券发布公告称,大连中院依法作出执行裁定书,
深圳商报 2022-05-20近来,不少权益基金放开限购、开门迎客,其中不乏明星基金经理旗下产品。与此同时,大量债券基金却收紧了申购门槛,个别将限购金额上限定为
深圳商报 2022-05-20在排队11个月后,国产汽水第一股冰峰饮料上会前主动撤回申请资料,这意味着其IPO告吹。发审委18日晚称,因冰峰饮料撤回申报材料,故取消19
深圳商报 2022-05-2023年过去,A股市场发生了翻天覆地的变化。同花顺数据显示,1999年5月19日,A股上市公司只有857家,A股总市值仅有2 05万亿元。而今年5月19日
深圳商报 2022-05-20深圳创新能力,再获国家首肯。23家深圳专精特新小巨人,进入国家专精特新中小企业高质量发展最新建议支持名单。按照安排,国家将拿出100亿
深圳商报 2022-05-20中新经纬11月24日电 (张澍楠)虽说三百六十行,行行出状元,但行业之间的差距,仍然很大。究竟什么行业“最香”?被视为“高富帅”的金
2021-11-24根据《海南省工业和信息化厅海南省财政厅海南...
假体隆胸是现代整形美容手术中非常流行的一种...
6月13日晚,理想汽车CEO李想在社交媒体平台发...
1、很多人都说自己沟通能力不行。2、其实并不...
6月13日,华人健康(301408)融资买入129 62...
连续两个月回升!6月份中国物流业景气指数为52.1%
山西长子“羊倌”养羊20余年 带动700余户养殖户发“羊财”
上海首个“两山”实践创新基地成功创建
广西医科大一附院向越南捐赠医疗防疫物资
黄埔海关破获案值5.5亿元走私进口二手挖掘机案
Copyright 2015-2022 南极仓储网版权所有 备案号:粤ICP备2022077823号-13 联系邮箱: 317 493 128@qq.com