• 客户服务热线
    0717-6362188
新闻动态
无需SFT也不必RL样本级推理优化神器SLOT来了准确率轻松+10%
发布时间:2025-06-12 23:43:17  来源:BOB全站

  无需SFT也不必RL,样本级推理优化神器SLOT来了,准确率轻松+10%

  近期,当很多人还在纠结用什么 label 和 reward 练习大模型的时分,以及纠结用什么样的基准模型进行公正比较的时分,西湖大学 MAPLE 试验室另辟蹊径:已然 LLM 在杂乱指令上体现欠安,需求引进独自的 SFT 或许 RL 进程,那为啥不让模型在推理时「暂时学习」一下这个详细的问题呢?这个看似「离谱」的主意,居然带来了惊人的作用提高。

  试想一下,假如你参与考试时,能够在答题前花几秒钟「习惯」一下这道详细的标题,你的体现会不会更好?

  这正是西湖大学研讨团队在最新论文中提出的中心思维。他们开发的 SLOT(Sample-specific Language Model Optimization at Test-time)办法,把每个输入 prompt 自身当作一份「迷你练习数据」,让模型在生成答案前先「学习」了解这个详细问题。

  只需求优化一个轻量级参数向量 delta(仅修正最终一层特征)只需求几步 (比方 3 步) 梯度下降核算开支简直能疏忽不计(仅添加 7.9% 推理时刻)彻底即插即用,无需修正原模型

  即使拿最有挑战性的高性能基线做比较目标,试验成果令人瞩目 (一切 log 都在开源 github 里):

  传统的 LLM 在面临杂乱或特别格局的指令时常常「翻车」,它可能会疏忽格局要求或给出过错答案。

  SLOT 的解决方案高雅而简略:针对独自一个问题,直接在最终一层特征上加一个 delta 向量,并在问题 prompt 自身上最小化穿插熵丢失即可。

  因为只是需求在最终一层上优化一个加性的 delta 参数向量,每个问题只需求经过一次网络推理。经过把输入给最终一层的中心成果进行缓存,优化 delta 的进程简直不要添加核算开支。

  因为办法非常简略,任何伪代码公式都剩余,这儿给出怎么把 SLOT 应用于你的作业的 transformers 版别代码(vLLM 版别也已开源)。

  研讨团队经过一系列剖析发现,SLOT 优化后的 delta 会明显调整输出词汇的概率散布:

  增强的词汇:reasoning、think、thinking 等推理相关词汇按捺的词汇:数字符号(0-9)、模态动词(should、will)、完毕符

  这意味着 SLOT 在鼓舞模型「深思熟虑」,防止过早完毕推理或堕入外表的形式匹配。

  Qwen 系列:1.5B 到 32B 均有提高。Llama 系列:包含 Llama-3.1。DeepSeek-R1 系列:即使是现已专门优化过推理才能的模型,仍能取得明显提高。

  在大模型年代,当一切人都在寻求「更大、更强」时,SLOT 用一个简略得「离谱」的主意证明:有时分,让模型在答复前先「了解」一下问题,就能带来惊人的作用。

上一篇:欧美一级网址安卓体会服下载V968 - 大西北网

下一篇:每日一图@湖南