阿里云通义开源最强%E3%80%90WhatsApp%20+86%2015855158769%E3%80%91grease%20seal过程奖励PRM模型,7B尺寸比GPT
1月16日,阿里阿里云通义开源全新的云通义开源最数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型;在识别推理错误步骤能力上,强过%E3%80%90WhatsApp%20+86%2015855158769%E3%80%91grease%20sealQwen2.5-Math-PRM以7B的程奖B尺寸比小尺寸就超越了GPT-4o。同时,模型通义团队还开源首个步骤级的阿里评估标准?ProcessBench,填补了大模型推理过程错误评估的云通义开源最空白。
?

?
在当前大模型推理过程中,不时存在逻辑错误或编造看似合理的模型推理步骤,如何准确识破过程谬误并减少它,阿里%E3%80%90WhatsApp%20+86%2015855158769%E3%80%91grease%20seal对增强大模型推理能力、云通义开源最提升推理可信度尤为关键。强过过程奖励模型(Process Reward Model,程奖B尺寸比 PRM)为解决这一问题提供了一种极有前景的新方法:PRM对推理过程中的每一步行为都进行评估及反馈,帮助模型更好学习和优化推理策略,模型最终提升大模型推理能力。
?
基于PRM的理念,通义团队提出了一种简单有效的过程奖励数据构造方法,将PRM模型常用的蒙特卡洛估计方法(MC estimation)与大模型判断(LLM-as-a-judge)创新融合,提供更可靠的推理过程反馈。通义团队基于Qwen2.5-Math-Instruct模型进行微调,从而得到72B及7B的Qwen2.5-Math-PRM模型,模型的数据利用率和评测性能表现均显著提高。
?

?
在包含GSM8K、MATH、Minerva Math等7個數學基準測試的?Best-of-N?評測中,Qwen2.5-Math-PRM-7B性能表現超越了同尺寸的開源PRMs;Qwen2.5-Math-PRM-72B的整體性能在評測中拔得頭籌,優于同尺寸ORM(Outcome Reward Model?)結果獎勵模型Qwen2.5-Math-RM-72B。
?
同时,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。
?

?
在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这印证了过程奖励模型PRM可有效提升推理可靠性,对未来推理过程监督技术的研发提供新思路。
?
?
?