日前,第39届国际人工智能大会(AAAI 2025)如期召开。凭借显著的创新性和应用价值,作业帮研发的“偏好导向监督微调(PoFT)”技术被大会成功收录,技术覆盖深度学习、机器学习、自然语言处理、知识计算等多个前沿技术领域。作为中国计算机学会推荐的A类国际学术会议,AAAI收录的全球人工智能领域的顶尖学术成果,都经过了多轮严格评审。
在智能教育应用中,大语言模型的核心价值在于“理解指令并作出精准响应”。比如讲解数学题时,模型需兼顾解题步骤的严谨性与语言表达的通俗性,这就要求模型必须经过充分的“对齐训练”。但高质量教学类配对数据的构建成本极高,传统监督微调(SFT)技术采用的“交叉熵”损失函数平等对待所有训练样本,既无法突出核心知识点的学习权重,也容易让模型吸收低质内容,进而出现题目理解偏差、解答质量低下、表述不清等问题。
针对这一痛点,作业帮PoFT技术提出了创新性的解决方案,其核心思路是“以多模型为专家对学习数据进行权重打分”,让目标模型“有判断、有重点地高效学习”。在训练过程中,要求目标模型对同一数据的“置信度”(即模型自认回答正确的概率),必须超越这些标杆模型的平均水平,以此确保学习效果的可靠性。
与此同时,PoFT还具备良好的兼容性:既可结合现有数据过滤技术(如IFD、Instag)——先过滤明显劣质数据,再通过PoFT优化学习权重,进一步改善性能;也可与偏好对齐算法(如DPO)组成“两步训练”流程。在AlpacaEval 2.0基准测试中,PoFT+DPO组合方案的胜率较传统DPO高出2.74个百分点,尤其在复杂教学场景中过拟合风险显著降低。
教育应用对模型的容错率要求极低——例如同一数学题可能有多种解法,模型需精准识别“步骤更简洁”“逻辑更清晰”等细微偏好。若因学习低质量数据导致解析错误,极易误导学生。PoFT的做法是通过“标杆模型打分”机制,使模型优先学习优质数据,精准捕捉教学过程中的特殊偏好。目前,PoFT技术已经应用于智能解析、个性化辅导等产品中。
此次PoFT技术成功入选AAAI 2025,不仅体现了作业帮在大模型优化领域的技术实力,也为智能教育场景的模型适配提供了新思路,即无需依赖高成本优质数据,也可实现模型性能的稳定提升。据了解,作业帮自成立以来,一直致力于用技术手段解决教育痛点,在语音识别、自然语言处理、图像和OCR识别、大数据、云原生、音视频等技术领域持续探索,关键技术曾先后获得中国信通院应用优秀案例、卓越创新案例、MIT全球十大突破技术等多项国内外顶级奖项。(七喜)