知识还是推理? 评估很重要,在使用推理LLM 时尤其如此。 看最终反应的准确率,也要注意思维轨迹。 关于这一点有很多好的发现。 以下是我的笔记:概括 引入细粒度的评估框架,将 LLM 思维分解为两个部分:知识正确性和推理信息性,分别通过知识指数 (KI) 和信息增益 (InfoGain) 来衡量。 作者运用该框架来评估推理如何跨领域(特别是医学和数学)转移,使用 Qwen2.5-7B 及其通过 SFT 和 RL 训练的 DeepSeek-R1-distilled 变体。 SFT 可以提高知识水平,但可能会损害推理能力 监督微调提高了事实准确性(例如,医疗任务中的 KI 增益为 6.2%),但往往会导致冗长或冗余的推理,与基础模型相比,信息增益平均降低 38.9%。 强化学习提升医疗环境中的推理能力和知识水平 RL 增强了推理的清晰度并删减了不正确的知识,从而使 KI 平均提高了 12.4 分。 它通过引导模型走向更合理的推理路径来改进推理。 域名问题 虽然数学任务更多地受益于推理(更高的信息增益),但医疗任务严重依赖领域知识(更高的 KI)。 事实上,在医学基准测试中,KI 与任务准确度的相关性 (0.998) 比 InfoGain (0.698)更强。 基础模型在医学上优于R1蒸馏版本 Qwen-Base在准确性、InfoGain和KI方面始终优于DeepSeek-R1蒸馏模型。 R1蒸馏模型在医学适应方面很吃力,可能是因为对数学/代码领域的训练前偏见。知识分享 每天跟我涨知识 编程严选网 人工智能