SuperCLUE最新评测：360zhinao3-o1.5中文精准指令遵循国内第一

2025-11-20

上市公司公司动态

其在精确指令遵循上的卓越表现，正是AI技术提升“可用性”和“实用性”、从实验室走向大规模产业应用的关键一步。

近日，中文精确指令遵循测评基准（SuperCLUE-CPIF）正式发布，360zhinao3-o1.5以78.97分位居国产大模型第一，在任务类型、指令数量两类划分中均为国内榜首，其在精确指令遵循上的卓越表现，正是AI技术提升“可用性”和“实用性”、从实验室走向大规模产业应用的关键一步。

本次测评涵盖 GPT-5.1(high)、Gemini-3-Pro-Preview、GPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning等共15个国内外模型参与。基于实际生产环境特点，SuperCLUE-CPIF 重点评估大型语言模型（LLM）在中文环境下精确遵循复杂、多约束指令的能力。测评结果显示，国产主流大模型中，360zhinao3-o1.5以78.97分位居国产大模型第一，ERNIE-X1.1和DeepSeek-V3.2-Exp-Thinking 分别以75.90分和74.36分位居国内二、三。

SuperCLUE-CPIF 测评截图

360zhinao3-o1.5指令遵循训练部分的工作已经发布在论文Light-IF系列上。该模型直面现有大语言模型在处理交织多重约束的复杂指令时普遍存在的“懒惰推理”现象，通过自动化指令构建与难度感知强化学习两大核心技术，驱动模型从被动执行向“主动检查-修改-再检查”的演进，显著提升了在复杂指令下的精准遵循度。

Light-IF系列模型论文发表

另外，360zhinao3-o1.5的训练模型Light-IF论文曾被顶会AAAI 2026成功收录。据悉，AAAI 2025共收到12957篇有效投稿，录用3032篇，录取率为23.4%，其中Oral论文占比4.6%。而AAAI 2026的投稿量进一步飙升至23680篇，仅录用4167篇，录取率降至17.6%，Oral录用率更是进一步降低。Light-IF能在如此激烈的竞争中脱颖而出，可见其在精准指令遵循上的突破性。值得一提的是，Light-IF系列模型已陆续在Hugging Face开源，供全球开发者使用、对比与复现。

将小参数模型的能力推向极致，是360智脑团队持续深耕的技术路径。此前，360与北京大学联合研发的Tiny-R1-32B模型，仅以5%的参数量便在数学等领域逼近了千亿级模型的性能，是一次在模型优化与融合上的深厚积累。这种对“小而精”垂类模型的持续打磨，为AI智能体（Agent）的爆发奠定了坚实基础。