AI高考成绩单出炉：数学接近学霸，作文豆包夺魁

8次阅读

没有评论

共计 3180 个字符，预计需要花费 8 分钟才能阅读完成。

2026年最新一轮主流大模型高考专项测试如约开启，本次测试聚焦高考数学全科作答与高考语文作文专项评分，邀请一线高中名师阅卷打分，横向对比十余款国内外主流AI模型。

不同于过往娱乐化测评，本次测评标准完全对标真实高考阅卷规则，统一试题、统一判卷尺度，最终呈现出非常真实的AI能力分层：国产大模型在理科推理实现反超，海外模型写作风格各有优劣，但所有AI都存在难以规避的“应试短板”。

01 数学单科：国产AI集体领跑，高分逼近人类学霸

高考数学是公认最能检验AI逻辑推理、运算严谨度的科目，也是往年大模型最容易翻车的领域。但在2026年的专项测评中，头部国产大模型的数学能力实现明显突破，整体成绩大幅提升。

本次实测高分梯队十分清晰：讯飞星火以148分稳居榜首，创下历年AI高考数学最佳成绩；Kimi k2.6以145分紧随其后，DeepSeek拿下144分，三款国产模型稳稳站在第一梯队。

从分数维度来看，140+的成绩已经超越绝大多数普通高中考生，达到重点高中优等生水平。在基础题型、常规题型上，头部AI的解题准确率、步骤完整性、公式运用规范性，甚至优于多数学生。

但名师阅卷后也指出了共性问题，AI的高分存在明显“局限性”。面对套路化、标准化的常规考题，AI可以稳定输出标准答案，但在压轴创新题型、多场景嵌套题型、需要灵活变通的开放性数理题中，容易出现逻辑僵化、步骤冗余、思路单一的问题，偶尔还会出现低级计算失误，这也是AI暂时无法超越顶尖人类学霸的核心原因。

整体来看，当前主流AI数学能力梯队分化明显：头部国产模型已经吃透高考应试体系，中尾部模型仍存在大量错题、解题逻辑混乱等问题，分数差距极大。

02 全国I卷作文专项测评：五款AI同题作答，资深阅卷组长现场打分点评

作文测试选用2026年高考全国I卷真题，选取豆包、DeepSeek、元宝、千问、ChatGPT五款市面主流AI大模型参与作答，并邀请武汉市六中原语文教师、原湖北省高考阅卷作文组长黄德灿老师阅评。

本次全国I卷作文以“词语与成长”为核心主题，材料提出，词语既是表达思想情感的载体，也能映照社会生活的变迁。题目要求考生结合自身成长经历，分享自己对某一个词语认知发生改变的过程，体现个人成长印记与时代变化的关联，文章字数不少于800字。这道作文题兼顾语言感知、个人体验与时代思考，切入点宽泛，但十分考验考生的个人阅历、独立思考能力与情感表达能力，也是区分作文分数的关键。

结合黄德灿老师的打分与点评，五款AI作文得分与表现各有差异，满分60分的前提下，整体分数区间集中在47分至56分，以下为各模型的具体表现。

豆包的作文题为《从 “远方” 到 “当下”：一个词的成长叙事》，最终得分56分，位列五款模型第一名。文章选取“远方”作为核心词语，梳理了认知的转变过程：年少时将远方视作逃离枯燥学习与现实生活的乌托邦，一次贸然出走的经历让它认清虚幻；最终领悟到，真正的远方并非地理上的别处，而是立足当下、踏实前行的成长状态。黄德灿点评称，这篇文章避开了“奋斗”“担当”等热门宏大词汇，切入点新颖，以具象的出走经历作为转折，清晰展现认知蜕变，立意深刻且富有哲理。文章个人体验具体，时代感鲜明，唯一的不足是对“远方”与“当下”的辩证关系还可以进一步深挖。

元宝以《从”平凡”中读懂生命的重量》为题作答，得分52分，排名第二位。文章围绕“平凡”一词展开，作者结合医院陪床的所见所闻，扭转了年少时“平凡等同于平庸”的认知，从病房里普通老人、身边平凡劳动者的日常坚守中，读懂了平凡生命的价值，同时结合当下社会思潮，探讨平凡与非凡的关系。阅卷老师认为，该文从真实生活场景切入，情感真挚、细节生动，兼具感性表达与理性思辨；美中不足在于，部分素材之间的衔接略显生硬。

DeepSeek选择“故乡”作为写作核心，文章标题为《故乡与我同变》，得分49分，位列第三名。全文以个人视角梳理对“故乡”认知的变化：年少时渴望逃离乡村故乡，求学后心生眷恋，毕业后返乡又见证故乡的现代化蜕变，将个人成长与故乡发展相结合。黄德灿指出，文章结构完整、情感流畅，时代气息浓厚，人物心理变化的脉络清晰。但文章后半段描写大学毕业返乡后的内容存在脱离高中生身份的问题，叙事素材偏虚假，没能深入挖掘个人与故乡“共同变化”的内在联系。

ChatGPT的作品《“奋斗”二字的新注解》得分48分，排名第四。文章以时间为线索，层层递进解读“奋斗”的内涵：从最初认为奋斗只为个人成绩与名利，到经历疫情后理解奋斗的社会价值，最终将奋斗与家国发展绑定。阅卷点评提到，文章框架规整，认知递进逻辑清晰，但整体局限在“个人到集体”的常规写作框架中，缺少深度思辨，同时混淆了个人奋斗与家国奋斗的关系，二者并非相互超越，而是彼此融合、同频共振。

千问围绕“担当”创作《担当：在成长中破土而出》，得分47分，为五款模型最低分。文章按照“儿时认知—家庭感悟—时代理解”的思路行文，将担当从分内小事，逐步延伸到社会责任与民族精神。黄德灿表示，文章价值导向积极，清晰展现了精神层面的成长蜕变，但内容流于表面，仅从正面解读“担当”，缺少多角度思考，同时个人专属的成长体验较为薄弱，模板化痕迹明显。

综合五篇作文来看，黄德灿也给出了整体性评价。所有AI生成的文章都具备统一优势：行文规范、用词严谨、基本无错别字与语病，段落结构工整，应试基础十分扎实。但共性短板也十分突出：AI作文普遍缺少个性化表达，很难结合真实的个人情感与独特阅历展开创作。即便分数最高的作品，也难以在感性表达、深度思辨、人性刻画上达到顶尖学生作文的水准。AI可以搭建起完整的文章框架，填充规范的文字内容，却无法复刻人类独有的成长感悟与情绪体验，这也是AI写作难以突破满分壁垒的核心原因。