界面新闻记者 | 肖芳

界面新闻编辑 | 文姝琪

随着各地高考出分,各家大模型回答高考题能力有了一个更加客观衡量标准

根据极客公园使用高考新课标Ⅰ卷评测,GPT-4o以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,而河南高考录取分数线显示,文科本科一批录取分数线为521分,上述三款国产AI成功冲上一本线。

相比之下大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下。

从具体的科目来看,英语是大模型表现最优异的学科,九个大模型的平均分高达132分(满分 150),大部分大模型都可以做到客观题接近满分。其次是语文,但不论中外大模型语文的得分都要略差于英语得分较高大模型分数能够达到120

数学试卷中,9款大模型产品中,仅GPT-4o、文心一言4.0和豆包获得60分以上成绩(满分150分)重点考查实验探究能力的化学和物理试卷,各模型平均分更是只有34分和39分(满分为100110)。

另一个机构司南评测体系高考全国新课标I卷“语数外”三个科目评测呈现类似趋势7款参与评测的大模型英语语文成绩较高数学成绩不及格

虽然不同评测机构标准有所差异一个非常明显趋势大模型擅长回答文科试题不太擅长回答数学物理理科题目

在一些人的印象中,数学一直都是计算机的强项,大模型在数学等理科试题上表现糟糕让他们有些意外。但一位大模型技术专家告诉界面新闻,这可能是普通人对大模型最大的误解,因为大模型和计算机完全是两个不同的体系。

这位大模型技术专家表示大模型理科表现不好,本质上都来源于数学能力的欠缺。这个和大模型本身的next-token prediction(下一个词预测)有关。

界面新闻了解在大语言模型中,next-token prediction是非常关键的一个环节。当模型处理输入的文本序列时,它会基于已有的信息和学习到的语言知识,对下一个最可能出现的词(token)进行预测。模型通过对大量文本数据的学习,理解了不同词之间的概率分布和关联关系。在预测时,模型会计算每个可能的下一个词出现的概率,并选择概率较高的词作为预测结果。

这种逐词预测的方式使得模型能够生成连贯的文本输出。通过不断地进行下一个词预测,模型可以生成一段完整的文本内容。为了提高预测的准确性,模型的训练过程会不断调整参数,以更好地捕捉语言的模式和规律。同时,模型也会考虑上下文信息,包括前面已经生成的词以及整个输入文本的语义和语法结构,来更精准地进行下一个词预测。这有助于生成更符合逻辑和语义的文本,增强语言模型的表现和生成能力。

当大语言模型学习了海量知识数据,天然就适应考验记忆能力和语言运用的文科考试。但理科考试主要考验推理和计算,比如一道数学题包含5步推理和5步计算,假设大语言模型每一步预测准确的概率都有90%,综合下来的准确率就只有35%。

高考试题评测非常直观显示出大模型上述能力特点如果是文科题目,回答是一段话,阅卷评分的时候其实主要看的还是整段话的意思是否符合要求,可能有一两次不准确,或者用了一些同义词,都不影响评分。但如果是数学题目,假设模型前面输出了32103,下一个token输出一个2还是小数点,都会对最终结果造成决定性的影响。

目前的大模型回答理科试题时只能正确推理步骤相对简单的问题。比如高考新课标Ⅰ卷评测豆包大模型能准确运用求导公式和三角函数定理,但是面对较为复杂的推导和证明问题就很难继续得分。物理试题有一道送分题选择位移时间变化正确图像人类考生根据“时间不会倒流”可以排除所有错误选项大模型则几乎全军覆没。

理科语料比较稀缺也是大模型理科答题能力不如文科重要原因之一另一位大模型技术专家告诉界面新闻理科语料稀缺问题普通日常感知也能理解日常生活普通人接触语料较大比例文字语料数学物理数字符号语料较少用于大模型训练语料同样这种分布

上述大模型技术专家表示普通人认知厉害计算软件大模型完全不同技术原理计算软件并不是基于概率预测下一个token而是基于提前写好专家规则专门用于计算某类数学问题

看起来,要学会像人类一样思考和解决问题,大模型还有很长的路要走。在上述大模型技术专家看来即使文本推理大模型目前只是达到勉强能用水平还有非常提升空间比如研报技术文档分析准确度要求更高场景大模型能力很难达到正常使用水平

目前,各家大模型都在努力提升智能水平,一方面在提升文本生成能力,另一个目标就是提高推理和计算能力。

但学界对大模型的推理和计算能力存在争议。有观点认为,next-token prediction本身就包含了推理,计算也是一种推理。只要scaling law(规模法则)生效,大模型性能持续提升,推理和计算能力就能够提升;但也有反对者认为,大语言模型缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果,主要体现在简单任务和事先知道答案的情境中。大语言模型未来是否能够真正实现AGI?对于这个问题,目前还没有定论。

Source

Visited 3 times, 1 visit(s) today
Subscribe
Notify of
guest

This site uses Akismet to reduce spam. Learn how your comment data is processed.

0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x