(原标题:新V不雅国外:专科数学测试难倒AI模子)
陈沛/文 数月前,谷歌DeepMind晓谕旗下的数学AI器用AlphaGeometry 2和AlphaProof或者达到国际奥林匹克数学竞赛的银牌水平,让好多数学家运出动念考AI何时会取代东说念主类数学家。
最近,前沿AI谈判机构Epoch AI发布高难度数学测试集FrontierMath,测试效果泄露GPT、Claude、Gemini等主流AI模子系列的正确率仅有1%至2%,标明AI模子在专科数学限制仍有雄壮差距。
FrontierMath的数学专科难度饱胀高
Epoch AI长久努力于于股东AI本领鸿沟的专科谈判。这次Epoch AI推出的数学测试集FrontierMath,则是由哈佛大学数学系博士Elliot Glazer牵头发起的神情。
该神情的倡导明确,即号令全寰宇数学专科东说念主士提交高质料的原创数学问题,由Epoch AI细密确保和考据问题的专科性和科学性,从而用来教诲现时AI模子的数学推理和盘算推算才调。
Epoch AI条款所提交的数学专科问题必须是从未在互联网上公开过的全新原创问题,且无法进行简短测度或马上回应,必须通过深度逻辑推理才能得到独一的正确谜底,统统推相识答过程至少要让数学专科东说念主士破耗几个小时致使更长的时间。
Epoch AI还遐想了对应的奖励机制来引发数学家孝敬高质料问题。只好提交问题合乎上述基本范例,提交者即可取得300好意思元奖励。淌若问题具备饱胀的原创性和专科难度,给提交者的奖励能加多到1000好意思元。淌若口角常超过的数学问题,奖励金额致使还会更高。
经过了问题搜集、考据、奖励、梳理等一系列神情经过后,最终Epoch AI于近期发布了这一套极具挑战性的专科数学测试集FrontierMath。
从公布的部分样题来看,FrontierMath中包括了数论、素数域流通延长、19阶多项式构建、矩阵盘算推算、求解王人次方程非零解等专科数学问题。
Epoch AI选取了现时主流的AI模子进行测试。谷歌的Gemini-1.5-Pro模子和Anthropic的Claude-3.5-Sonnet模子的正确率分袂是2%,OpenAI的o1-preview、o1-mini、GPT-4o等模子的正确率均为1%,xAI的Grok-2-Beta模子的正确率是0%。
现时AI模子的数学才调有所夸大
AI在科学谈判中近来照实取得好多阐扬,但在数学才调方面还远未达到取代数学专科东说念主士的进程。
单从数月前谷歌DeepMind达到国际奥数银牌的情况来看,它的解题过程还会受到步地化话语调遣、解题时间过长等执行截至,根柢不成径直用于信得过的专科数学测试中。
执行上,数学是一个对逻辑、推理和创造性条款极高的限制,它不仅触及大都的基础常识,还包含了复杂念念考、综合念念维和推理才调。
而这些才调关于现在的AI模子而言,一经是难以跨越的鸿沟。
不外,固然FrontierMath测试集长远揭示了现在AI模子在数学限制的不及,关联词也会给AI谈判者提供明确的矫正标的。
由寰球数学专科东说念主士遐想出来的这些问题和对应的解题范例,最终也会成为下一代AI模子老师的数据养料,匡助催化AI本领的再一次飞跃。