下棋、写诗、绘画……人工智能(AI)越来越“多才多艺”,连数学也难不倒它。OpenAI的ChatGPT等大语言模型(LLM),几乎在每一次数学测试中都表现良好。不过,AI此前几乎没有触及过数学领域的前沿研究,考试并不能反映它真正的数学能力。
11月22日,在预印本平台arXiv公布的一项研究中,美国技术研究机构Epoch AI召集了60位顶尖数学家,并提出了最具挑战性的数学难题,从而建立了基准更高的大模型数学测试数据库。结果发现,大语言模型的答题正确率还不到2%。这表明AI距离颠覆数学领域还差得很远。
“AI在数学界造成的影响虽然很小,但可以看到它的潜力。”英国帝国理工学院的数学家Kevin Buzzard说,如果有一个模型能从这个数据库测试中脱颖而出,那么数学家的游戏就结束了。
利用互联网及其他来源的大量文本进行训练,LLM能够根据识别模式预测最可能的单词、数字或符号序列。这使其能够回答问题、创作故事或解决数学问题。
之前,AI解决数学问题的正确率并不理想。而今,一些先进模型的正确率已经有所提升。比如,谷歌DeepMind的一个以数学为侧重点的AI模型,达到了国际数学奥林匹克竞赛银牌标准。
但专家指出,这些结果可能夸大了AI模型的数学推理能力。一方面,目前AI数学测试的基准大多相当于高中或本科水平,这与数学家的水平相去甚远,而数学家通常致力于解决几个世纪以来悬而未决的问题。另一方面,这样的测试不具备公平性,因为这些AI模型利用互联网数据进行了大量培训,能“看到”类似问题的解决方案,即存在数据污染。
为了解决上述问题,Epoch AI向60位数学家支付报酬,请他们提出极其困难的原创问题,以建立新的数学测试基准。Epoch AI的数学家Elliot Glazer说,其中有些问题数学家自己也要几天才能解答出来。
此外,为了防止数据污染,数学家只在加密的服务器上讨论、编写试题,并避免使用在线文本编辑器。
Epoch AI团队选择了约150个问题,对6个顶级LLM进行了测试,包括OpenAI和DeepMind的最新版本模型。每道题的解题时间为20秒至1分钟。结果,没有一个模型在测试中得分超过2%。
Buzzard说:“AI距离能够解决这些极具挑战性的数学问题还有很长的路要走。”尽管如此,专家认为AI模型迟早会追上新基准。对此,一些人乐观地认为,AI更多地将作为帮手而不是竞争对手存在,即使AI能够写出人类无法企及的证明过程,数学家在理解这些答案方面仍将发挥至关重要的作用。
但也有人担心AI在数学领域会产生不好的影响。“在AI开始超越人类前,数学家必须考虑谁可以使用这些工具、该花多大的精力训练它们,以及我们到底希望它们做什么。”加拿大渥太华大学的数学家和计算机科学家Maia Fraser说。(徐锐)