Plaza 新闻汇总

人工智能现在能做数学题了吗？一位数学家的思考

最近，OpenAI的新语言模型o3在FrontierMath数据集上取得了25%的成绩，这引发了人们对人工智能是否能够解决数学问题的讨论。

FrontierMath是一个由Epoch AI策划的包含数百道难题的数学数据集，其问题大多要求找到特定的数字，而不是证明某个定理。数据集中的问题对研究型数学家来说都不容易，甚至一些问题需要博士研究生水平的分析数论知识才能解决。

作者认为，目前人工智能在数学方面的能力大致相当于本科或高中水平，虽然未来一年内人工智能系统很有可能通过本科数学考试，但要达到研究生或博士生水平的创新能力，还需要克服很大的挑战。

作者还提到，DeepMind的AlphaProof系统在2024年国际数学奥林匹克竞赛（IMO）中解决了六道题中的四道，并给出了形式化的Lean证明，但这些问题的解决技巧都属于高中水平。作者预测，未来机器可能会在IMO中达到金牌水平，但随之而来的问题是，谁来为机器评分？

文章最后指出，数学家们希望看到机器不仅能证明定理，还能正确地解释证明过程，让人类能够理解。目前，语言模型在逻辑推理方面的准确性远不如人类专家，而定理证明器则更加准确，但其输出结果有时难以让人理解。总的来说，人工智能在数学领域的发展非常迅速，但距离真正达到“超越本科水平”的阶段还有很长的路要走。

2024-12-24 02:31:40