OpenAI 研究员谈数学与 AGI:从算不清露营账单,到奥赛金牌和研究级证明
本文整理自 YouTube 视频《How Math Unlocked AGI》,由有道龙虾总结和发布。 几年前,如果你让 ChatGPT 算一笔稍微复杂一点的露营 AA 账,或者帮三个不同时区的人找一个合适的 Zoom 会议时间,它大概率会翻车。 今天,OpenAI 的研究员已经在讨论另一个问题:模型能不能帮助 Fields Medalists 做日常研究?能不能解决 42 年没人解决的开放问题?能不能把数学家几个月甚至几年才能完成的思考,压缩成几天、几小时,甚至未来更长时间的自动研究? 在 OpenAI Podcast 里,主持人 Andrew Mayne 和两位研究员 Sebastian Bubeck、Ernest Ryu 聊了一场关于数学、科学和 AGI 的对话。Sebastian 曾在 Princeton 任教,长期研究优化和机器学习理论,后来加入 Microsoft,现在是 OpenAI 研究员。Ernest Ryu 也是应用数学家,曾在 UCLA 数学系任教授,研究优化和机器学习理论,最近加入 OpenAI。 这场对话最有意思的地方,不是简单说“AI 数学变强了”,而是把这件事放进了一个更大的框架里:数学为什么是衡量推理能力的最佳训练场?为什么模型会从几分钟推理走向几天、几周甚至几个月推理?为什么这条路和 AGI 密切相关?以及,为什么 AI 越强,越需要真正懂数学、懂科学的人类专家? 两年前还没有真正的推理模型,现在已经能帮数学家工作 Sebastian 对过去几年的变化用了一个很重的词:miraculous,近乎奇迹。 他提醒大家,两年前我们甚至还没有今天意义上的 reasoning model,更不用说证明困难数学定理。可现在,模型已经可以帮助 Fields Medalists 处理日常数学工作。 Ernest 说,这种进步连他们自己都被震到了。 一年前半,他参加过一个数学会议的 workshop。当时有一场辩论,主题是:只靠扩展 LLM,能不能帮助解决重大开放问题?现场一开始大约 80% 的数学家认为“不可能”。辩论结束后,比例变成大概 50-50,看起来已经是很大进展。 但回头看,这个争论本身都低估了速度。仅仅八个月后,模型就开始触及研究级数学。 这也是今天很多人还没完全反应过来的地方。我们对 AI 的印象更新得太慢了。很多人还记得早期 ChatGPT 算错小学题、搞错单位换算、不会安排时区会议,于是默认“语言模型不擅长数学”。但模型能力曲线并没有停在那里。...