当我们在谈论人工智能(AI)时,我们到底在谈些什么?是那些不断被刷新的基准分数,还是那些听起来遥远又模糊的术语,比如通用人工智能(AGI)?
在一期 OpenAI 的播客中,公司的首席科学家Jakub Pachocki和研究员Szymon Sidor坐下来,分享了一些来自一线的、不那么广为人知的看法。他们不仅聊了聊如何衡量AI的真正进步,还透露了一些让他们自己都感到“有点被吓到”的内部故事。有趣的是,这两位顶尖的AI研究者,其实是来自波兰同一所高中的校友。
一切始于波兰的一间教室
Jakub和Szymon的缘分,始于一位名叫Ryszard Dubrawski的计算机科学老师。这位老师对编程竞赛和追求极致的热爱,深深地影响了他们。在那个还不存在ChatGPT的年代,想要深入学习图论、矩阵这些远超高中课程的知识,一位好的导师和极大的热情是必不可少的。
“他(老师)能提供的情感支持和空间,是AI很难单独做到的,”Jakub回忆道。这或许也回答了那个老问题:AI会取代老师吗?答案可能是否定的。AI可以成为一个强大的教学伴侣,帮助老师创造出互动式的“蒙提霍尔问题”演示,但它无法替代老师内心的关怀和信念。一个好老师,即使偶尔记错事实,他的热情和鼓励也足以点亮学生的世界。
AGI到底是什么?我们该如何衡量?
几年前,AGI还是一个听起来很抽象、很遥远的概念。但现在,情况已经大不相同。
Jakub解释说,我们曾经模糊地认为“能自然交谈”、“能解决数学难题”、“能做科学研究”都差不多是同一回事。但随着技术的发展,我们发现这些其实是相当不同的能力。如今的AI,无疑已经能就广泛的话题进行自然对话,也刚刚跨过了那个被讨论已久的里程碑——在国际数学奥林匹克(IMO)竞赛中获得金牌。
然而,这些“单点”的衡量标准正变得越来越不够用。为什么?
- 基准饱和了:在很多标准化测试上,模型已经达到了顶尖人类的水平。当一个模型能在全球顶尖学生参与的竞赛中名列前茅时,用这种方式再来衡量它的进步就变得很困难了。
- 模型可以“偏科”:现在的技术可以训练出一个在数学上表现超群、但在写作上可能平平的模型。它在数学基准上得分很高,但这并不完全代表它的“整体智力”。一个好的“考生”不一定是一个有用的“同事”。
那么,什么才是更有意义的衡量标准?Jakub提出了一个更宏大的视角:AI自动化科学研究和技术发现的能力。
“当我思考AI如何真正深刻地影响世界时,我首先想到的是它自动化发现和生产新技术的潜力……我们习惯于将新思想、基础技术进步与人类的创造力联系在一起。但要真正理解‘一个大型计算机能够提出颠覆我们对世界理解的想法’这件事,其实是相当困难的。而我认为,我们离那一天并不遥远。”
“AI正在放缓”?十年来的惊人飞跃
你可能看到过一些新闻标题,说AI对经济的贡献只有3%,然后评论区就会有人说“AI被过度炒作了”或者“AI的发展撞墙了”。
每当看到这些,Szymon都会回想起十年前的经历。那时他正在研究自然语言处理,但模型的效果可以说是一塌糊涂。
“Jakub来测试我们当时的技术,一个情感分析模型,” Szymon笑着说,“输入‘这部电影很烂’,模型正确识别为负面。输入‘这部电影很好’,正确识别为正面。然后他输入‘这部电影还不赖’(This movie is not bad),模型回答:‘哦,负面。’”
这就是十年前的起点。从那时起,我们经历了GPT-2能写出连贯的段落(当时这感觉像个奇迹!),到GPT-4的出现——Szymon称之为他“个人的AGI时刻”,因为它有时会说出让他都感到惊讶的东西。再到如今,模型可以在编程竞赛中与顶尖人类选手一较高下。
“所以当你看到那个3%的数字时,” Szymon强调,“我告诉你,十年前这个数字可能是0.00001%。从这个角度看,我们没有理由不相信,一年后它会是10%,两年后是20%。”
进步的速度快得惊人。Szymon坦言,当他们第一次在内部看到“推理能力”相关的模型取得突破性进展时——也就是让模型花更多时间去“思考”一个问题,而不是立即给出答案——整个团队都受到了巨大的震撼。
“那是一个令人震惊的时刻。我们开始非常、非常严肃地问自己:作为一个组织,我们为这种令人难以置信的快速进步做好准备了吗?我记得有一个晚上11点,我们和Sam(Altman)、Mira(Murati)还在通话,我们……有时真的会被这些结果吓到。”
下一个突破口在哪里?
AI的进步并非凭空而来。那么,下一波浪潮会从何而来?
- 持续的规模化(Scaling):这是AI发展不变的基石。更大的模型、更多的数据,依然是提升能力的核心驱动力。
- 复合效应:新的技术(比如推理能力)会和规模化产生复合效应,1 > 1 + 1。
- 模型的“持久性”:这是最令人兴奋的方向之一。想象一下,今天的模型用几秒钟回答你的问题。但如果我们愿意花费多出成千上万倍的计算资源,让一个模型持续工作数小时、甚至数天,去攻克一个真正重要的难题,比如一个医学研究课题,或者设计下一代AI模型本身,会发生什么?这将是通往自动化科学研究的必经之路。
Jakub分享了一个有趣的故事。在日本有一场非常著名的长达10小时的编程竞赛(AtCoder),考验的是选手的持久专注和启发式解决问题的能力。Jakub的朋友兼同事Sihun是一位顶尖选手,他曾开玩笑说Jakub擅长的那种短时竞赛会先被AI自动化。结果,在最近一次比赛中,OpenAI的模型和Sihun展开了激烈角逐。最终,Sihun赢得了冠军,而AI模型拿下了第二名。
人类,暂时还领先一步。但Sihun在赛后精疲力尽,而AI模型,可以不知疲倦地继续跑下去。
给年轻人的建议:在这个时代,你该学什么?
面对一个变化如此之快的世界,今天的年轻人应该怎么做?
Jakub和Szymon的建议出奇地一致:去学编程。
“绝对要去学编程,”Szymon斩钉截铁地说,“有一种技能现在是、并且未来将继续是稀缺品,那就是拥有结构化的思维,能将复杂问题拆解成小部分。编程是掌握这种技能的绝佳方式。”
这并不是说你未来一定会成为一个传统意义上的程序员。而是,理解了系统是如何工作的,你才能更好地驾驭它。就像一个优秀的飞行员需要懂空气动力学,一个优秀的“AI使用者”也需要理解其背后的逻辑。
Jakub则分享了自己从一个波兰小城走向硅谷的经历,他鼓励年轻人要敢于打破思维的桎梏,敢于梦想。无论是Paul Graham的《黑客与画家》,还是电影《钢铁侠》,这些看似遥远的东西,都可能成为点燃一个人雄心壮志的火花。
从一间教室里的编程竞赛,到与顶尖人类棋手和程序员的同台竞技,再到那些让开发者自己都心跳加速的深夜突破。AI的故事,远比冰冷的基准数字要精彩和深刻。它关乎的不是机器是否能“通过考试”,而是我们作为人类,将如何利用这股前所未有的力量,去加速探索、创造和理解我们所处的世界。