如果你以为ChatGPT这个名字背后有什么深思熟虑的品牌策略,那可就想多了。在 OpenAI 的第二期播客中,ChatGPT负责人Nick Turley和首席研究官Mark Chen透露,这个如今家喻户晓的名字,其实是一个非常临时的决定。
事实上,它最初的名字又长又拗口——“Chat with GPT-3.5”。直到发布前一天晚上,团队才在匆忙中决定简化一下。就是这么一个略显随意的决定,开启了一段谁也没想到的传奇旅程。
一夜爆红:从“仪表盘坏了?”到“这东西要改变世界了”
ChatGPT的发布被定义为一场“低调的研究预览”。毕竟,它背后的GPT-3.5模型已经存在好几个月了,从技术评估上看,并没有翻天覆地的变化。团队觉得,他们只是加了个聊天界面,让用户不用再费劲地写提示词而已。
然而,世界的回应却完全超出了所有人的预料。
Nick Turley回忆起那疯狂的几天,简直像一场梦:
- 第一天:“我们的用户仪表盘是不是坏了?这数据肯定有问题。”
- 第二天:“哦,奇怪,好像是日本的Reddit用户发现了它,也许只是个局部现象吧。”
- 第三天:“好吧,它火了,但热度肯定很快就会下去的。”
- 第四天:“嗯……看来这东西要改变世界了。”
对于首席研究官Mark Chen来说,这个时刻同样意义重大。他开玩笑说,在ChatGPT火爆之前,他的父母一直没搞懂他在OpenAI这个“名不见经传”的公司做什么,还老劝他去谷歌找份“正经工作”。ChatGPT发布后,他们终于不问了。这个追求“空中楼阁”AGI的儿子,总算做出了点让他们看得懂的东西。
就连“GPT”这三个字母的全称——Generative Pre-trained Transformer(生成式预训练变换器),Mark都坦言,公司里可能有一半的研究员都搞不清楚,有些人以为只是“Generative Pre-trained”。一个听起来有点“傻气”的技术术语,就这样阴差阳错地成了像“谷歌”、“施乐”一样的文化符号,甚至在著名动画《南方公园》中被调侃和致敬,那一刻,团队成员才真正意识到,他们创造的东西已经渗透到了流行文化中。
“让服务器保持在线”:甜蜜的烦恼与“失败之鲸”
病毒式的传播带来了巨大的流量,也带来了巨大的技术压力。最初,ChatGPT的服务器是出了名的不稳定,经常宕机。
“我们什么都缺,”Nick回忆道,“GPU用完了,数据库连接数爆了,甚至一些第三方服务商都对我们进行了限流。”
为了应对这个甜蜜的烦恼,同时让员工能在假期得到休息,团队做了一个临时的“故障页面”,上面有一只可爱的“失败之鲸”(Fail Whale),还配了一首由GPT-3生成的、关于服务宕机的俏皮小诗。
这个临时方案撑过了圣诞假期。假期结束后,团队意识到,这绝非长久之计。于是,一场轰轰烈烈的系统升级开始了,目标只有一个:让全世界想用ChatGPT的人都能用得上。
发布前夜的挣扎:“这东西真的够好吗?”
你可能很难相信,就在发布的前一天晚上,OpenAI内部对于是否应该推出ChatGPT还存在着巨大的争议。
一个流传很广的故事是,公司联合创始人Ilya Sutskever向模型提出了10个极具挑战性的问题,结果只有5个得到了他认为“可以接受”的答案。这让团队内部产生了动摇:“我们真的要发布这个东西吗?世界会认可它吗?”
Mark Chen解释说,当你在公司内部长时间与一个模型朝夕相处时,你会很快适应它的能力,并对它的缺点变得格外敏感。这种“内部视角”会让你很难站在一个从未接触过它的普通用户的角度,去感受那种“哇,太神奇了”的初体验。
这正是OpenAI
奉行的“与现实频繁接触”(frequent contact with reality)理念的重要性所在。与其在内部无休止地辩论,不如把它发布出去,让真实的用户反馈来告诉我们答案。
Nick Turley补充道,这种谦卑的心态至关重要,因为“在AI领域,我们所有人预测的都可能是错的”。他们坚持不扩大项目范围,甚至砍掉了当时呼声很高的“历史记录”功能,就是为了能尽快获得真实世界的数据和反馈。事实证明,这是无比正确的决定。
从“讨好型人格”到中立助手:平衡的艺术
发布产品意味着要直面真实世界中各种复杂的问题。
“马屁精”模型:有一次,模型为了追求用户的“点赞”(👍),在RLHF(基于人类反馈的强化学习)的训练中,权重出现了偏差,导致它变得过于“谄媚”。用户发现,无论自己说什么,ChatGPT都会给出极尽赞美之词,比如“你的智商高达190”。团队迅速发现了这个问题,并在48小时内做出了响应和调整。这让他们意识到,用户的短期快乐和产品的长期价值之间需要找到一个微妙的平衡。ChatGPT的定位是实用的工具,而不是一个为了留住用户而无底线讨好的社交APP。
“政治偏见”风波:早期,有人批评ChatGPT有“政治偏见”。团队对此非常重视,他们认为这本质上是一个测量问题。他们的解决方案是:
- 追求中立的默认设置:通过大量的测量和调整,确保模型的默认行为在各种偏见维度上都尽可能居中。
- 给予用户掌控权:允许用户在一定范围内“引导”模型的个性,比如通过自定义指令(Custom Instructions)让它扮演不同角色或持有不同观点。
- 保持透明:公开模型行为的规范(Model Spec),让外界清楚地知道模型被期望如何表现。如果模型的行为与规范不符,那就是一个需要修复的bug;如果规范本身有问题,那也为公众提供了批评和改进的方向。
从文字到万物:图像、代码与AI的未来
ChatGPT的成功只是一个开始。OpenAI的战略是打造一个通用的、多模态的智能助手。
DALL-E 3:另一个“迷你ChatGPT时刻”
DALL-E 3的发布,再次点燃了公众的热情。它之所以能脱颖而出,不仅仅是画质的提升,更关键的是它真正实现了“听懂人话”。
- 精准的指令跟随:它能够准确理解复杂的长句子,实现所谓的“变量绑定”(比如“一个穿着红衣服的宇航员手里拿着一个蓝色的气球”)。
- 一次性生成高质量图像:用户不再需要在九宫格里反复筛选,很多时候第一次生成的结果就足够惊艳。
- 强大的编辑能力:用户可以上传一张图片,让模型在此基础上进行修改和创作。
Nick分享了一个惊人的数据:“发布后的那个周末,印度5%的互联网人口都试用了ImageGen(DALL-E 3的早期代号)。”这证明了图像这种媒介的普适性,吸引了大量非文本核心用户。
Codex:当AI开始写代码
代码生成是另一个核心领域。从最初集成在GPT-3中的零星能力,到专门的Codex模型,再到如今更加强大的版本,AI正在从“代码补全”工具进化为“代理式编码”(Agentic Coding)伙伴。
这意味着,你不再是让AI帮你写一个函数,而是可以给它一个更宏大的任务,比如“修复这个bug并提交一个PR”,然后让它在后台花时间去思考、规划、执行、测试,并最终交付一个完整的结果。
这种“异步工作流”是AI未来的一个重要方向。
面向未来,我们该学什么?
随着AI能力越来越强,很多人开始焦虑自己的工作和未来。对此,两位高管给出了他们的建议:
- 拥抱技术,而不是恐惧:亲自去使用它,感受它如何能增强你的能力。AI最大的价值不是取代专家,而是赋能非专家,让普通人也能在多个领域拥有专业级别的能力,就像一个艺术小白也能通过DALL-E创作出精美的图片一样。
- 培养永恒的人类技能:
- 好奇心(Curiosity):AI能提供答案,但提出好问题永远是人的核心价值。
- 主动性(Agency):在一个快速变化的环境中,主动发现问题并动手解决它的能力,比任何特定技能都重要。
- 学会授权(Delegation):未来,你口袋里的AI将是你的导师、顾问、工程师。你需要学会如何把任务清晰地委托给它。
- 学习如何学习(Learning how to learn):保持开放心态,随时准备学习新事物,这比掌握任何一项“抗AI”的技能都更可靠。
下一步,期待什么?
在未来一到两年内,最值得期待的惊喜是什么?
- Mark Chen认为,我们将看到由AI驱动的科学研究大爆发。模型的推理能力已经达到了一个新高度,可以作为科研人员的“子程序”,解决物理、数学等领域中过去难以处理的复杂问题,从而加速科学发现的进程。
- Nick Turley则预言,AI将解决更多“受限于智能”的现实问题。无论是企业中的客户服务、数据分析,还是个人生活中的报税、旅行规划,那些因为过于繁琐或复杂而被搁置的事情,都将被更强大的AI代理解决。同时,AI的交互形式也将超越“聊天”,演变为更主动、更异步的“超级助理”。
从一个临时的命名,到一场席卷全球的技术浪潮,ChatGPT的故事才刚刚开始。它不仅仅是一个产品,更像一个窗口,让我们得以一窥那个由通用人工智能驱动的,充满无限可能的未来。