本文来自Andrej Karpathy 在红杉组织的 AI Ascent 2024 上的演讲视频,我用 Claude3 opus 提取了 Karpathy 提到的核心观点。

核心观点

  1. 目前各家公司都在努力构建一个 “LLM OS”,包括获取外围设备(文本、图像、音频等)作为输入,用LLM作为CPU,并连接到现有的软件基础设施上。未来可能会出现一些默认应用(如 Windows 系统自带的 Edge 浏览器),但也会有一个生机勃勃的生态系统。

  2. 目前 LLM 生态系统包括完全开源的模型(如Pythia、LLaMA等)、只开放权重的模型和专有模型。未来可能会类似于操作系统生态(如 Windows系统、Mac系统、Linux操作系统,而Linux 有无数的分发版本)。

  3. 规模化训练这些模型非常困难,是一个非常复杂的分布式优化问题。实际上,目前这方面的人才相当稀缺。

  4. 模型规模是最重要的,但还需要很多其他细节,如数据集准备、算法优化等。单纯给钱和算力还训练不出 SOTA(“State of the Art"的缩写,意为"最先进"或"最高水平)模型,还需要很多专业知识。

  5. 扩散模型和自回归语言模型是概率建模的两种形式,可能存在将二者统一的空间。目前模型能效还比人脑低几个数量级,未来可能的改进方向包括针对性的计算架构、低精度训练、稀疏性等。

  6. 马斯克管理公司的特点包括保持团队小而精干、办公室氛围紧张忙碌、鼓励无用会议早退、与基层工程师直接沟通、果断消除瓶颈等。

  7. Karpathy 更关心 AI 生态系统的健康发展,而非某家公司。他希望生态像珊瑚礁一样丰富多彩,对巨头垄断持谨慎态度。

字幕详情

1
00:00:03,190 --> 00:00:06,535
我很高兴介绍我们的下一个也是最后一个演讲者, Andrej Karpathy.

2
00:00:06,894 --> 00:00:08,737
Karpathy可能不需要介绍.

3
00:00:08,797 --> 00:00:11,941
我们大多数人可能在YouTube上长时间观看过他的视频.

4
00:00:12,901 --> 00:00:17,588
他以深度学习研究闻名.

5
00:00:17,667 --> 00:00:22,452
他设计了斯坦福大学的第一个深度学习课程, 是OpenAI创始团队的一员.

6
00:00:23,454 --> 00:00:28,795
领导了特斯拉的计算机视觉团队, 现在又成为一个神秘人物, 因为他刚刚离开了OpenAI.

7
00:00:28,835 --> 00:00:30,175
我们非常幸运能在这里见到你.

8
00:00:30,195 --> 00:00:35,216
我认为, Andre, 你是一个梦幻般的演讲者, 所以我们很高兴让你和Stephanie结束今天的演讲.

9
00:00:35,796 --> 00:00:36,197
谢谢.

10
00:00:42,317 --> 00:00:45,878
当我们走到这里时, Andre的第一反应是,哦,天啊,看到他的照片.

11
00:00:46,914 --> 00:00:47,993
这是一张令人望而生畏的照片.

12
00:00:48,054 --> 00:00:50,075
我不知道照片是什么时候拍的, 但他给我留下了深刻印象.

13
00:00:51,695 --> 00:00:52,536
好的, 太棒了.

14
00:00:53,036 --> 00:00:56,317
Andre, 非常感谢您今天参加我们的活动,欢迎回来.

15
00:00:57,018 --> 00:00:58,618
是的, 谢谢.

16
00:00:59,639 --> 00:01:02,020
大部分人实际上不知道的一个有趣的事.

17
00:01:02,439 --> 00:01:06,221
这里有多少人知道OpenAI的原始办公室在哪里? 

18
00:01:10,763 --> 00:01:10,983
就在这里,在我们旧金山办公室对面, 你们中的许多人刚刚在小组中讨论.

19
00:01:20,617 --> 00:01:28,742
对我们来说,这很有趣,因为它让我们回到了最初的根源,当时我开始Sequoia,而Andre开始共同创立OpenAI时.

20
00:01:29,182 --> 00:01:37,126
除了在巧克力工厂顶楼办公的梦想实现之外,Andre在这里工作的一些最喜欢的时刻是什么?

21
00:01:37,698 --> 00:01:38,718
是的,所以OpenAI就在那边.

22
00:01:39,700 --> 00:01:44,161
这是第一个办公室,在Greg的公寓后面.

23
00:01:45,061 --> 00:01:46,662
是的,我们在这里待了大约两年.

24
00:01:47,001 --> 00:01:49,843
巧克力工厂就在楼下,所以总是闻得到很好的味道.

25
00:01:50,843 --> 00:01:53,844
是的,我想团队有10-20多人.

26
00:01:57,137 --> 00:01:58,858
是的,我们在这里有过几段非常有趣的经历.

27
00:01:59,039 --> 00:02:05,304
其中一部分是GTC的Jensen在昨天或前天提到的.

28
00:02:05,884 --> 00:02:10,608
所以Jensen描述了他如何带来第一个DGX并将其交付给OpenAI.

29
00:02:10,888 --> 00:02:11,808
就是发生在那里。

30
00:02:12,368 --> 00:02:13,229
那里就是我们都签名的地方。

31
00:02:13,389 --> 00:02:14,191
它在那边的房间里。

32
00:02:15,602 --> 00:02:20,085
Andre不需要介绍,但我想稍微介绍一下他迄今为止的一些经历背景。

33
00:02:20,985 --> 00:02:25,206
正如索尼娅所介绍的,他接受了杰夫·辛顿和飞飞的培养。

34
00:02:26,707 --> 00:02:29,049
他在斯坦福开设了深度学习课程,声名鹊起。

35
00:02:29,889 --> 00:02:32,311
2015年,他共同创立了OpenAI。

36
00:02:32,531 --> 00:02:34,651
2017年,他被埃隆挖走。

37
00:02:35,051 --> 00:02:36,673
我非常清楚地记得这一点。

38
00:02:37,074 --> 00:02:43,356
对于当时不记得背景的人来说,埃隆刚刚经历了六位不同的自动驾驶领导者。

39
00:02:43,776 --> 00:02:45,557
每位领导者都在任职六个月。

40
00:02:46,078 --> 00:02:52,382
我记得Andre接受这份工作时,我想,祝贺你,祝你好运。

41
00:02:53,122 --> 00:02:58,526
不久之后,他回到了OpenAI,并且在过去的一年里一直在那里。

42
00:02:59,105 --> 00:03:07,510
现在,和我们今天所有其他人不同,他正在沐浴在永恒自由和责任的终极荣耀之中。

43
00:03:08,371 --> 00:03:11,193
所以我们非常期待看到你今天要分享的内容。

44
00:03:11,733 --> 00:03:17,014
我最欣赏Andre的几点是,他是一个令人难以置信、引人入胜的未来主义思想家。

45
00:03:17,995 --> 00:03:22,056
他是一个不知疲倦的乐观主义者,而且他是一个非常实际的建设者。

46
00:03:22,195 --> 00:03:24,516
所以我认为今天他会分享一些他的见解。

47
00:03:25,296 --> 00:03:34,099
即便是七年前,AGI似乎是一个令人难以置信的不可能实现的任务,甚至在我们一生中也难以实现。

48
00:03:34,939 --> 00:03:36,001
现在它似乎近在眼前。

49
00:03:36,980 --> 00:03:39,641
你对未来N年有什么看法?

50
00:03:42,449 --> 00:03:43,230
是的,我想你说得对。

51
00:03:43,290 --> 00:03:50,534
我想几年前,我有点觉得AGI,不清楚将如何实现。

52
00:03:50,594 --> 00:03:53,317
非常学术化,你会考虑不同的方法。

53
00:03:53,356 --> 00:03:56,598
现在我认为很清楚了,有很多空间,每个人都在努力填补这个空间。

54
00:03:56,899 --> 00:03:59,300
所以有很多优化。

55
00:04:01,461 --> 00:04:08,866
我认为,大概而言,事情发展的方式是每个人都在努力构建我所说的这种LLM操作系统。

56
00:04:11,008 --> 00:04:13,790
基本上,我喜欢把它看作是一个操作系统。

57
00:04:13,811 --> 00:04:18,274
你必须获得一堆插入这个新CPU或其他东西的外围设备。

58
00:04:18,456 --> 00:04:29,846
外围设备当然包括文本、图像、音频和所有模态,然后你有一个CPU,即 LLM Transformer 本身,然后它也连接到我们已经为自己建立起来的所有软件1.0基础设施。

59
00:04:30,427 --> 00:04:47,370
我觉得每个人都在尝试构建这样的东西,然后让它变成可定制的,适用于经济领域的各个角落。

60
00:04:41,286 --> 00:04:47,370
我觉得大家大致都在努力构建这样的东西,我们今天早些时候也听过类似的。

61
00:04:48,372 --> 00:05:00,322
所以我觉得它大致的发展方向是,我们可以提升和降低这些相对独立的代理,给它们高层次的任务,并以各种方式进行专业化。

62
00:05:00,482 --> 00:05:02,663
是的,我觉得这将是非常有趣和令人兴奋的。

63
00:05:04,245 --> 00:05:04,887
不只是一个代理,而是许多代理。

64
00:05:04,966 --> 00:05:05,908
那会是什么样子?

65
00:05:06,747 --> 00:05:14,057
如果对未来的看法成立,我们应该如何改变我们的生活方式?我不知道。

66
00:05:15,858 --> 00:05:22,065
我想我们必须努力构建它,影响它,确保它良好,并努力确保它有好结果。

67
00:05:23,297 --> 00:05:32,519
现在你是一个自由独立的人,我想谈谈一直悬而未决的问题,那就是OpenAI正主宰着生态系统。

68
00:05:33,079 --> 00:05:40,642
今天我们的大部分观众是创始人,他们试图开辟一个小的领域,祈祷OpenAI不会一夜之间将他们淘汰。

69
00:05:41,382 --> 00:05:51,927
你认为其他玩家在哪些领域有机会建立新的独立公司,而OpenAI在哪些领域将继续主导,即使其雄心不断增长?

70
00:05:53,559 --> 00:05:57,240
是的,我对OpenAI基本上的高层次的印象是,OpenAI正在努力构建这个LLM OS。

71
00:05:57,560 --> 00:06:06,004
我认为,正如我们今天早些时候听到的,它正试图在这个平台上开发不同行业不同公司的位置。

72
00:06:06,384 --> 00:06:12,048
现在,我认为OS的类比也非常有趣,因为当你看一些像Windows这样的东西,这些也是操作系统。

73
00:06:12,247 --> 00:06:16,711
它们带有一些默认应用,就像浏览器与Windows捆绑一样,对吧?你可以使用Edge浏览器。

74
00:06:17,630 --> 00:06:21,814
我认为同样地,OpenAI或其他任何公司可能会推出一些默认应用。但这并不意味着你不能在上面运行不同的浏览器,就像你可以在该基础架构上运行不同的聊天代理一样。

75
00:06:29,199 --> 00:06:36,644
因此,将会有一些默认应用,但也可能会有一个生机勃勃的生态系统,各种应用程序都 fine-tuned 到经济的各个角落。

76
00:06:37,043 --> 00:06:41,507
我真的很喜欢早期iPhone应用的类比以及它们的外观。

77
00:06:41,528 --> 00:06:44,949
它们都有点像笑话。这需要时间来发展。

78
00:06:44,990 --> 00:06:47,971
我绝对赞同,我们现在正在经历同样的事情。

79
00:06:48,211 --> 00:06:52,595
人们试图弄清楚,这东西擅长什么?不擅长什么?我该如何操作?

80
00:06:52,634 --> 00:06:53,475
我该如何用它编程?

81
00:06:53,495 --> 00:06:54,255
我该如何调试它?

82
00:06:54,276 --> 00:06:59,119
我到底如何让它执行真正的任务?

83
00:06:59,298 --> 00:07:00,560
这需要怎样的监督?

84
00:07:00,720 --> 00:07:03,701
因为它相当自治,但不是完全自治。监督看起来是什么样的?

85
00:07:03,721 --> 00:07:04,682
评估是什么样的?

86
00:07:04,862 --> 00:07:08,384
所以有许多事情要考虑,只是为了了解其心理机制。

87
00:07:08,964 --> 00:07:12,728
我认为这将需要一些时间来确切地搞清楚如何使用这个基础设施。

88
00:07:16,689 --> 00:07:28,076
所以现在 LLMs、OpenAI、Anthropic、Mistral、Llama、Gemini、以及整个开源模型生态系统的竞赛正在进行。

89
00:07:28,716 --> 00:07:31,319
你如何预见生态系统的未来发展?

90
00:07:32,536 --> 00:07:43,211
是的,再次,我认为操作系统的类比很有趣,因为我们拥有一些专有系统的寡头垄断,比如 Windows、macOS 等,而且我们也有 Linux。Linux 有无数的分发版本。所以我想也许会是这个样子。

91
00:07:43,911 --> 00:07:55,723
我还认为我们在命名时必须小心,因为你列举的很多,比如 Llama、Mistral 等,我实际上不认为它们是开源的,对吧?

92
00:07:55,824 --> 00:08:06,250
所以这有点像为操作系统抛硬币。你可以使用它,而且它很有用,但它并不完全有用,对吧?

93
00:08:08,773 --> 00:08:27,319
我会说有一些完全开源的 LLMs。所以有 Pythia 模型、LLM360、Ulmo 等。他们完全发布了编译操作系统所需的全部基础设施,训练模型的数据,收集数据等。

94
00:08:28,240 --> 00:08:33,380
所以当你只给一个二进制文件时,当然会更好,因为你可以微调模型,这是有用的。

95
00:08:33,782 --> 00:08:41,744
但我也认为微妙之处在于,你不能完全微调模型,因为你微调模型越多,它在其他方面就会开始退化。

96
00:08:42,543 --> 00:08:49,485
所以实际上你真正想做的,例如,如果你想增加功能而不使其他功能退化,可能需要在某种程度上对先前数据集分布和新数据集分布进行训练。因为你不想使旧的分布退化,你只想增加知识。

97
00:08:51,466 --> 00:08:54,847
如果你只给出权重,实际上你做不到这一点。你需要训练,你需要数据集等。

98
00:08:55,008 --> 00:08:57,288
所以你实际上受到如何与这些模型合作的限制。

99
00:09:12,155 --> 00:09:16,999
所以有开放权重模型,开源模型,然后专有模型,我想。

100
00:09:17,058 --> 00:09:18,198
这可能就是生态系统。

101
00:09:20,475 --> 00:09:24,138
是的,可能看起来会非常类似于我们今天拥有的那些。

102
00:09:24,758 --> 00:09:26,798
希望您继续帮助构建其中的一些。

103
00:09:28,200 --> 00:09:30,620
我想讨论另一个大问题,即规模。

104
00:09:31,381 --> 00:09:33,682
简单地说,规模似乎是唯一重要的。

105
00:09:33,863 --> 00:09:40,105
数据规模,计算规模,因此今天大型研究实验室,大型科技巨头具有巨大优势。

106
00:09:41,267 --> 00:09:42,226
您对此有什么看法?

107
00:09:42,586 --> 00:09:44,307
那就是唯一重要的吗?

108
00:09:44,388 --> 00:09:45,729
如果不是,还有什么其他重要因素?

109
00:09:47,898 --> 00:09:49,399
所以我会说规模绝对是第一位的。

110
00:09:51,580 --> 00:09:53,061
我认为那里有一些细节需要做对。

111
00:09:53,400 --> 00:10:00,063
我认为还有许多工作需要投入到数据集准备等方面,使其非常好和干净等等。这非常重要。

112
00:10:00,104 --> 00:10:00,724
这些都是您可以获得的计算效率增益。

113
00:10:01,144 --> 00:10:04,065
有数据,算法,当然还有模型的训练,使其真正庞大。

114
00:10:04,164 --> 00:10:06,105
所以有数据,算法,然后当然,训练模型,使其真正庞大。

115
00:10:14,332 --> 00:10:18,976
但有许多其他需要做对的事情。

116
00:10:19,197 --> 00:10:22,240
所以几乎可以说,规模几乎设定了某种速度限制。

117
00:10:23,201 --> 00:10:30,167
但你需要一些其他事情,但如果你没有规模,那么你基本上就无法训练一些庞大的模型了,如果你要训练模型。

118
00:10:31,067 --> 00:10:39,274
如果你只是要进行微调等,那么我认为可能不需要太大的规模,但我们还没有完全看到它充分发挥作用。

119
00:10:39,714 --> 00:10:44,758
您能分享更多您认为也很重要的一些因素,也许在规模之后的优先级较低的因素吗?

120
00:10:47,039 --> 00:10:49,601
是的,我认为第一件事就像,你不能只是训练这些模型。

121
00:10:50,697 --> 00:10:51,738
如果你只是给了钱和规模,事实上要构建这些模型还是非常困难的。

122
00:10:55,961 --> 00:10:59,923
部分原因是基础设施仍然很新,仍在发展中,还没有完全成熟。

123
00:10:59,984 --> 00:11:05,869
但规模化训练这些模型非常困难,是一个非常复杂的分布式优化问题。

124
00:11:06,168 --> 00:11:09,010
实际上,目前这方面的人才相当稀缺。

125
00:11:09,691 --> 00:11:14,815
它基本上变成了在成千上万的 GPU 上运行的疯狂东西。

126
00:11:15,096 --> 00:11:17,456
所有这些 GPU 都在不同的时间点随机失败。

127
00:11:17,476 --> 00:11:19,158
所以就在对其进行仪器化并使其正常工作。

128
00:11:19,698 --> 00:11:21,399
这实际上是一个极其困难的挑战。

129
00:11:22,201 --> 00:11:27,024
直到最近,GPU 并不是为 10,000 GPU 工作负载设计的。

130
00:11:27,424 --> 00:11:31,869
因此我认为很多基础设施在这种压力下有些吃力。

131
00:11:32,528 --> 00:11:34,029
我们需要克服这一点。

132
00:11:34,049 --> 00:11:41,096
但是现在,如果你只是给某人大量的金钱或大量的规模或 GPU,我觉得他们不可能就能产生出这些模型之一,这就是为什么不仅仅是规模问题。

133
00:11:42,558 --> 00:11:50,397
你实际上需要大量的专业知识,无论是在基础设施方面、算法方面,还是数据方面,都需要小心处理。

134
00:11:50,437 --> 00:11:51,639
所以我认为这些是主要的组成部分。

135
00:11:53,018 --> 00:11:54,697
生态系统发展速度如此之快。

136
00:11:55,558 --> 00:11:59,859
甚至我们一年前认为存在的一些挑战如今正在越来越多地得到解决。

137
00:12:00,720 --> 00:12:06,240
幻觉、上下文窗口、多模式能力、推理变得更好、更快、更便宜。

138
00:12:08,160 --> 00:12:12,581
当前大语言模型研究中存在哪些挑战,足以让你夜思夜想?

139
00:12:12,841 --> 00:12:17,923
你认为哪些问题既迫切又有解决方案,我们可以持续追寻解决之道?

140
00:12:20,062 --> 00:12:27,647
在算法方面,我正在思考的一件事是扩散模型和自回归模型之间的明显分歧。

141
00:12:27,807 --> 00:12:29,849
它们都是表示概率分布的方式。

142
00:12:30,229 --> 00:12:34,370
事实证明,不同的形式显然是两者中的一种很好的选择。

143
00:12:34,851 --> 00:12:38,994
我认为可能有一些空间将它们统一起来或以某种方式将它们连接起来。

144
00:12:42,335 --> 00:12:47,740
同时,获得两全其美或找出如何获得混合体系结构等等。

145
00:12:48,059 --> 00:12:56,386
对我来说,我们在模型空间中有两个独立点,它们都非常出色,让我觉得很奇怪的是中间没有任何东西。

146
00:12:57,087 --> 00:12:59,990
因此,我认为我们将看到这种确定,并且我认为那里有有趣的问题。

147
00:13:00,870 --> 00:13:02,893
还有另一件事也许我会提到的是

148
00:13:04,332 --> 00:13:10,777
在运行所有这些东西的能效上仍存在巨大差距。

149
00:13:10,956 --> 00:13:12,758
我的大脑大约是 20 瓦。

150
00:13:13,379 --> 00:13:17,802
Jensen 刚在 GTC 上谈到他们现在将要建造的庞大超级计算机。数字是以兆瓦为单位。

151
00:13:22,043 --> 00:13:23,684
也许你不需要所有这些来运行一个大脑。

152
00:13:23,725 --> 00:13:31,710
我不知道你确切需要多少,但我认为可以说,在运行这些模型的效率方面,我们可能相差了 1,000 到一百万的数量级,大约在那个范围内。

153
00:13:33,331 --> 00:13:37,854
我认为部分原因可能是因为我们设计的计算机并不适合处理这种工作负载。

154
00:13:39,054 --> 00:13:46,960
我认为在这方面,NVIDIA 的 GPU 是朝着需要极高的并行性前进的一个好。

155
00:13:47,000 --> 00:13:50,542
我们实际上并不关心某种方式上是数据相关的顺序计算。

156
00:13:50,883 --> 00:13:59,128
我们只需要将相同算法快速应用到许多不同的数组元素或其他东西上。你可以这样考虑。

157
00:13:59,748 --> 00:14:04,892
所以我想说,第一点就是将计算机架构调整到新的数据工作流。

158
00:14:05,293 --> 00:14:08,615
第二点是在一些我们目前看到改进的事物上下功夫。

159
00:14:08,654 --> 00:14:10,437
所以第一点可能是精度。

160
00:14:10,596 --> 00:14:14,860
我们看到精度已经从最初的双精度 64 位降低到现在不知道是多少,可能是 4、5、6,或者甚至是 1.58,取决于你读了哪些论文。

161
00:14:15,159 --> 00:14:20,384
所以我认为精度是控制这一切的一个重要杠杆。

162
00:14:21,004 --> 00:14:25,087
当然,第二个也是稀疏性。

163
00:14:27,389 --> 00:14:29,350
所以这也是另一个很大的差异,我想说。

164
00:14:29,390 --> 00:14:31,072
就像你的大脑并不总是完全激活一样。

165
00:14:31,493 --> 00:14:33,494
所以稀疏性,我认为,也是另一个很大的杠杆。

166
00:14:33,793 --> 00:14:42,500
但我觉得,最后一个杠杆,我也觉得就像冯·诺伊曼计算机的架构,以及它们是如何构建的,你需要不断地在内存和执行所有计算的核心之间传输数据,这一切也都是有问题的。

167
00:14:42,940 --> 00:14:46,283
这也都是不符合你的大脑工作方式的。这就是为什么它如此高效。

168
00:14:46,663 --> 00:14:49,184
所以我认为计算机架构应该是一个非常兴奋的时刻。

169
00:14:49,504 --> 00:15:02,072
我不是计算机架构师,但我认为,似乎我们相差了一百万、一千万的数量级什么的。而且应该有真正令人激动的创新可以将其降下来。

170
00:15:02,773 --> 00:15:05,453
我想听众中至少有几位正在解决这个问题的构建者。

171
00:15:06,653 --> 00:15:16,298
好,稍微换个话题,你曾与我们这个时代许多伟大人物一起工作,Sam,Greg 来自 OpenAI,OpenAI 团队的其他人员,还有 Elon Musk。

172
00:15:17,139 --> 00:15:22,581
这里有谁知道关于划船队这个笑话,美国队与日本队的那个吗?

173
00:15:25,293 --> 00:15:26,455
好的,很棒。那么这会是一个很有趣的故事。

174
00:15:27,176 --> 00:15:28,717
Elon 在 LRS Basecamp 分享过这个。

175
00:15:29,038 --> 00:15:33,101
我认为这反映了他在构建文化和团队方面的许多理念。

176
00:15:33,743 --> 00:15:34,504
你知道,有两个团队。

177
00:15:35,024 --> 00:15:37,826
日本队有四名划手和一名舵手。

178
00:15:38,408 --> 00:15:42,171
美国队有四名舵手和一名划手。

179
00:15:43,072 --> 00:15:52,990
那么,有人能猜到,当美国队输掉比赛时,他们会做什么吗?他们解雇划手。

180
00:15:53,750 --> 00:16:02,033
埃隆分享了这个例子,我认为这是他思考如何招聘合适的人,建立合适的人,以正确的比例构建合适的团队的一个反映。

181
00:16:03,714 --> 00:16:08,015
与这些不可思议的领导者紧密合作,你学到了什么?

182
00:16:10,447 --> 00:16:14,269
对,我会说埃隆以极其独特的方式经营他的公司。

183
00:16:14,389 --> 00:16:19,929
我实际上并不认为人们欣赏到了这种独特性。你有点读到一些东西,你不理解,我觉得。

184
00:16:21,190 --> 00:16:30,972
很难描述,我甚至不知道从哪里开始,但这是一件非常独特、不同的事情。

185
00:16:25,130 --> 00:16:30,972
我喜欢说他运行着最大的初创公司,我认为只是...

186
00:16:32,893 --> 00:16:35,254
我甚至基本上不知道如何描述它。几乎感觉就像是一个更长的事情,我需要仔细考虑。

187
00:16:37,955 --> 00:16:43,977
好吧,首先就像,他喜欢非常小、强大、高度技术的团队。

188
00:16:44,739 --> 00:16:51,761
那就是第一点。在公司中,默认情况下,团队会壮大并变得庞大。埃隆一直是反对增长的力量。

189
00:16:54,102 --> 00:16:59,426
我必须努力去雇人。我基本上得恳求来雇人。

190
00:17:00,447 --> 00:17:09,439
然后另一件事是,大公司通常想要,要摆脱表现不佳的员工是非常困难的。我想埃隆对默认情况下摆脱表现不佳的人很友好。

191
00:17:09,479 --> 00:17:16,428
所以我实际上不得不为保住人而与之争论,因为他通常想要淘汰人。这就是一件事。

192
00:17:16,468 --> 00:17:18,509
因此,保持一个小而强大、高度技术的团队。

193
00:17:19,288 --> 00:17:20,108
没有中层管理。那肯定是非技术性的。

194
00:17:20,250 --> 00:17:22,410
那是一定是非技术性的。

195
00:17:23,430 --> 00:17:24,191
所以这是第一条。

196
00:17:24,391 --> 00:17:31,073
第二条有点像一切运转的氛围以及当他走进办公室时的感觉。他希望这里是一个充满活力的地方。

197
00:17:32,333 --> 00:17:32,873
走来走去。

198
00:17:32,893 --> 00:17:35,753
他们在四处走动。他们正在做令人兴奋的事。

199
00:17:36,074 --> 00:17:36,874
他们正在制定计划。

200
00:17:36,894 --> 00:17:37,433
他们在编码。

201
00:17:38,134 --> 00:17:41,454
他不喜欢停滞不前。他不希望事情看起来那样。

202
00:17:41,694 --> 00:17:46,395
他不喜欢大型会议。他总是鼓励人们在会议无用时离开。

203
00:17:47,057 --> 00:17:48,176
所以实际上,确实要看到这一点。

204
00:17:49,277 --> 00:17:54,377
这是一个大会议。如果你没有贡献,也没有学到东西,就走吧。并且这是完全被鼓励的。

205
00:17:54,778 --> 00:17:56,598
我认为这是一种通常不会看到的东西。

206
00:17:57,179 --> 00:18:01,819
所以我认为氛围就像第二个重要杠杆,他在文化上真正灌输的东西。

207
00:18:02,400 --> 00:18:06,121
也许部分原因是,我觉得很多大公司都喜欢宠爱员工。

208
00:18:06,520 --> 00:18:08,060
我觉得这种情况大大减少了。

209
00:18:08,141 --> 00:18:15,002
文化是,你在这里是为了做最好的技术工作,有着密集度等等。

210
00:18:15,782 --> 00:18:22,588
而且我认为也许最后一个非常独特、非常有趣、非常奇怪的是他与团队有多紧密联系。

211
00:18:23,229 --> 00:18:33,397
通常一个公司的CEO像是一个遥远的人,上面有五层,与VPs交谈,VPs与主管交谈,最终你与你的经理交谈。

212
00:18:35,058 --> 00:18:38,082
他经营公司的方式并非如此,对吧?他会来到办公室,和工程师交谈。

213
00:18:41,263 --> 00:18:49,246
我们有许多会议都是,好吧,50个人和埃隆在一起,他直接与工程师交谈,他不只是想和VPs和主管交谈。

214
00:18:50,066 --> 00:18:57,867
所以我知道,通常人们可能会花99%的时间与VPs交谈,他可能会花50%的时间,他只想和工程师交谈。

215
00:18:58,307 --> 00:19:09,770
因此,如果团队小而强大,那么工程师和代码就是真理的源泉,因此他们拥有真理的源泉,而不是某个经理,他想与他们交谈以了解事情的实际状态和应该怎么改进。

216
00:19:10,070 --> 00:19:11,173
我们该怎么做才能让它变得更好?

217
00:19:12,034 --> 00:19:16,299
所以我会说,他与团队的联系程度并不是什么遥远的东西,这也是独特的。

218
00:19:17,000 --> 00:19:21,887
而且他的大锤以及他在组织中行使它的意愿也同样独特。

219
00:19:22,388 --> 00:19:30,156
也许如果他和工程师们交谈,他们提出了,是什么在阻碍你?好的,我没有足够的GPU来运行我的东西。

220
00:19:29,096 --> 00:19:33,659
他就会说,哦,好的。如果他听到这种情况两次,他会说,好的,这是个问题。

221
00:19:34,079 --> 00:19:40,763
那我们的时间表是什么?当你没有满意的答案时,他会说,好的,我想和负责GPU集群的人谈谈。

222
00:19:41,263 --> 00:19:45,207
有人拨通电话,他就会说,好的,立刻将集群加倍。

223
00:19:47,448 --> 00:19:52,828
我们明天开个会。从现在开始,直到集群扩大一倍,每天给我发更新。

224
00:19:53,269 --> 00:19:57,431
然后他们有些抵触,他们说,好的,我们已经有了采购计划。我们有这个时间表。

225
00:19:57,471 --> 00:20:01,913
英伟达说我们没有足够的GPU,可能需要六个月或者别的什么。

226
00:20:02,292 --> 00:20:03,712
然后你会看到他挑挑眉毛。

227
00:20:04,113 --> 00:20:05,534
然后他会说,好的,我想和Jensen谈谈。

228
00:20:06,034 --> 00:20:07,855
然后他就开始消除瓶颈。

229
00:20:08,134 --> 00:20:14,497
我认为他的极度参与、消除瓶颈并运用他的权威也没有得到足够的重视。

230
00:20:15,076 --> 00:20:39,766
所以我觉得,是的,也许这就是一个冗长的抱怨。

231
00:20:40,346 --> 00:20:43,347
希望大多数人都能采用的策略。

232
00:20:44,689 --> 00:20:47,871
退一步说,你帮助建立了一些具有时代特色的公司。

233
00:20:48,391 --> 00:20:54,454
你也是许多人的关键推动者,其中今天的听众中有很多人进入了AI领域。

234
00:20:55,454 --> 00:21:00,057
认识你,你最关心的是使AI的获取变得更加民主。

235
00:21:00,497 --> 00:21:05,818
教育、工具、帮助在整个生态系统中创造更多的平等。

236
00:21:05,878 --> 00:21:07,259
总的来说,有更多的赢家。

237
00:21:08,759 --> 00:21:12,121
当你考虑你生活中的下一个篇章时,什么给你最大的意义?

238
00:21:13,997 --> 00:21:17,220
是的,我觉得你描述得很对。

239
00:21:17,519 --> 00:21:25,826
我的大脑默认会想到我曾为几家公司工作过,但最终我关心的并不是任何特定的公司。

240
00:21:25,886 --> 00:21:27,107
我更在乎生态系统。

241
00:21:27,228 --> 00:21:28,489
我希望生态系统健康。

242
00:21:29,009 --> 00:21:29,809
我希望它蓬勃发展。

243
00:21:30,029 --> 00:21:34,473
我希望它像一个珊瑚礁,有很多酷、令人兴奋的初创企业,经济的方方面面。

244
00:21:35,054 --> 00:21:38,696
我希望整个事物就像一锅充满酷东西的沸腾汤。

245
00:21:38,896 --> 00:21:41,419
真诚地说,andrew梦想着珊瑚礁。

246
00:21:43,205 --> 00:21:44,366
我希望它像一个酷的地方。

247
00:21:44,467 --> 00:21:47,948
我认为这就是为什么我热爱初创企业和公司的原因。

248
00:21:48,048 --> 00:21:50,689
我希望有一个充满活力的生态系统。

249
00:21:50,829 --> 00:22:04,135
我默认会对五大巨头接管有些犹豫,尤其是人工智能通用智能作为权力放大器。

250
00:22:08,698 --> 00:22:10,439
我有些担心它可能会变成什么样子等等。所以我必须更深入地考虑这一点。

251
00:22:12,522 --> 00:22:14,765
我热爱这个生态系统,我希望它健康和充满活力。

252
00:22:16,006 --> 00:22:16,425
太棒了。

253
00:22:17,125 --> 00:22:18,688
我们希望观众提问。

254
00:22:20,148 --> 00:22:20,888
是的,布莱恩。

255
00:22:21,509 --> 00:22:23,310
嗨,我是布莱恩·哈利根。

256
00:22:24,231 --> 00:22:33,417
你会建议创始人们遵循埃隆的管理方法,还是他独特的,不应尝试模仿他?

257
00:22:34,999 --> 00:22:36,000
是的,我认为这是个好问题。

258
00:22:39,772 --> 00:22:41,513
我认为这取决于创始人的基因。

259
00:22:41,693 --> 00:22:44,836
你必须拥有相同的基因和某种氛围。

260
00:22:45,115 --> 00:22:51,598
我认为当你雇佣团队时,非常重要的一点是事先明确表明这是你要创建的公司类型。

261
00:22:51,960 --> 00:22:56,102
当人们加入时,他们非常乐意配合,实际上。

262
00:22:56,481 --> 00:22:59,983
但是如果你后来改变了,我认为人们会对此不满,这就很混乱。

263
00:23:00,804 --> 00:23:03,786
所以只要你从一开始就这么做,并且保持一致,我认为你可以经营这样的公司。

264
00:23:09,582 --> 00:23:12,224
但它也有其优缺点。

265
00:23:12,726 --> 00:23:22,116
我认为,所以取决于人们,但我认为这是一种一致的公司建设和经营模式。

266
00:23:23,838 --> 00:23:24,839
是的,亚历克斯。

267
00:23:26,811 --> 00:23:27,512
 你好。

268
00:23:28,153 --> 00:23:35,303
 我很好奇,除了专家混合之外,您是否对任何类型的模型组合性感到非常兴奋。

269
00:23:35,823 --> 00:23:42,811
 我不确定您对模型合并,Frankenmerges或任何其他可使模型开发更具组合性的事物有何看法。

270
00:23:44,001 --> 00:23:44,741
 是的,这是一个很好的问题。

271
00:23:46,723 --> 00:23:50,185
 我在这个领域看到了论文,但我不确定是否有任何方法确实被采纳。

272
00:23:50,246 --> 00:23:56,970
也许组合性,我不确切知道您指的是什么,但有大量关于参数高效训练等方面的工作。

273
00:23:56,990 --> 00:23:59,991
我不知道您是否会把这归类为我理解的组合性类别。

274
00:24:02,454 --> 00:24:04,676
只有传统代码非常具有组合性。

275
00:24:05,037 --> 00:24:09,759
我会说神经网络默认情况下更多是全连接的,不太具有组合性。

276
00:24:10,299 --> 00:24:13,201
但它们确实可以组合并可以作为整体的一部分进行微调。

277
00:24:13,281 --> 00:24:23,528
举个例子,如果您正在进行一个系统,希望拥有ChatGPT和仅图片之类的东西,那么您可以预先训练组件,然后将它们插入并通过整个流程进行微调,作为一个例子。

278
00:24:23,849 --> 00:24:28,732
因此,在您可以在外部预先训练大脑的小部分并稍后组合它们的方面存在组合性。

279
00:24:29,272 --> 00:24:31,194
还可以通过初始化和微调。

280
00:24:31,234 --> 00:24:38,041
因此,我认为在某种程度上,是的,也许这些就是我对此的零零散散的想法,但除此之外,我不知道自己是否有任何非常连贯的想法。

281
00:24:40,804 --> 00:24:41,265
是的,尼克。

282
00:24:42,157 --> 00:24:45,101
 所以,您知道,我们有这些下一个字预测的东西。

283
00:24:45,800 --> 00:24:56,089
您认为是否有一条路径可以构建一种具有物理学心理模型的物理学家或冯·诺伊曼型模型,它是自洽的并且能够为您如何真正进行聚变提供新思路?

284
00:24:56,470 --> 00:24:59,573
如果超光速旅行是可能的话,您如何实现更快的速度呢?

285
00:25:00,153 --> 00:25:05,718
是否存在任何路径朝着这个方向,还是这些人工智能模型发展在本质上不同?

286
00:25:06,532 --> 00:25:08,874
 我想它在一个方面根本上是不同的。

287
00:25:08,913 --> 00:25:13,155
我想您可能谈论的是一个能力问题,因为不同的模型只是不够好。

288
00:25:13,655 --> 00:25:21,098
我认为这里有一些大问题需要解决,而且我认为人们仍然没有真正看到这个领域可能发生的事情。

289
00:25:21,679 --> 00:25:24,601
大致而言,我认为我们已经完成了AlphaGo的第一步。

290
00:25:25,461 --> 00:25:27,481
这就是我们,团队已经完成了模仿学习部分。

291
00:25:28,202 --> 00:25:30,743
AlphaGo的第二步是强化学习。

292
00:25:31,423 --> 00:25:32,545
人们还没有做到这一点。

293
00:25:32,644 --> 00:25:36,767
 我认为这将从根本上改变事情,这正是使其工作并使其超凡脱俗的部分。

294
00:25:37,708 --> 00:25:45,112
因此,我认为这是,我认为在这里还有大量的难题和能力可以翻过来。

295
00:25:51,196 --> 00:25:54,019
但我认为我们只是还没做AlphaGo的第二步,长话短说。

296
00:25:54,280 --> 00:25:55,261
我们只是做了模仿。

297
00:25:55,561 --> 00:26:01,729
我不认为人们欣赏,例如,ChatGPT之类的数据收集有多糟糕。

298
00:26:03,029 --> 00:26:05,990
假设你有一个问题,就像有些提示是某种数学问题。

299
00:26:06,351 --> 00:26:10,451
一个人进来给出那个问题的理想解决方案。

300
00:26:10,711 --> 00:26:13,971
问题在于人类心理学和模型心理学是不同的。

301
00:26:14,372 --> 00:26:18,492
对人来说容易或困难的事情对模型来说可能不一样。

302
00:26:18,992 --> 00:26:27,953
所以,人类在解决问题时会填补一些模型认为微不足道的部分,而模型不理解的部分则是一个巨大的飞跃。

303
00:26:28,413 --> 00:26:32,414
所以你会逐渐迷失,然后其余的一切都会受到后来者的污染。

304
00:26:32,974 --> 00:26:39,517
所以基本上你需要的是模型需要自己练习如何解决这些问题。

305
00:26:39,977 --> 00:26:43,478
它需要弄清楚对它有效或无效的是什么。

306
00:26:43,778 --> 00:26:51,400
也许它不擅长四位数的加法,所以它会退而使用计算器,但它需要根据自身的能力和知识自己学会这些。

307
00:26:51,880 --> 00:26:53,941
所以第一点就像我觉得完全有问题。

308
00:26:54,861 --> 00:26:57,703
虽然作为某种代理者,这是一个很好的起步。

309
00:26:58,325 --> 00:27:03,810
另一件事是我们正在从人类反馈中进行强化学习,但这是一种非常弱的强化学习。

310
00:27:03,830 --> 00:27:05,633
我觉得这甚至不能算是强化学习。

311
00:27:06,134 --> 00:27:14,040
在AlphaGo中RLHF的等效物是什么?奖励模型是什么?

312
00:27:12,660 --> 00:27:14,040
我称之为一种“感觉检查”。

313
00:27:15,721 --> 00:27:22,026
如果你想训练一个AlphaGo RLHF,你会给两个人两个棋盘,然后问他们喜欢哪一个。

314
00:27:22,306 --> 00:27:25,387
然后你会拿这些标签来训练模型,然后你会对抗这个模型。

315
00:27:25,749 --> 00:27:26,808
这种方法有什么问题?

316
00:27:26,848 --> 00:27:29,871
第一点,只是对棋盘的感觉。

317
00:27:30,011 --> 00:27:30,892
那是你正在针对训练的东西。

318
00:27:31,112 --> 00:27:38,656
第二点,如果它是一个神经网络的奖励模型,那么很容易过度拟合于为模型进行优化的奖励模型,它将发现所有这些虚假的。

319
00:27:44,479 --> 00:27:48,619
所以AlphaGo能够解决这些问题,因为他们有一个非常明确的目标函数。

320
00:27:48,640 --> 00:27:49,440
你可以针对这个函数进行强化学习。

321
00:27:50,400 --> 00:27:52,859
所以我会说,RLHF离RL还差很远,这有点傻。

322
00:27:53,220 --> 00:27:53,759
这感觉有点傻。

323
00:27:54,240 --> 00:27:56,141
另一件事就是模仿学习太愚蠢了。

324
00:27:56,480 --> 00:27:59,401
RLHF是一个不错的改进,但仍然很愚蠢。

325
00:27:59,840 --> 00:28:05,122
我认为人们需要寻找更好的训练模型的方式,使其与自身和某种心理保持在循环中。

326
00:28:05,622 --> 00:28:08,643
我认为在那个方向可能会有突破。

327
00:28:09,298 --> 00:28:11,619
这有点像 AI 模型的研究生院。

328
00:28:11,720 --> 00:28:15,422
它需要坐在书房里,默默地对自己提出问题十年。

329
00:28:15,821 --> 00:28:15,982
是的。

330
00:28:17,303 --> 00:28:18,364
我认为那可能是其中的一部分,是的。

331
00:28:19,005 --> 00:28:24,147
当你学习东西并阅读教科书时,教科书上会有一些练习题。那些在哪里?那些是提示你练习材料的。

332
00:28:28,810 --> 00:28:32,032
当你学习材料时,不只是从左到右阅读。

333
00:28:32,093 --> 00:28:34,015
首先,你在练习。也许你在记笔记。

334
00:28:34,095 --> 00:28:35,215
你在改述,重述。以某种方式对该知识进行大量操纵,从而学习该知识。

335
00:28:41,098 --> 00:28:43,319
在 LLM 中我们完全没见过这方面的等价物。

336
00:28:43,721 --> 00:28:45,561
所以我认为现在还处于非常早期的阶段。

337
00:28:49,724 --> 00:28:51,066
是的,Yuzi。

338
00:28:53,942 --> 00:28:59,307
是的,既高效又实用是很酷的。

339
00:28:59,327 --> 00:29:11,180
所以我想问,你如何使 A 的优先级与成本降低和收入增加或者 B 的找到具有更好推理能力的更优质模型这些优先级对齐?你会如何对齐这一点?

340
00:29:12,647 --> 00:29:13,888
也许我理解这个问题。

341
00:29:13,949 --> 00:29:31,681
我认为我看到很多人这样做,他们一开始就选择能力最强的模型,不管成本如何。

342
00:29:24,736 --> 00:29:26,217
所以你只是试图让你的东西运行起来。

343
00:29:26,257 --> 00:29:31,681
所以你首先追求准确性,然后稍后再做让步。

344
00:29:31,980 --> 00:29:34,522
你检查是否能退回到 3.5 用于某些查询类型。

345
00:29:34,803 --> 00:29:37,865
你检查是否,然后稍后降低成本。

346
00:29:38,224 --> 00:29:42,488
所以我会说先追求性能,然后再降低成本。

347
00:29:43,749 --> 00:29:49,133
好像是我见过的一些人谈论过的范式对他们有效。

348
00:29:51,634 --> 00:29:57,119
也许不只是一个提示,而是想一想你甚至可以让它完全工作的方式是什么?

349
00:29:57,720 --> 00:30:05,646
因为如果你只是让它完全工作,比如说你创建了10个提示或者20个提示,然后你选出最好的一个,再进行一些辩论或者我不知道你能想出什么样疯狂的流程,对吧?

350
00:30:05,987 --> 00:30:11,651
就是只需让你的东西运行得非常好,因为如果你有一个运行得非常好的东西,那么你可以做的另一件事就是提炼它,对吧?

351
00:30:12,412 --> 00:30:14,493
所以你可以获得可能问题类型的分布。

352
00:30:14,733 --> 00:30:19,438
你可以用你的超级昂贵的东西运行它来获取标签,然后你可以用一个更小、更便宜的东西在上面进行微调。

353
00:30:19,999 --> 00:30:27,766
所以我会说我会始终去追求尽可能让它尽可能工作良好,无论如何首先,然后我会建议降低成本是我会建议的事情。

354
00:30:28,547 --> 00:30:28,967
嗨,山姆。

355
00:30:29,227 --> 00:30:29,907
嗨。

356
00:30:30,428 --> 00:30:31,008
一个问题。

357
00:30:31,608 --> 00:30:36,671
所以在过去的一年里,我们看到了开源生态系统取得了很多令人印象深刻的成果。

358
00:30:36,951 --> 00:30:44,996
我很好奇你对此持什么看法,随着模型的规模继续改善,它将继续跟上步伐还是不能跟上闭源发展?

359
00:30:45,016 --> 00:30:48,176
是的,我觉得这是个很好的问题。

360
00:30:48,196 --> 00:30:51,219
是的,我觉得这是个很好的问题。

361
00:30:51,239 --> 00:30:52,799
我真的不知道。

362
00:30:54,846 --> 00:30:57,348
从根本上说,这些模型需要如此多的资本投入。

363
00:30:57,409 --> 00:31:08,277
一个很有趣的事情是,例如,你有Meta等公司能够承担规模化训练这些模型的成本,但这也不是他们所做的事情,他们的摇钱树与此无关。

364
00:31:08,737 --> 00:31:17,304
所以,他们确实有激励可能释放其中一些模型,使整个生态系统得到加强,这样他们实际上可以借鉴所有最好的想法。

365
00:31:17,443 --> 00:31:18,444
所以对我来说,这是有道理的。

366
00:31:19,224 --> 00:31:22,247
但迄今为止,我会说他们只是做了开放的权重模型。

367
00:31:22,646 --> 00:31:25,607
所以我认为他们实际上应该更进一步,这是我希望看到的。

368
00:31:26,288 --> 00:31:27,829
我认为这对每个人都会更好。

369
00:31:28,230 --> 00:31:34,373
我认为他们可能对一些方面感到很犹豫,尤其是与数据等方面有关的方面。

370
00:31:34,593 --> 00:31:35,753
我不知道如何克服这一点。

371
00:31:39,825 --> 00:31:46,368
也许他们应该试着只寻找他们认为非常容易使用的数据源之类的东西,并且尝试限制自己只使用那些。

372
00:31:46,509 --> 00:31:50,471
所以我会说这些可能是我们的冠军,可能是我们的冠军,潜在的冠军。

373
00:31:50,771 --> 00:31:57,076
我也希望看到更多来自这方面的透明度,我认为Meta做得相当不错。他们发布了论文,出版了一本日志,对,一本日志等等。

374
00:32:01,538 --> 00:32:07,281
他们在做的事情,我觉得他们做得不错,但在培育生态系统方面还有很大的提升空间。

375
00:32:07,362 --> 00:32:08,643
我想也许这种情况即将到来,我们将看到。

376
00:32:10,114 --> 00:32:10,334
彼得。

377
00:32:10,733 --> 00:32:11,394
是的。

378
00:32:11,454 --> 00:32:19,240
也许这是一个显而易见的答案,考虑到之前的问题,但你认为什么会让人工智能生态系统更加出色和充满活力,或者是什么阻碍了它的发展?

379
00:32:19,480 --> 00:32:24,423
是开放性吗,或者你认为还有其他重要的事情你想要解决?

380
00:32:32,537 --> 00:32:36,378
是的,我确实认为一个重要的方面就是所提供的内容。

381
00:32:36,499 --> 00:32:40,161
我最近有一条关于第一步是创造产品,第二步是搭建坡道的推文。

382
00:32:40,480 --> 00:32:42,001
我想说有很多人在创造产品。

383
00:32:42,142 --> 00:32:46,284
我想说相对于搭建坡道而言,实际理解所有这些内容的活动要少得多。

384
00:32:46,403 --> 00:32:48,424
而且我认为我们所有人都是新手。

385
00:32:48,444 --> 00:32:49,746
我们都在努力理解它是如何运作的。

386
00:32:50,046 --> 00:32:55,608
我们都需要加快步伐并在一定程度上合作,甚至弄清楚如何有效地使用这些内容。

387
00:32:55,648 --> 00:32:59,270
所以我希望人们在某种程度上更加开放地分享他们所学到的东西,他们如何训练所有这些内容,对他们来说什么有效,什么不起作用等等。

388
00:33:00,230 --> 00:33:04,173
是的,这只是让我们互相更多地学习。那是第一步。

389
00:33:08,454 --> 00:33:08,994
然后第二步,我也认为在开放生态系统中已经存在相当大的势头。所以我觉得这已经是件好事。

390
00:33:09,414 --> 00:33:14,978
也许我已经谈到了一些改进的机会。所以是的。

391
00:33:25,823 --> 00:33:27,124
观众的最后一个问题,迈克尔。

392
00:33:30,239 --> 00:33:47,594
要从模型中获得下一个重大性能飞跃,你认为仅仅修改Transformer架构,比如使用思想标记或激活信标,就足够了吗?还是我们需要彻底放弃它,并提出一个新的基础构建模块,让我们迈向下一个重大步骤或AGI?

393
00:33:47,614 --> 00:33:52,097
特雷弗·约翰森-是的,我觉得这是个好问题。

394
00:33:55,996 --> 00:33:57,758
嗯,我首先要说的是Transformer很了不起。

395
00:33:58,018 --> 00:33:59,278
它实在太令人难以置信了。

396
00:33:59,339 --> 00:34:00,861
我肯定没料到会出现这种情况。

397
00:34:03,549 --> 00:34:07,832
在Transformer出现之前有一段时间,我认为神经网络会出现疯狂的分化,但情况并非如此。

398
00:34:08,472 --> 00:34:09,572
And that was not the case.

399
00:34:09,851 --> 00:34:11,413
这就像完全相反,实际上。

400
00:34:12,313 --> 00:34:15,454
这就像所有相同的模型,实际上。

401
00:34:16,134 --> 00:34:17,355
所以我觉得我们能有这个很不可思议。

402
00:34:17,414 --> 00:34:19,655
我不知道这是否像最终的神经网络。

403
00:34:19,715 --> 00:34:21,496
我想肯定会有的。

404
00:34:22,215 --> 00:34:28,998
我会说,鉴于这个领域的历史,我在其中很长一段时间,要说这是它的终结确实很难。

405
00:34:29,637 --> 00:34:30,378
绝对不是。

406
00:34:31,978 --> 00:34:36,043
而且我认为...我感到非常乐观,认为总有人能够找到一种对我们今天的做事方式有相当大改变的方法。

407
00:36:41,264 --> 00:36:41,925
你能做什么?

408
00:36:43,768 --> 00:36:45,112
听起来你应该成为一名投资者。

409
00:36:47,197 --> 00:36:47,599
太棒了。

410
00:36:47,920 --> 00:36:51,086
非常感谢您今天加入我们,andrew,还有整个今天一整天。