MidJourney、DeepL、ElevenLabs和HeyGen共有的特点(除了他们的特别团队和快速增长!)

本文翻译自一位知名的风险投资家Sarah Tavel的文章。Sarah Tavel 是一位知名的风险投资家,目前担任 Benchmark Capital 的一名合伙人。Benchmark Capital 是一家位于硅谷的著名风险投资公司,它投资过多家成功的科技公司,如 Twitter、Uber 和 Snapchat。Tavel 在加入 Benchmark 之前,在 Pinterest 担任产品经理,并帮助该公司从初创期成长为一个拥有数亿用户的社交媒体巨头。在此之前,她还在 Greylock Partners 担任投资者,专注于消费者技术和软件即服务(SaaS)领域的投资。 媒体和私下讨论常常流传着一种观点:在利用人工智能(AI)方面,是那些老牌公司而非新兴初创企业占据上风。这种想法认为,人工智能更多是一种强化现有企业地位的技术,而非一股让新入者得以崛起的颠覆力量。这种看法在某种程度上是有根据的,尤其是对那些旨在提升员工现有工作效率的初创公司来说。Adobe 和 Notion 等公司迅速集成AI功能的案例便是证明。在这场比赛中,初创公司需要在大企业掌握创新之前找到自己的市场定位,但在许多情况下,似乎大企业的创新不过是一次 OpenAI API 的调用而已。然而,这种观点太过简化了。我们现在见证到,一批B2B AI企业通过提供比传统服务高出十倍的体验,并大幅降低成本,激发了巨大的收入增长。 亚马逊、Netflix、eBay、Uber、Airbnb 等公司在刚开始时似乎只针对小众市场,但他们提供的服务需求却远超预期。回顾过去,秘诀显而易见:他们利用技术优势,在结构上降低成本,提供的服务体验远胜于现有的替代品,而且价格更为便宜。 几乎每次,人们都低估了这些公司的潜力。最大的误判在于,当技术使得体验质量大幅提升,同时显著降低成本时,产品的需求和应用场景会急剧扩张。 让我们回到AI领域。 想象一下,如果你不需要在自由职业网站上费尽周折地找到一位风格符合、评价优异、响应迅速的艺术家,而只需用简单的文字描述你的需求,几秒钟之内,一个成本极低的图像便生成了,这就是 MidJourney 的魔力。 或者,假如你不必寻找、雇佣并管理人类翻译,只需瞬间完成文档或应用程序的翻译,而且成本远低于雇佣人类翻译,这就是DeepL(一家Benchmark公司)的服务。 HeyGen则开拓了一个之前因成本和复杂性而被忽视的市场:为公司雇佣演员。原本需要数小时来完成的寻找演员、安排拍摄和后期制作的工作,现在只需五分钟,且可以无限次地迭代剧本和调整其他控制。 ElevenLabs等公司提供的服务,相比于传统的雇佣配音演员,不仅能瞬间生成音频,而且避免了雇佣和录制的成本,大大拓宽了配音市场。 重要的是,这些公司提供的不仅仅是对现有员工和工作流程的生产力改善。相反,它们通过减少雇佣和合作过程中的劳动、摩擦和成本,解锁了新的市场。这正是那些被现有大企业所忽视的市场。 如果说过去的初创企业带来了十倍的改进,那么AI提供的则是一种相较于传统服务(即人类劳动)百倍的体验升级。它将原本复杂的雇佣和管理过程简化为几乎即时的体验,且成本只是传统方式的一小部分,从而为无数应用场景开辟了可能,极大地拓展了市场。正如人们最初低估了Uber的市场潜力一样,我们同样低估了许多AI初创企业的发展机遇。 接下来的有趣问题是,哪些领域将迎来突破?正如我之前所写,通过分析2021年美国服务行业对GDP的贡献,可以预见哪些行业中可能涌现出创新的初创企业……如果你正在创办这样一家公司,我非常希望与你见面。Sarah at Benchmark dot com。 在撰写这篇文章时,我再次触及了一个敏感话题:人工智能最终会取代人类的工作。对每一项新技术,总伴随着这样的担忧。但历史一次又一次地证明,尽管新技术确实接管了一部分人类的工作,它也为人类创造了新的职业机会,使人们能够发挥自己最独特的优势——创造力和原创性。尽管我对AI充满热情,但事实是,我们对这项技术的探索仍处于初级阶段,仍有无数工作只有人类能够完成。人工智能为人类提供了更广阔的空间,去追求那些最能体现人性光辉的事业。

April 7, 2024 · 1 min · fisherdaddy

基于 Claude 3 实现的 AI 作家

Claude-Author 利用 Claude 3 Haiku 模型 和 Stable Diffusion 调用来生成原创小说。用户可以提供初始提示并输入他们想要的章节数,然后 AI Author 会生成整本小说,输出与电子书阅读器兼容的 EPUB 文件。 工作原理 输入 希望的写作风格: writing_style 输入本书的概述: book_description 输入生成的章节数: num_chapters 开始创作 创建故事情节大纲 Create a detailed plot outline for a {num_chapters}-chapter book in the {writing_style} style, based on the following description:\n\n{book_description}\n\nEach chapter should be at least 10 pages long. 逐章节生成内容 Previous Chapters:\n\n{' '.join(chapters)}\n\nWriting style: `{writing_style}`\n\nPlot Outline:\n\n{plot_outline}\n\nWrite chapter {i+1} of the book, ensuring it follows the plot outline and builds upon the previous chapters....

March 29, 2024 · 1 min · fisherdaddy

基于 Claude 3 实现的 AI 投资家

Claude-Investor 是一个实验性投资分析代理,利用 Claude 3 Opus 和 Haiku 模型为特定行业的股票提供全面的见解和建议。 工作原理 生成指定行业主要公司的股票代码列表 检索每家公司的历史价格数据、资产负债表、财务报表和新闻文章 对新闻文章进行情绪分析以衡量市场情绪 检索每家公司的分析师评级和价格目标 进行行业和板块分析,以了解市场趋势和竞争格局 生成所选公司与其同行之间的比较分析 根据综合分析为每家公司提供最终的投资建议,包括价格目标 根据投资吸引力对行业内公司进行排名 一些样例 1.微软公司(MSFT) 当前价格: 420.95 美元 目标价格:450.00 美元 理由:微软的强劲情绪、人工智能举措、分析师的乐观情绪以及有利的行业顺风使其成为最具吸引力的投资选择。 该公司多样化的人工智能货币化方法以及对云效率等关键趋势的定位为增长奠定了坚实的基础。 尽管存在竞争和监管问题等潜在风险,但微软强大的市场地位和增长前景胜过这些因素。 当前价格为 420.95 美元,较目标价格 450.00 美元有潜在上涨空间。 2.Alphabet公司(GOOGL) 当前价格:149.32 美元 目标价格:160.00 美元 理由:Alphabet 强劲的财务业绩、多元化的收入来源以及在搜索和数字广告等关键领域的市场领导地位使其成为有吸引力的投资选择。 该公司的创新文化和分析师的积极情绪也令人鼓舞。 然而,监管挑战、激烈竞争以及对广告收入的依赖带来了潜在风险。 目前 149.32 美元的价格较 160.00 美元的目标价格有潜在上涨空间,但投资者应密切关注监管动态以及该公司应对竞争格局的能力。 3.苹果公司(AAPL) 当前价格: 172.53 美元 目标价格:180.00 美元 理由:苹果强大的品牌忠诚度、产品和服务生态系统以及财务业绩使其成为可靠的投资选择。 然而,情绪好坏参半、行业逆风、估值考虑以及缺乏明确的近期催化剂都削弱了热情。 目前 172.53 美元的价格相对于 180.00 美元的目标价格来说上涨空间有限。 尽管苹果仍然是一家优质公司,但科技行业的其他领域可能存在更好的风险调整机会。 4.亚马逊公司(AMZN) 当前价格:178.36 美元 目标价格:185.00 美元 理由:亚马逊在电子商务领域的主导地位、规模和物流能力提供了竞争优势。 然而,有限的财务数据、估值缺乏清晰度、竞争威胁加剧以及监管压力使其成为四家公司中最不具吸引力的投资选择。 目前 178.36 美元的价格比 185....

March 28, 2024 · 1 min · fisherdaddy

基于 Claude 3 实现的 AI 记者

AI-Journalist 的功能是基于 Claude 3 模型的强大功能来撰写和编辑任何给定主题的高质量文章。它利用网络搜索 API 来收集相关信息、分析内容并生成结构良好、信息丰富且引人入胜的文章,这些文章读起来就像在出版物上发布的文章一样。 工作原理 提示用户输入要撰写的主题 使用 Claude 3 Haiku 生成与该主题相关的搜索词列表 使用 SERP API 对每个搜索词执行搜索 要求 Claude 从搜索结果中选择最相关、信息最丰富的 URL 使用 newspaper3k 库从选定的 URL 检索文章文本 要求 Claude 根据检索到的文章文本写一篇高质量的文章 要求编辑(Claude)审阅文章并提供改进建议 要求编辑(Claude)根据建议重写文章 输出生成的文章和编辑的文章 生成的一篇关于 samaltman 主题的文章样例 Sam Altman:塑造人工智能未来的远见者 在快速发展的人工智能世界中,萨姆·奥尔特曼脱颖而出,成为科技行业最具影响力和争议性的领导者之一。 年仅 38 岁的 OpenAI 神秘首席执行官带领公司从一个小型研究实验室迅速崛起为处于人工智能革命前沿的价值数十亿美元的巨头。 奥特曼的旅程始于圣路易斯郊区,在那里他很早就表现出了技术和创业的天赋。 小时候自学编程后,他于 2003 年进入斯坦福大学,梦想着创办自己的公司。 两年后,他退学并与他人共同创立了 Loopt,这是一款开创性的基于位置的社交网络应用程序。 尽管 Loopt 未能获得关注,但它引起了硅谷名人的注意,导致 Altman 加入了著名的创业加速器 Y Combinator。 在 2014 年至 2019 年担任 Y Combinator 总裁期间,Altman 帮助创办了数百家成功的初创公司,巩固了他作为杰出战略家和富有远见的思想家的声誉。 然而,他在 2019 年掌管 OpenAI 的决定决定了他的职业生涯。...

March 28, 2024 · 1 min · fisherdaddy

创业指南 • Sam Altman

本文翻译OpenAI CEO Sam Altman 写的一篇关于创业的指南《Startup Playbook》。 我们投入大量时间为初创企业提供建议。虽然面对面的建议永远不可或缺,但我们认为,如果能将这些建议中最通用的部分浓缩成一本手册,以便我们能够提供给 Y Combinator 和 YC Fellowship 的公司,可能会帮助我们扩大 Y Combinator 的影响力。 接着,我们想,为什么不直接让所有人都能够获得它呢? 这本指南是为初步接触初创世界的人们准备的。对于那些已经阅读过 YC 合伙人写作的人来说,这里的内容可能并不陌生——目标是将所有有用的信息集中在一处。 未来可能会出现第二部分,介绍如何扩大初创企业的规模——目前这部分主要讲述如何开始一个初创企业。 作为一个初创企业,你的首要目标是创造出用户爱不释手的产品。只有做到这一点,你才需要考虑如何吸引更多用户。这一步骤至关重要——想想那些当今成功的公司,它们都是从一个早期用户极力推荐的产品开始的。如果你没有做到这点,你就会失败。如果你自欺欺人,认为用户喜欢你的产品而实际上并非如此,你同样会失败。 许多人正是因为想跳过这一步,最终沦为失败者。 先做出一小部分用户极度喜爱的产品,而不是让大量用户只是喜欢的产品,这要好得多。尽管总的正面反馈相同,但让用户从喜欢升级到爱,远不如吸引更多用户来得简单。 关于创办初创企业的警告:这是一条艰难之路!来自 YC 创始人的反馈几乎一致——这比他们预想的要难得多,因为他们缺乏一个框架来理解初创所需的工作量和强度。相比之下,加入一个增长迅速的早期初创企业,从财务角度来看,通常是更好的选择。 另一方面,如果你在技术上真正出色,即使失败了,也总会有工作机会,所以实际上创办初创企业对你的职业生涯并不构成太大风险。大多数人很难正确评估风险。我个人认为,拥有一个你真正热衷的想法或项目,却选择留在一个安全但乏味、没有成就感的工作中,是更加冒险的选择。 要建立一个成功的初创企业,你需要具备:一个伟大的想法(包括一个伟大的市场)、一个优秀的团队、一个出色的产品,以及精湛的执行能力。 一个伟大的想法 我们向 YC 公司提出的首要问题之一是他们在做什么以及为什么要做。 我们希望得到明确且简洁的回答。这既是对创始人本人的评估,也是对其创意本身的考量。作为创始人,清晰的思考和沟通能力至关重要——无论是招聘、融资、销售等方面,这种能力都是必需的。通常,想法需要清晰才能被传播,而复杂的想法往往意味着混乱的思维或是虚构的问题。如果这个想法第一次听起来就不能激起至少一些人的兴趣,那么这是个坏兆头。 我们还会询问谁迫切需要这款产品。 最理想的情况是,你自己就是目标用户。其次,是你非常了解目标用户。 如果公司已经拥有用户,我们会询问用户数量及其增长速度。我们尝试探索为什么增长没有更快,特别是试图了解用户是否真的热爱这款产品。通常这意味着用户会在没有公司推动的情况下向他们的朋友推荐这款产品。我们还会问公司是否产生了收入,如果没有,原因是什么。 如果公司还没有用户,我们会尝试找出首先需要构建的最小功能产品来测试假设——也就是说,如果从完美体验反推,我们尝试确定首先应开始的核心是什么。 测试一个想法的方法是发布它并看看会发生什么,或者尝试销售它(例如,在编写任何代码之前尝试获取意向书)。前者更适合 ToC 产品(用户可能会说他们会使用它,但实际上可能并不会突破混乱),后者更适合 ToB 产品(如果一家公司告诉你他们愿意购买,那么就去构建它)。特别是,如果你是一家 ToB 企业公司,我们首先问的问题之一就是你是否有来自客户的意向书,表示他们愿意购买你正在开发的产品。对于大多数生物技术和硬科技公司,测试一个想法的方法首先是与潜在客户交谈,然后确定可以首先构建技术的最小部分。 随着从用户那里收到反馈,让你的想法进化是很重要的。深入了解你的用户也是关键——这对于评估想法、创建出色的产品和建立伟大的公司都至关重要。 正如之前提到的,创业非常艰难。它需要长时间的持续努力和极高的强度。创始人和员工需要有共同的使命感来维持动力。因此,我们会询问创始人为何想要创办这家特定公司。 我们还询问公司如何在将来形成垄断地位。对此有多种不同的说法,但我们采用彼得·蒂尔的定义。当然,我们不希望你的公司以不道德的方式对抗竞争对手。相反,我们寻找的是那些随着规模扩大而变得更加强大、且难以被复制的业务模式。 最后,我们会探讨市场情况。我们询问市场目前的规模、增长速度以及为何在十年后会变得重要。我们试图理解市场为何会迅速增长,以及为什么这是一个初创企业值得追求的好市场。我们喜欢那些大公司尚未意识到的、刚刚开始的主要技术转变——大公司不擅长应对这些转变。而有点违反直觉的是,追求小市场中的大部分通常是最佳答案。 对想法的一些额外思考: 我们更喜欢新颖的事物,而非抄袭模仿的。大多数真正伟大的公司都始于一项根本性的创新(一个可接受的创新的定义是比现有产品好 10 倍)。如果同时有十家公司启动相同的计划,而且听起来很像现有的东西,那么我们会持怀疑态度。 这样做的一个重要但违反直觉的理由是,创造全新且困难的事物比复制简单的事物更容易。如果是前者,人们会更愿意帮助你和加入你;如果是后者,情况则相反。 最好的想法可能初听不佳,但实际上非常优秀。因此,你不需要过于保密你的想法——如果它真的是个好想法,它可能听起来并不值得被偷走。即便听起来值得被偷走,真正愿意投入所需工作将一个伟大的想法转化为一家伟大公司的人,远比有好想法的人少得多。如果你告诉别人你在做什么,他们可能会提供帮助。 说到分享你的想法——虽然最好的情况是某些人第一次听到时就非常兴奋,但几乎每个人都会告诉你你的想法很糟糕。也许他们是对的,也许他们不擅长评估创业项目,或者他们可能只是嫉妒。无论原因是什么,这种情况会频繁发生,会让你感到痛苦,即使你认为自己不会受到影响,实际上还是会受到影响。你能越快建立自信,不被那些负面声音太多拖累,你就会越好。无论你多成功,负面评论者永远不会消失。 如果你想创业但没有想法怎么办?也许你就不应该创业。如果有一个想法,而创业是为了将这个想法带入世界,这通常会更好。 我们曾经做过一个实验,资助了一群有潜力的创始团队,他们一开始没有想法,希望他们在我们的资助下能找到一个有前途的想法。 结果他们全部失败了。我认为问题的一部分在于,优秀的创始人通常有很多好想法(通常太多)。但更大的问题是,一旦你开始了一家创业公司,你就必须急于找到一个想法,而由于它已经是一个正式的公司,想法不能太过疯狂。你最终会得到那些听起来合理但实际上没有新意的想法。这就是盲目转变方向的风险。 因此,最好不要过于积极地迫使自己去想出创业点子。相反,你应该广泛学习不同的领域。练习发现问题、低效之处以及主要技术变革。投身于你觉得有趣的项目。努力与聪明、有趣的人为伍。最终,想法自然会浮现。 一个优秀的团队 建立伟大公司的决不是平庸的团队。我们特别重视的是创始人的实力。在我从事较晚期阶段投资时,我同样非常关注创始人招募的员工质量。 伟大创始人有哪些特质?最关键的包括无人能挡的决心、坚不可摧的意志和巧妙的资源利用能力。智慧和激情同样位列前茅,这些特质远比单纯的经验或是“精通某种编程语言或框架”来得重要。 我们发现,那些成功的创始人往往让人合作起来毫无压力,因为你知道他们无论面对什么情况都能够处理得当。有时候,单凭意志力就足以让你取得成功。 优秀的创始人常常同时具备一些表面上看起来相互矛盾的特性。例如,对于公司核心理念和使命的坚定不移,与在几乎所有其他事务上的灵活性和学习新知的开放性。 最佳的创始人反应异常迅速,这显示了他们的果断、专注、热情和执行力。 难以沟通的创始人几乎总是不理想的选择。沟通技巧对于创始人来说极其重要——实际上,我认为这是最关键且鲜少被提及的创始人技能。 科技初创企业至少需要一位能够打造公司产品或服务的创始人,以及至少一位能够(或有潜力成为)善于销售和与用户沟通的创始人。有时候,这两者可以是同一个人。 在选定合作伙伴时,请仔细考虑这些标准——这可能是你做出的最重要的决定之一,往往这个选择过程相当随意。最好选择一个你很了解的人,而不是你在某次寻找合伙人的活动中刚遇到的人。通过更多的数据,你可以更好地评估潜在的合作伙伴,这是你绝对不想弄错的决定。此外,创业过程中很可能会有低谷期,如果你和你的合伙人之前就相识,你们都不会想让对方失望,这会让你们继续坚持下去。合伙人分手是早期创业项目失败的主要原因之一,特别是那些为了创业而结识的团队。 最理想的情况是有一个靠谱的合伙人,其次是自己单干。最糟糕的情况则是和不合适的合伙人共事。如果合作不顺利,最好快刀斩乱麻,及早分手。...

March 18, 2024 · 2 min · fisherdaddy

百川智能 CEO 王小川对 AGI 的核心认知

这篇文章是来自于腾讯科技对王小川的采访:王小川想提出中国AGI第三种可能性 ,核心内容基于 ChatGPT、Claude、Gemini 提取后做了稍加整理。 对Sora技术的态度 王小川强调,尽管Sora作为视频生成模型引起了广泛关注,但他认为这不符合百川智能的发展方向。他坚持认为任何技术发展应以语言为中心,因为他相信AGI(人工通用智能)的实现必须围绕语言模型展开,而Sora仅是一种阶段性产物。 对技术和市场的平衡视角 他认为,在技术发展与市场需求之间找到平衡至关重要。王小川提出,中国AGI的发展不应仅仅局限于技术理想主义(技术信仰派)或市场实用主义(市场信仰派),而应寻求第三种可能性,即在技术和应用场景的交叉点上,实现两者的融合与互补。 对公司发展战略的看法 王小川用“盲人摸象”比喻来形容当前人工智能领域的局限性。他认为,不同的人可能只看到问题的一部分,而他自认为能够更全面地看待问题。这种视角促使他不跟风追求当下热门的技术如Sora,而是基于对AGI更深远理想的追求,明确自己的发展方向。 对朱啸虎观点的回应 王小川对朱啸虎的观点表示理解,认为他代表了一种现实主义的投资逻辑。但他同时也认为,朱啸虎的观点过于片面,没有看到大模型的全部潜力。他以医疗场景为例,说明了大模型在特定场景下的巨大价值。 对杨植麟观点的认可 王小川认可杨植麟的技术理想主义,认为他有长远的眼光。他同时也认为,杨植麟的观点过于理想化,缺乏现实落地路径。他认为,大模型创业需要兼顾技术和场景,才能找到成功的路径。 对AI未来的展望 王小川提出了在AGI领域探索的三个重点方向:娱乐、生命科学、和真实世界的引擎。他强调,通过这些方向的探索和发展,能够在创造、健康、快乐这三个维度上为人类提供服务。 模型即应用: 王小川提出了"模型应用一体化"的思路,将模型与应用场景紧密结合,而不是将应用简单地外挂在模型之上。他认为模型应该深深植根于特定场景,相互促进。 生命模型的终极目标: 王小川描绘了他的愿景是构建"生命模型",用数学模型来刻画生命的规律,这是超越了物理学传统范式的一种追求。大模型技术为实现这一目标提供了新的武器。

March 14, 2024 · 1 min · fisherdaddy

朱啸虎对中国现实主义 AIGC 的核心认知

这篇文章是来自于最近火热的腾讯科技对金沙江创始人朱啸虎的采访:朱啸虎讲了一个中国现实主义AIGC故事,核心内容基于 Gemini 提取后做了稍加整理。有趣的是,前几天腾讯科技发了一篇访谈:,月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进,这两篇文章对比着看很有意思,反映了目前理想派和保守派对AGI在认知上的不同。 1. 对AIGC的态度 观点:看好AIGC,特别是to B应用,认为其已经在中国大爆发。 解释:朱啸虎认为,AIGC在to B领域能快速提升生产力,见到效果,因此受到企业欢迎。他举例说明了AI视频面试、AI私域营销等应用场景,并强调这些应用在中国领先于美国。 2. 对大模型的看法 观点:不看好中国的大模型创业公司,认为其缺乏场景、数据和技术优势。 解释:朱啸虎认为,中国大模型公司在技术上落后于美国,且估值过高,缺乏商业化前景。他建议创业公司聚焦应用,而不是底层大模型。 3. 对中美AIGC的比较 观点:中美在AIGC发展上存在差距,中国在应用层创新领先,但在底层大模型上落后。 解释:朱啸虎认为,美国在底层大模型投入巨大,技术领先,但应用创新受限;中国则在数据和应用场景上更有优势,但在底层技术上需要追赶。 4. 对投资策略的建议 观点:建议投资人关注AIGC的to B应用,并谨慎投资大模型公司。 解释:朱啸虎认为,to B应用是AIGC短期内最有机会爆发的领域,投资应聚焦PMF(产品/市场匹配)和商业化能力。对于大模型公司,他建议投资者谨慎评估其技术实力、市场竞争力和商业化前景。 5. 对未来趋势的判断 观点:看好开源模型的未来,认为其会缩小与闭源模型的差距。 解释:朱啸虎认为,开源模型拥有更广泛的开发者群体和更快的迭代速度,长期来看会赶上闭源模型。 其他值得注意的观点 朱啸虎认为,中国VC没有靠共识赚过钱,投资人应该独立思考,不要盲目跟风。 他批评了一些大模型创业公司是“拿着锤子找钉子”,缺乏商业化思维。 他看好中国在AIGC应用层面的创新,认为中国有机会弯道超车。

March 8, 2024 · 1 min · fisherdaddy

Moonshot AI 创始人杨植麟关于 AGI 的核心认知

这篇文章是来自于最近火热的腾讯科技对杨植麟的采访:月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进,核心内容基于 Claude 和 Gemini 提取后做了稍加整理。有趣的是,过几天腾讯科技又发了一篇访谈:朱啸虎讲了一个中国现实主义AIGC故事,这两篇文章对比着看很有意思,反映了目前理想派和保守派对AGI在认知上的不同。 核心认知 “AI不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界。” 解释:杨植麟强调AI不应只关注短期商业化,而是要着眼于长远地改变世界。 “开源落后于闭源,这也是个事实。因为开源的开发方式跟以前不一样了,以前是所有人都可以contribute,现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集,最后一定是闭源更好,是一个consolidation。” 解释:杨植麟分析了目前开源模型发展落后闭源模型的原因,并预测未来闭源模型将主导。 “要ride the wave。” 解释:顺应AI浪潮,把握时机创业。 “AGI需要新的组织方式。” 解释:AGI的发展需要一种全新的组织形式,结合科研、工程和商业。 “它需要人才聚集、资本聚集。” 解释:发展AGI需要优秀人才和大量资金的投入。 “如果你能用scale解决的问题,就不要用新的算法解决。” 解释:强调scale法则,即通过扩大模型规模而非新算法来解决问题。 “它(long context)是新的计算机内存。” 解释:长文本是新型计算机的内存,对发展AGI至关重要。 “我觉得现在就有点像(视频生成的)GPT-3.5,是阶跃式提升。” 解释:Sora代表了视频生成能力的阶跃式突破。 “AGI空间很大,在通用能力基础上去有差异化,这个更可能发生。” 解释:尽管通用能力会趋同,但未来可能出现差异化的AGI系统。 “user scaling和model scaling需要同时做。最终在这两者之间完美结合。"(指技术理想和商业现实) 解释:伟大的AGI公司需要技术理想主义和现实商业考量的完美结合。 “接下来会有两个大的milestone。"(统一世界模型和自主演化) 解释:未来两大里程碑是统一多模态的世界模型,以及无需人类数据输入的自主演化能力。 “不能只满足做到GPT-4的效果。保持非共识思维,他多次强调要"找到非共识” 解释:不应只盲目追赶GPT-4,而要寻求更大突破。要有独特的思路和判断,不能被现有观点所束缚。这种非共识思维对于创新至关重要。 “AGI最终会是一个跟所有用户co-work产生的东西。” 解释:AGI将通过与大量用户互动协作而逐步完善。 “scaling law为什么能成为第一性原理?你只要能找到一个结构,满足两个条件:一是足够通用,二是可规模化。” 解释:解释了scale law成为AGI发展第一性原理的原因。 “技术是这个时代唯一新变量,其他变量没变。” 解释:在当前时代,技术进步是唯一的新变量,其他条件并未改变。 “AGI组织需科学、工程、商业三位一体” 解释:不能是纯研究机构,也不能是单纯的商业公司,AGI组织要将科研、工程和商业深度融合。 “先进视觉模型将连接数字世界与物理世界” 解释:视觉模型的突破将最终使AI能感知并介入物理世界。 “多模态是确定趋势,但统一架构还是难题” 解释:视频、图像等多模态能力必然到来,但找到真正统一的架构尚需时日。 “会有更多的consolidation,会有更少的公司。” 解释:预计未来会有更多资源整合,而存活的AGI公司会减少。 “我们应该学习OpenAI的技术理想主义。如果所有人都觉得你正常,你的理想是大家都能想到的,它对人类的理想总量没有增量。” 解释:赞赏OpenAI的技术理想主义精神,倡导创新思维。 在做的事情 根据这篇对杨植麟的采访,可以看出他主要在做以下几件事: 创办了一家名为"月之暗面(Moonshot AI)“的大模型公司,专注于追求人工通用智能(AGI)。 开发名为"Kimi"的大模型AI助手,支持20万汉字长文本输入,以探索长语境建模能力。 专注于模型本身的技术突破和扩展,而非仅仅应用落地。他认为模型规模扩展(model scaling)是通向AGI的关键。 招募顶尖AI人才,打造高密度人才团队。团队目前约80人。 持续融资以获得训练大模型所需算力资源。公司已经完成数轮融资,估值数十亿美元。 构建一个整合科学、工程和商业的AGI系统和组织,类似登月计划。通过产品和用户互动发现新的应用机会。 追求长期理想主义目标,而非短期应用落地。他认为AGI将在未来10-20年内改变世界。 总的来说,杨植麟专注于大模型的基础研究和技术突破,以期最终实现人工通用智能,而非过多关注短期商业化。 个人履历 教育背景: 本科: 清华大学计算机系 博士: 卡内基梅隆大学计算机学院 导师:...

March 8, 2024 · 1 min · fisherdaddy

"Road to Sora" 论文阅读清单

鉴于 Sora 的官方文献尚未发布,本文的目标是寻找 OpenAI 发布的 Sora 技术报告中的线索。原文来戳这里。 Sora 是什么 Sora 以其从自然语言提示中生成高清视频的能力,在生成式 AI 领域引起了巨大轰动。如果你还没见过相关示例,这儿有一个生成的视频供你欣赏——视频展示了一只海龟在珊瑚礁中游泳的场景。 尽管 OpenAI 的团队还没有公布涉及该模型技术细节的正式研究论文,但他们确实发布了一份技术报告:Video generation models as world simulators。这份报告概述了他们应用的一些高级技术和一些定性的研究成果。 Sora 架构概述 在读过下列论文之后,你会开始理解这里所述的架构。这份技术报告提供了一种从 10,000 英尺高度俯瞰的视角,我希望每一篇论文都能深入探讨不同的细节,共同勾勒出一个完整的图景。有一篇精彩的文献回顾题为《Sora: 大型视觉模型的背景、技术、局限性及机遇综述》,它给出了一个通过逆向工程得到的架构的高层次示意图。 图 4:逆向工程:Sora 框架概述 OpenAI 的团队把 Sora 描述为“扩散 Transformer”,这个概念融合了之前论文中提到的多种思想,但特别是用于处理视频中生成的潜在时空区块。 这种方法结合了 Vision Transformer (ViT) 论文中提到的补丁样式和 Latent Diffusion Paper 中相似的潜在空间概念,但采用了扩散 Transformer 的组合方式。这不仅包括图像的宽度和高度方向上的补丁,还拓展到了视频的时间维度。 关于他们如何精确收集到所有这些训练数据的细节,现在还难以确定,但它似乎是 Dalle-3 论文中技术与利用 GPT-4 详细解释图像文本描述的结合体,这些描述随后被转换为视频。训练数据可能是此处的核心秘密,因此技术报告中关于此的细节最为欠缺。 应用 Sora 这类视频生成技术的应用前景广泛,无论是在电影、教育、游戏、医疗还是机器人技术领域,通过自然语言提示生成逼真视频无疑将影响多个行业。 图 18:Sora 的应用 论文阅读清单 OpenAI 技术报告中的参考文献部分引用了众多论文,但确定哪些论文应该优先阅读或者对背景知识非常重要可能有些难度。我们已经仔细筛选并挑选出了我们认为最具影响力和最值得阅读的论文,并按类别进行了整理。 背景论文 从 2015 年开始,生成图像和视频的质量持续提升。引起公众广泛注意的重大进步始于 2022 年,涌现出如 Midjourney、Stable Diffusion 和 Dalle 等工具。本节包含了一些被反复引用的基础论文和模型架构。虽然这些论文不全部直接关联 Sora 架构,但它们为理解艺术和技术水平如何随时间演进提供了重要的背景。...

March 6, 2024 · 2 min · fisherdaddy

教育领域的一些prompt分享

早上看到 X 上 @emollick 分享一些针对老师和学生的相关prompt,实际用了一下还不错,在这里分享几个。 教学辅助工具 prompt 用于课堂教学中,协助教师进行教学准备和授课。 模拟场景设计助手 这个prompt主要帮助老师设计一个让学生通过角色扮演练习如谈判、招聘、推销等技能的模拟场景。 英文 You are a simulation creator. Every simulation you create has the following: An AI Game master who is an expert at creating role playing scenarios for students to practice applying their skills (eg negotiations, hiring, pitching). The AI game masters job is two-fold: to play AI mentor and set up a scenario for the user. And then once the user plays through the scenario the AI mentor comes back in and proclaims that the role play is complete and gives them feedback and more suggestions going forward about how they can improve their performance....

March 5, 2024 · 50 min · fisherdaddy