基于 Claude 3 实现的 AI 投资家

Claude-Investor 是一个实验性投资分析代理,利用 Claude 3 Opus 和 Haiku 模型为特定行业的股票提供全面的见解和建议。 工作原理 生成指定行业主要公司的股票代码列表 检索每家公司的历史价格数据、资产负债表、财务报表和新闻文章 对新闻文章进行情绪分析以衡量市场情绪 检索每家公司的分析师评级和价格目标 进行行业和板块分析,以了解市场趋势和竞争格局 生成所选公司与其同行之间的比较分析 根据综合分析为每家公司提供最终的投资建议,包括价格目标 根据投资吸引力对行业内公司进行排名 一些样例 1.微软公司(MSFT) 当前价格: 420.95 美元 目标价格:450.00 美元 理由:微软的强劲情绪、人工智能举措、分析师的乐观情绪以及有利的行业顺风使其成为最具吸引力的投资选择。 该公司多样化的人工智能货币化方法以及对云效率等关键趋势的定位为增长奠定了坚实的基础。 尽管存在竞争和监管问题等潜在风险,但微软强大的市场地位和增长前景胜过这些因素。 当前价格为 420.95 美元,较目标价格 450.00 美元有潜在上涨空间。 2.Alphabet公司(GOOGL) 当前价格:149.32 美元 目标价格:160.00 美元 理由:Alphabet 强劲的财务业绩、多元化的收入来源以及在搜索和数字广告等关键领域的市场领导地位使其成为有吸引力的投资选择。 该公司的创新文化和分析师的积极情绪也令人鼓舞。 然而,监管挑战、激烈竞争以及对广告收入的依赖带来了潜在风险。 目前 149.32 美元的价格较 160.00 美元的目标价格有潜在上涨空间,但投资者应密切关注监管动态以及该公司应对竞争格局的能力。 3.苹果公司(AAPL) 当前价格: 172.53 美元 目标价格:180.00 美元 理由:苹果强大的品牌忠诚度、产品和服务生态系统以及财务业绩使其成为可靠的投资选择。 然而,情绪好坏参半、行业逆风、估值考虑以及缺乏明确的近期催化剂都削弱了热情。 目前 172.53 美元的价格相对于 180.00 美元的目标价格来说上涨空间有限。 尽管苹果仍然是一家优质公司,但科技行业的其他领域可能存在更好的风险调整机会。 4.亚马逊公司(AMZN) 当前价格:178.36 美元 目标价格:185.00 美元 理由:亚马逊在电子商务领域的主导地位、规模和物流能力提供了竞争优势。 然而,有限的财务数据、估值缺乏清晰度、竞争威胁加剧以及监管压力使其成为四家公司中最不具吸引力的投资选择。 目前 178.36 美元的价格比 185....

March 28, 2024 · 1 min · fisherdaddy

基于 Claude 3 实现的 AI 记者

AI-Journalist 的功能是基于 Claude 3 模型的强大功能来撰写和编辑任何给定主题的高质量文章。它利用网络搜索 API 来收集相关信息、分析内容并生成结构良好、信息丰富且引人入胜的文章,这些文章读起来就像在出版物上发布的文章一样。 工作原理 提示用户输入要撰写的主题 使用 Claude 3 Haiku 生成与该主题相关的搜索词列表 使用 SERP API 对每个搜索词执行搜索 要求 Claude 从搜索结果中选择最相关、信息最丰富的 URL 使用 newspaper3k 库从选定的 URL 检索文章文本 要求 Claude 根据检索到的文章文本写一篇高质量的文章 要求编辑(Claude)审阅文章并提供改进建议 要求编辑(Claude)根据建议重写文章 输出生成的文章和编辑的文章 生成的一篇关于 samaltman 主题的文章样例 Sam Altman:塑造人工智能未来的远见者 在快速发展的人工智能世界中,萨姆·奥尔特曼脱颖而出,成为科技行业最具影响力和争议性的领导者之一。 年仅 38 岁的 OpenAI 神秘首席执行官带领公司从一个小型研究实验室迅速崛起为处于人工智能革命前沿的价值数十亿美元的巨头。 奥特曼的旅程始于圣路易斯郊区,在那里他很早就表现出了技术和创业的天赋。 小时候自学编程后,他于 2003 年进入斯坦福大学,梦想着创办自己的公司。 两年后,他退学并与他人共同创立了 Loopt,这是一款开创性的基于位置的社交网络应用程序。 尽管 Loopt 未能获得关注,但它引起了硅谷名人的注意,导致 Altman 加入了著名的创业加速器 Y Combinator。 在 2014 年至 2019 年担任 Y Combinator 总裁期间,Altman 帮助创办了数百家成功的初创公司,巩固了他作为杰出战略家和富有远见的思想家的声誉。 然而,他在 2019 年掌管 OpenAI 的决定决定了他的职业生涯。...

March 28, 2024 · 1 min · fisherdaddy

创业指南 • Sam Altman

本文翻译OpenAI CEO Sam Altman 写的一篇关于创业的指南《Startup Playbook》。 我们投入大量时间为初创企业提供建议。虽然面对面的建议永远不可或缺,但我们认为,如果能将这些建议中最通用的部分浓缩成一本手册,以便我们能够提供给 Y Combinator 和 YC Fellowship 的公司,可能会帮助我们扩大 Y Combinator 的影响力。 接着,我们想,为什么不直接让所有人都能够获得它呢? 这本指南是为初步接触初创世界的人们准备的。对于那些已经阅读过 YC 合伙人写作的人来说,这里的内容可能并不陌生——目标是将所有有用的信息集中在一处。 未来可能会出现第二部分,介绍如何扩大初创企业的规模——目前这部分主要讲述如何开始一个初创企业。 作为一个初创企业,你的首要目标是创造出用户爱不释手的产品。只有做到这一点,你才需要考虑如何吸引更多用户。这一步骤至关重要——想想那些当今成功的公司,它们都是从一个早期用户极力推荐的产品开始的。如果你没有做到这点,你就会失败。如果你自欺欺人,认为用户喜欢你的产品而实际上并非如此,你同样会失败。 许多人正是因为想跳过这一步,最终沦为失败者。 先做出一小部分用户极度喜爱的产品,而不是让大量用户只是喜欢的产品,这要好得多。尽管总的正面反馈相同,但让用户从喜欢升级到爱,远不如吸引更多用户来得简单。 关于创办初创企业的警告:这是一条艰难之路!来自 YC 创始人的反馈几乎一致——这比他们预想的要难得多,因为他们缺乏一个框架来理解初创所需的工作量和强度。相比之下,加入一个增长迅速的早期初创企业,从财务角度来看,通常是更好的选择。 另一方面,如果你在技术上真正出色,即使失败了,也总会有工作机会,所以实际上创办初创企业对你的职业生涯并不构成太大风险。大多数人很难正确评估风险。我个人认为,拥有一个你真正热衷的想法或项目,却选择留在一个安全但乏味、没有成就感的工作中,是更加冒险的选择。 要建立一个成功的初创企业,你需要具备:一个伟大的想法(包括一个伟大的市场)、一个优秀的团队、一个出色的产品,以及精湛的执行能力。 一个伟大的想法 我们向 YC 公司提出的首要问题之一是他们在做什么以及为什么要做。 我们希望得到明确且简洁的回答。这既是对创始人本人的评估,也是对其创意本身的考量。作为创始人,清晰的思考和沟通能力至关重要——无论是招聘、融资、销售等方面,这种能力都是必需的。通常,想法需要清晰才能被传播,而复杂的想法往往意味着混乱的思维或是虚构的问题。如果这个想法第一次听起来就不能激起至少一些人的兴趣,那么这是个坏兆头。 我们还会询问谁迫切需要这款产品。 最理想的情况是,你自己就是目标用户。其次,是你非常了解目标用户。 如果公司已经拥有用户,我们会询问用户数量及其增长速度。我们尝试探索为什么增长没有更快,特别是试图了解用户是否真的热爱这款产品。通常这意味着用户会在没有公司推动的情况下向他们的朋友推荐这款产品。我们还会问公司是否产生了收入,如果没有,原因是什么。 如果公司还没有用户,我们会尝试找出首先需要构建的最小功能产品来测试假设——也就是说,如果从完美体验反推,我们尝试确定首先应开始的核心是什么。 测试一个想法的方法是发布它并看看会发生什么,或者尝试销售它(例如,在编写任何代码之前尝试获取意向书)。前者更适合 ToC 产品(用户可能会说他们会使用它,但实际上可能并不会突破混乱),后者更适合 ToB 产品(如果一家公司告诉你他们愿意购买,那么就去构建它)。特别是,如果你是一家 ToB 企业公司,我们首先问的问题之一就是你是否有来自客户的意向书,表示他们愿意购买你正在开发的产品。对于大多数生物技术和硬科技公司,测试一个想法的方法首先是与潜在客户交谈,然后确定可以首先构建技术的最小部分。 随着从用户那里收到反馈,让你的想法进化是很重要的。深入了解你的用户也是关键——这对于评估想法、创建出色的产品和建立伟大的公司都至关重要。 正如之前提到的,创业非常艰难。它需要长时间的持续努力和极高的强度。创始人和员工需要有共同的使命感来维持动力。因此,我们会询问创始人为何想要创办这家特定公司。 我们还询问公司如何在将来形成垄断地位。对此有多种不同的说法,但我们采用彼得·蒂尔的定义。当然,我们不希望你的公司以不道德的方式对抗竞争对手。相反,我们寻找的是那些随着规模扩大而变得更加强大、且难以被复制的业务模式。 最后,我们会探讨市场情况。我们询问市场目前的规模、增长速度以及为何在十年后会变得重要。我们试图理解市场为何会迅速增长,以及为什么这是一个初创企业值得追求的好市场。我们喜欢那些大公司尚未意识到的、刚刚开始的主要技术转变——大公司不擅长应对这些转变。而有点违反直觉的是,追求小市场中的大部分通常是最佳答案。 对想法的一些额外思考: 我们更喜欢新颖的事物,而非抄袭模仿的。大多数真正伟大的公司都始于一项根本性的创新(一个可接受的创新的定义是比现有产品好 10 倍)。如果同时有十家公司启动相同的计划,而且听起来很像现有的东西,那么我们会持怀疑态度。 这样做的一个重要但违反直觉的理由是,创造全新且困难的事物比复制简单的事物更容易。如果是前者,人们会更愿意帮助你和加入你;如果是后者,情况则相反。 最好的想法可能初听不佳,但实际上非常优秀。因此,你不需要过于保密你的想法——如果它真的是个好想法,它可能听起来并不值得被偷走。即便听起来值得被偷走,真正愿意投入所需工作将一个伟大的想法转化为一家伟大公司的人,远比有好想法的人少得多。如果你告诉别人你在做什么,他们可能会提供帮助。 说到分享你的想法——虽然最好的情况是某些人第一次听到时就非常兴奋,但几乎每个人都会告诉你你的想法很糟糕。也许他们是对的,也许他们不擅长评估创业项目,或者他们可能只是嫉妒。无论原因是什么,这种情况会频繁发生,会让你感到痛苦,即使你认为自己不会受到影响,实际上还是会受到影响。你能越快建立自信,不被那些负面声音太多拖累,你就会越好。无论你多成功,负面评论者永远不会消失。 如果你想创业但没有想法怎么办?也许你就不应该创业。如果有一个想法,而创业是为了将这个想法带入世界,这通常会更好。 我们曾经做过一个实验,资助了一群有潜力的创始团队,他们一开始没有想法,希望他们在我们的资助下能找到一个有前途的想法。 结果他们全部失败了。我认为问题的一部分在于,优秀的创始人通常有很多好想法(通常太多)。但更大的问题是,一旦你开始了一家创业公司,你就必须急于找到一个想法,而由于它已经是一个正式的公司,想法不能太过疯狂。你最终会得到那些听起来合理但实际上没有新意的想法。这就是盲目转变方向的风险。 因此,最好不要过于积极地迫使自己去想出创业点子。相反,你应该广泛学习不同的领域。练习发现问题、低效之处以及主要技术变革。投身于你觉得有趣的项目。努力与聪明、有趣的人为伍。最终,想法自然会浮现。 一个优秀的团队 建立伟大公司的决不是平庸的团队。我们特别重视的是创始人的实力。在我从事较晚期阶段投资时,我同样非常关注创始人招募的员工质量。 伟大创始人有哪些特质?最关键的包括无人能挡的决心、坚不可摧的意志和巧妙的资源利用能力。智慧和激情同样位列前茅,这些特质远比单纯的经验或是“精通某种编程语言或框架”来得重要。 我们发现,那些成功的创始人往往让人合作起来毫无压力,因为你知道他们无论面对什么情况都能够处理得当。有时候,单凭意志力就足以让你取得成功。 优秀的创始人常常同时具备一些表面上看起来相互矛盾的特性。例如,对于公司核心理念和使命的坚定不移,与在几乎所有其他事务上的灵活性和学习新知的开放性。 最佳的创始人反应异常迅速,这显示了他们的果断、专注、热情和执行力。 难以沟通的创始人几乎总是不理想的选择。沟通技巧对于创始人来说极其重要——实际上,我认为这是最关键且鲜少被提及的创始人技能。 科技初创企业至少需要一位能够打造公司产品或服务的创始人,以及至少一位能够(或有潜力成为)善于销售和与用户沟通的创始人。有时候,这两者可以是同一个人。 在选定合作伙伴时,请仔细考虑这些标准——这可能是你做出的最重要的决定之一,往往这个选择过程相当随意。最好选择一个你很了解的人,而不是你在某次寻找合伙人的活动中刚遇到的人。通过更多的数据,你可以更好地评估潜在的合作伙伴,这是你绝对不想弄错的决定。此外,创业过程中很可能会有低谷期,如果你和你的合伙人之前就相识,你们都不会想让对方失望,这会让你们继续坚持下去。合伙人分手是早期创业项目失败的主要原因之一,特别是那些为了创业而结识的团队。 最理想的情况是有一个靠谱的合伙人,其次是自己单干。最糟糕的情况则是和不合适的合伙人共事。如果合作不顺利,最好快刀斩乱麻,及早分手。...

March 18, 2024 · 2 min · fisherdaddy

百川智能 CEO 王小川对 AGI 的核心认知

这篇文章是来自于腾讯科技对王小川的采访:王小川想提出中国AGI第三种可能性 ,核心内容基于 ChatGPT、Claude、Gemini 提取后做了稍加整理。 对Sora技术的态度 王小川强调,尽管Sora作为视频生成模型引起了广泛关注,但他认为这不符合百川智能的发展方向。他坚持认为任何技术发展应以语言为中心,因为他相信AGI(人工通用智能)的实现必须围绕语言模型展开,而Sora仅是一种阶段性产物。 对技术和市场的平衡视角 他认为,在技术发展与市场需求之间找到平衡至关重要。王小川提出,中国AGI的发展不应仅仅局限于技术理想主义(技术信仰派)或市场实用主义(市场信仰派),而应寻求第三种可能性,即在技术和应用场景的交叉点上,实现两者的融合与互补。 对公司发展战略的看法 王小川用“盲人摸象”比喻来形容当前人工智能领域的局限性。他认为,不同的人可能只看到问题的一部分,而他自认为能够更全面地看待问题。这种视角促使他不跟风追求当下热门的技术如Sora,而是基于对AGI更深远理想的追求,明确自己的发展方向。 对朱啸虎观点的回应 王小川对朱啸虎的观点表示理解,认为他代表了一种现实主义的投资逻辑。但他同时也认为,朱啸虎的观点过于片面,没有看到大模型的全部潜力。他以医疗场景为例,说明了大模型在特定场景下的巨大价值。 对杨植麟观点的认可 王小川认可杨植麟的技术理想主义,认为他有长远的眼光。他同时也认为,杨植麟的观点过于理想化,缺乏现实落地路径。他认为,大模型创业需要兼顾技术和场景,才能找到成功的路径。 对AI未来的展望 王小川提出了在AGI领域探索的三个重点方向:娱乐、生命科学、和真实世界的引擎。他强调,通过这些方向的探索和发展,能够在创造、健康、快乐这三个维度上为人类提供服务。 模型即应用: 王小川提出了"模型应用一体化"的思路,将模型与应用场景紧密结合,而不是将应用简单地外挂在模型之上。他认为模型应该深深植根于特定场景,相互促进。 生命模型的终极目标: 王小川描绘了他的愿景是构建"生命模型",用数学模型来刻画生命的规律,这是超越了物理学传统范式的一种追求。大模型技术为实现这一目标提供了新的武器。

March 14, 2024 · 1 min · fisherdaddy

朱啸虎对中国现实主义 AIGC 的核心认知

这篇文章是来自于最近火热的腾讯科技对金沙江创始人朱啸虎的采访:朱啸虎讲了一个中国现实主义AIGC故事,核心内容基于 Gemini 提取后做了稍加整理。有趣的是,前几天腾讯科技发了一篇访谈:,月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进,这两篇文章对比着看很有意思,反映了目前理想派和保守派对AGI在认知上的不同。 1. 对AIGC的态度 观点:看好AIGC,特别是to B应用,认为其已经在中国大爆发。 解释:朱啸虎认为,AIGC在to B领域能快速提升生产力,见到效果,因此受到企业欢迎。他举例说明了AI视频面试、AI私域营销等应用场景,并强调这些应用在中国领先于美国。 2. 对大模型的看法 观点:不看好中国的大模型创业公司,认为其缺乏场景、数据和技术优势。 解释:朱啸虎认为,中国大模型公司在技术上落后于美国,且估值过高,缺乏商业化前景。他建议创业公司聚焦应用,而不是底层大模型。 3. 对中美AIGC的比较 观点:中美在AIGC发展上存在差距,中国在应用层创新领先,但在底层大模型上落后。 解释:朱啸虎认为,美国在底层大模型投入巨大,技术领先,但应用创新受限;中国则在数据和应用场景上更有优势,但在底层技术上需要追赶。 4. 对投资策略的建议 观点:建议投资人关注AIGC的to B应用,并谨慎投资大模型公司。 解释:朱啸虎认为,to B应用是AIGC短期内最有机会爆发的领域,投资应聚焦PMF(产品/市场匹配)和商业化能力。对于大模型公司,他建议投资者谨慎评估其技术实力、市场竞争力和商业化前景。 5. 对未来趋势的判断 观点:看好开源模型的未来,认为其会缩小与闭源模型的差距。 解释:朱啸虎认为,开源模型拥有更广泛的开发者群体和更快的迭代速度,长期来看会赶上闭源模型。 其他值得注意的观点 朱啸虎认为,中国VC没有靠共识赚过钱,投资人应该独立思考,不要盲目跟风。 他批评了一些大模型创业公司是“拿着锤子找钉子”,缺乏商业化思维。 他看好中国在AIGC应用层面的创新,认为中国有机会弯道超车。

March 8, 2024 · 1 min · fisherdaddy

Moonshot AI 创始人杨植麟关于 AGI 的核心认知

这篇文章是来自于最近火热的腾讯科技对杨植麟的采访:月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进,核心内容基于 Claude 和 Gemini 提取后做了稍加整理。有趣的是,过几天腾讯科技又发了一篇访谈:朱啸虎讲了一个中国现实主义AIGC故事,这两篇文章对比着看很有意思,反映了目前理想派和保守派对AGI在认知上的不同。 核心认知 “AI不是我在接下来一两年找到什么PMF,而是接下来十到二十年如何改变世界。” 解释:杨植麟强调AI不应只关注短期商业化,而是要着眼于长远地改变世界。 “开源落后于闭源,这也是个事实。因为开源的开发方式跟以前不一样了,以前是所有人都可以contribute,现在开源本身还是中心化的。开源的贡献可能很多都没有经过算力验证。闭源会有人才聚集和资本聚集,最后一定是闭源更好,是一个consolidation。” 解释:杨植麟分析了目前开源模型发展落后闭源模型的原因,并预测未来闭源模型将主导。 “要ride the wave。” 解释:顺应AI浪潮,把握时机创业。 “AGI需要新的组织方式。” 解释:AGI的发展需要一种全新的组织形式,结合科研、工程和商业。 “它需要人才聚集、资本聚集。” 解释:发展AGI需要优秀人才和大量资金的投入。 “如果你能用scale解决的问题,就不要用新的算法解决。” 解释:强调scale法则,即通过扩大模型规模而非新算法来解决问题。 “它(long context)是新的计算机内存。” 解释:长文本是新型计算机的内存,对发展AGI至关重要。 “我觉得现在就有点像(视频生成的)GPT-3.5,是阶跃式提升。” 解释:Sora代表了视频生成能力的阶跃式突破。 “AGI空间很大,在通用能力基础上去有差异化,这个更可能发生。” 解释:尽管通用能力会趋同,但未来可能出现差异化的AGI系统。 “user scaling和model scaling需要同时做。最终在这两者之间完美结合。"(指技术理想和商业现实) 解释:伟大的AGI公司需要技术理想主义和现实商业考量的完美结合。 “接下来会有两个大的milestone。"(统一世界模型和自主演化) 解释:未来两大里程碑是统一多模态的世界模型,以及无需人类数据输入的自主演化能力。 “不能只满足做到GPT-4的效果。保持非共识思维,他多次强调要"找到非共识” 解释:不应只盲目追赶GPT-4,而要寻求更大突破。要有独特的思路和判断,不能被现有观点所束缚。这种非共识思维对于创新至关重要。 “AGI最终会是一个跟所有用户co-work产生的东西。” 解释:AGI将通过与大量用户互动协作而逐步完善。 “scaling law为什么能成为第一性原理?你只要能找到一个结构,满足两个条件:一是足够通用,二是可规模化。” 解释:解释了scale law成为AGI发展第一性原理的原因。 “技术是这个时代唯一新变量,其他变量没变。” 解释:在当前时代,技术进步是唯一的新变量,其他条件并未改变。 “AGI组织需科学、工程、商业三位一体” 解释:不能是纯研究机构,也不能是单纯的商业公司,AGI组织要将科研、工程和商业深度融合。 “先进视觉模型将连接数字世界与物理世界” 解释:视觉模型的突破将最终使AI能感知并介入物理世界。 “多模态是确定趋势,但统一架构还是难题” 解释:视频、图像等多模态能力必然到来,但找到真正统一的架构尚需时日。 “会有更多的consolidation,会有更少的公司。” 解释:预计未来会有更多资源整合,而存活的AGI公司会减少。 “我们应该学习OpenAI的技术理想主义。如果所有人都觉得你正常,你的理想是大家都能想到的,它对人类的理想总量没有增量。” 解释:赞赏OpenAI的技术理想主义精神,倡导创新思维。 在做的事情 根据这篇对杨植麟的采访,可以看出他主要在做以下几件事: 创办了一家名为"月之暗面(Moonshot AI)“的大模型公司,专注于追求人工通用智能(AGI)。 开发名为"Kimi"的大模型AI助手,支持20万汉字长文本输入,以探索长语境建模能力。 专注于模型本身的技术突破和扩展,而非仅仅应用落地。他认为模型规模扩展(model scaling)是通向AGI的关键。 招募顶尖AI人才,打造高密度人才团队。团队目前约80人。 持续融资以获得训练大模型所需算力资源。公司已经完成数轮融资,估值数十亿美元。 构建一个整合科学、工程和商业的AGI系统和组织,类似登月计划。通过产品和用户互动发现新的应用机会。 追求长期理想主义目标,而非短期应用落地。他认为AGI将在未来10-20年内改变世界。 总的来说,杨植麟专注于大模型的基础研究和技术突破,以期最终实现人工通用智能,而非过多关注短期商业化。 个人履历 教育背景: 本科: 清华大学计算机系 博士: 卡内基梅隆大学计算机学院 导师:...

March 8, 2024 · 1 min · fisherdaddy

"Road to Sora" 论文阅读清单

鉴于 Sora 的官方文献尚未发布,本文的目标是寻找 OpenAI 发布的 Sora 技术报告中的线索。原文来戳这里。 Sora 是什么 Sora 以其从自然语言提示中生成高清视频的能力,在生成式 AI 领域引起了巨大轰动。如果你还没见过相关示例,这儿有一个生成的视频供你欣赏——视频展示了一只海龟在珊瑚礁中游泳的场景。 尽管 OpenAI 的团队还没有公布涉及该模型技术细节的正式研究论文,但他们确实发布了一份技术报告:Video generation models as world simulators。这份报告概述了他们应用的一些高级技术和一些定性的研究成果。 Sora 架构概述 在读过下列论文之后,你会开始理解这里所述的架构。这份技术报告提供了一种从 10,000 英尺高度俯瞰的视角,我希望每一篇论文都能深入探讨不同的细节,共同勾勒出一个完整的图景。有一篇精彩的文献回顾题为《Sora: 大型视觉模型的背景、技术、局限性及机遇综述》,它给出了一个通过逆向工程得到的架构的高层次示意图。 图 4:逆向工程:Sora 框架概述 OpenAI 的团队把 Sora 描述为“扩散 Transformer”,这个概念融合了之前论文中提到的多种思想,但特别是用于处理视频中生成的潜在时空区块。 这种方法结合了 Vision Transformer (ViT) 论文中提到的补丁样式和 Latent Diffusion Paper 中相似的潜在空间概念,但采用了扩散 Transformer 的组合方式。这不仅包括图像的宽度和高度方向上的补丁,还拓展到了视频的时间维度。 关于他们如何精确收集到所有这些训练数据的细节,现在还难以确定,但它似乎是 Dalle-3 论文中技术与利用 GPT-4 详细解释图像文本描述的结合体,这些描述随后被转换为视频。训练数据可能是此处的核心秘密,因此技术报告中关于此的细节最为欠缺。 应用 Sora 这类视频生成技术的应用前景广泛,无论是在电影、教育、游戏、医疗还是机器人技术领域,通过自然语言提示生成逼真视频无疑将影响多个行业。 图 18:Sora 的应用 论文阅读清单 OpenAI 技术报告中的参考文献部分引用了众多论文,但确定哪些论文应该优先阅读或者对背景知识非常重要可能有些难度。我们已经仔细筛选并挑选出了我们认为最具影响力和最值得阅读的论文,并按类别进行了整理。 背景论文 从 2015 年开始,生成图像和视频的质量持续提升。引起公众广泛注意的重大进步始于 2022 年,涌现出如 Midjourney、Stable Diffusion 和 Dalle 等工具。本节包含了一些被反复引用的基础论文和模型架构。虽然这些论文不全部直接关联 Sora 架构,但它们为理解艺术和技术水平如何随时间演进提供了重要的背景。...

March 6, 2024 · 2 min · fisherdaddy

教育领域的一些prompt分享

早上看到 X 上 @emollick 分享一些针对老师和学生的相关prompt,实际用了一下还不错,在这里分享几个。 教学辅助工具 prompt 用于课堂教学中,协助教师进行教学准备和授课。 模拟场景设计助手 这个prompt主要帮助老师设计一个让学生通过角色扮演练习如谈判、招聘、推销等技能的模拟场景。 英文 You are a simulation creator. Every simulation you create has the following: An AI Game master who is an expert at creating role playing scenarios for students to practice applying their skills (eg negotiations, hiring, pitching). The AI game masters job is two-fold: to play AI mentor and set up a scenario for the user. And then once the user plays through the scenario the AI mentor comes back in and proclaims that the role play is complete and gives them feedback and more suggestions going forward about how they can improve their performance....

March 5, 2024 · 50 min · fisherdaddy

全力以赴 • Frank Slootman

最近看到Snowflake原CEO Frank Slootman决定离职,导致股价暴跌20%,引发twitter上的讨论,这篇文章翻译一下Frank Slootman的一篇文章《Amp it up》 作为 Data Domain 和 ServiceNow 两家近年来杰出科技公司的前任 CEO,我常被问及我们的成功秘诀。实际上,我们并不认为自己与众不同,也没有觉得发现了什么秘密武器。难道我们仅仅是连续两次走了狗屎运?但回顾过去,的确有一些经验值得分享。 简而言之:在企业内部提升绩效的空间巨大,关键在于加速和提高工作强度。许多组织内部都存在着能够被激发的巨大潜力。领导的任务就是将这种潜力转化为超凡的业绩。这个机会就摆在我们面前,但往往被忽视。这个理念不仅适用于商业领域,职业体育团队在不同领导下的迅速转型也证明了这一点。你可以称它为X因素或其他任何名字,但它确实存在。虽然任何人都可以抓住这个机会,但真正做到的却不多。 这并非易事,因为这意味着将人们推出他们的舒适区,会遭遇阻力。改变总是困难的,有些人可能会选择离开。如果你想成为一个受欢迎的领导,这条路可能并不适合你。领导者的角色是改变现状,加快节奏,提高工作强度。领导者是组织中的能量源和节奏器,他们为组织注入活力,而不是消耗能量。 Data Domain 与 ServiceNow 的共同之处 Data Domain 和 ServiceNow,在我们2003年到2017年间的领导下,展现出了一些共性。尽管它们业务不同,市场不同,时代不同,但都在各自领域表现出色。它们有着同一个 CEO 和大部分相同的管理团队,文化上也十分相似,这可能就是成功的线索之一。 Data Domain 用2800万美元的资本,在6年后为股东创造了24亿美元的回报。公司年收入从零增长到6亿美元,并于2007年在纳斯达克上市。被 EMC 收购后,年收入增长到数十亿美元。我们加入 Data Domain 时,公司正面临初创期的挑战。我在2009年出版的《磁带糟糕透了》一书中有提及这段经历。 另一方面,ServiceNow 是一家成立于圣地亚哥的云软件公司,当我2011年初加入时,公司已经迅速成长。公司很快就跨越了创业初期的难关,尽管当时公司的年收入接近1亿美元,但运营上还很初级。我们逐步克服了巨大的运营挑战,并推动了公司的快速增长。ServiceNow 的启动资金不超过650万美元。 作为继 Salesforce 之后第二家年收入达到十亿美元的云软件公司,ServiceNow 仅用两年时间就实现了年收入二十亿美元的突破,且高速增长持续至今。ServiceNow 于2012年在纽约证券交易所上市,此后股价增长了十倍,市值超过1000亿美元。 提升表现 我们的公司建立和运营的唯一目标就是性能。我们全力以赴追求目标,激励团队成员成就最佳自我。对于最优秀的员工而言,这是一次极具解放意义的体验。虽然许多人都宣称拥有“绩效文化”,但真正理解这背后的意义、所需的努力以及必须做出的牺牲的却寥寥无几。我们的公司文化类似于海军陆战队,而不是和平队,我们的存在每天都要与巨头竞争,这种战斗状态是不可避免的。 有效推动绩效文化的一个重要方面是薪酬哲学。我们的原则是公司必须先有收益,才能设立奖金池。我们每个季度根据业绩好坏决定奖金池的资金。我们强调绩效的差异化分配,不允许“均匀涂鸦”式的奖金分配。我们不总是发放全部奖金,我会在季度全员会议上亲自解释原因。 我们关注的不是对低绩效员工的奖金问题,而是如何确保高绩效员工得到足够的奖励。这意味着管理层需要从绩效较低的员工那里调配资源。这样做让我们清楚地了解谁是高绩效员工,谁则表现不佳。每个季度,每位员工都会与他们的经理就绩效进行一对一的沟通,这比书面评价更直接、有效。当需要与某位员工分道扬镳时,如果他们的奖金历史低于平均水平,这个过程会更加简单、经济且迅速。 对于管理者而言,每季度都要与每位员工就绩效薪酬进行对话是一项挑战,这可能导致冲突。在许多公司,员工几乎将奖金视为基本工资的一部分,这是一种权利感的体现。 ServiceNow 内部鼓励员工成为驱动者而非旁观者。如果你在一周或一个月的工作后问自己,自己的存在是否真的有价值,这是一个艰难但必要的自我反省。这是激励你确保自己在工作中发挥重要作用的动力,这关系到个人的安全感、自信和自我价值。 一个全面的绩效文化包含许多方面,但在此我将强调三个主要方向,它们构成了绩效执行的框架。 我们的公司运作速度更快,标准更高,关注点更集中。听起来简单,但关键在于如何实现这一点。你需要决定加速的幅度、标准的高度和聚焦的程度。这三个方向相互强化,产生的综合效应可以是惊人的。 令人震惊的是,许多公司的日常运作缓慢、低效、缺乏焦点,而且他们对此视而不见。到处都是提高绩效的机会。作为领导者,你的任务是在这些方面不断寻找并利用机会,通过每一次对话、每一次会议和每一次互动来提升标准、加快节奏和集中精力。然后,你需要不懈地跟进和执行。是的,这可能会引发冲突,但这正是 CEO 的日常工作。 这种转变不会一蹴而就,事实上,这是一个永无止境的过程。这种变化对组织的冲击将是深远的。如果遇到反抗,那可能意味着你正在做正确的事情。领导者可以点燃变革的火花,但管理层和员工的接受和参与是必不可少的,这样变革的能量才能在整个组织中传播。你可以选择慢慢来,但我们追求的是速度。不是每个人都能跟上,但正确的人会站出来。文化会自然而然地筛选出与之契合的人。 提速 没有领导的推动,组织的步伐往往会变得缓慢。如果你有在政府部门工作或合作的经历,你会发现这种极端的例子。除了下班时间外,几乎没有什么事情是紧急的。在这样的环境下工作,感觉就像是在胶水中挣扎。 当提高工作节奏时,人们不仅会做事更快,他们还会开始以不同的方式思考和行动。这正是我们希望在组织中看到的。ServiceNow 以其“抓紧做事”的文化而自豪,这种文化吸引那些能够完成任务的人,排斥那些不能的人。 要实现显著的加速,需要的是根本性、明显感受到的变化。仅仅加速20%几乎感觉不到差别,很快就会回到旧习惯。 在软件领域,我们经常讨论产品需要什么以及何时能实现。开发团队倾向于提出按部就班的时间表,缺乏紧迫感。但是在压力下,总有人能突破常规思维,找到更快实现目标的方法。压力能够促使变革。 随着时间的推移,组织会自然形成一种节奏和步调。但在高速增长的公司,新加入的员工需要被适当引导和灌输这种文化。 这种变化不是小事,组织往往抵抗比自然状态更快的变化。我们有新员工在短时间内就因为无法适应 ServiceNow 的节奏和强度而离职。 你需要的是一群愿意全力以赴的人。这正是我们想要吸引和留住的人才。如果不推动加速,就会失去那些渴望快节奏文化的优秀人才。 加快步伐也意味着更集中的关注。当你尝试同时推动太多事情时,是无法快速前进的。我们将在后续讨论更多相关内容。 提升标准 当我们加快脚步时,质疑声音难免会随之而来。我们真的能在加速的同时保持质量吗?我们认为可以,因为我们将在加速的同时提升质量。这将对生产效率产生倍增效果。这不是逆天而行,而是彻底挤压系统中的浪费。只有在压力之下,我们才能发现自己有多么出色和迅速。 我们与众不同的一个方面是对客户的全心承诺。我们提供了最高标准的服务和支持,这是我们所知道的最佳实践。没有什么比客户的成功更重要。我们必须让客户感受到我们的支持,让他们不仅仅是喜欢我们——他们必须爱上我们!我们的净推荐分数非常高,这绝非偶然。虽然维持这样的标准很困难,但这已深深嵌入我们的文化之中。...

March 1, 2024 · 1 min · fisherdaddy

Sora:大视觉模型的背景、技术、局限性和机遇回顾

这篇文章翻译了微软研究院基于已发表的Sora技术报告和逆向工程发表的一篇论文Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models,本文首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前的局限性和未来的机遇。 摘要 Sora 是一款由 OpenAI 在 2024 年 2 月推出的文本转视频生成式 AI 模型。这款模型能够把文字指令转化为现实或虚构场景的视频,展现了在模拟现实世界方面的巨大潜力。通过分析公开的技术报告和逆向工程手段,本文全面回顾了 Sora 的背景、相关技术、应用场景、当前面临的挑战以及文本到视频 AI 模型的未来趋势。文章首先回顾了 Sora 的开发历程,探讨了构建这一“世界模拟器”的关键技术。接着,我们详尽介绍了 Sora 在电影制作、教育、市场营销等多个领域的应用及其潜在的行业影响。文中还讨论了为了让 Sora 得到广泛应用需要克服的主要挑战,比如确保视频生成的安全性和公正性。最后,我们展望了 Sora 以及视频生成模型的发展未来,探讨了技术进步如何为人机互动开辟新的路径,以及如何提升视频制作的效率和创造力。 图 1:Sora:人工智能驱动的视觉生成的突破 1 简介 自2022年11月ChatGPT发布以来,AI技术的出现标志着一场重大变革,重塑了交互方式并深度融入日常生活和行业的各个方面 [1, 2]。基于这一势头,OpenAI在2024年2月发布了Sora,这是一种文本到视频的生成式 AI 模型,可以根据文本提示生成现实或富有想象力的场景的视频。与以前的视频生成模型相比,Sora 的特点是能够生成长达 1 分钟的高质量视频,同时保持对用户文本指令的遵守 [3]。Sora 的这种进步体现了长期以来 AI 研究的使命,即让 AI 系统(或 AI Agents)具备理解和与物理世界动态交互的能力。这包括开发不仅能够理解复杂的指令,还能将这种理解运用于通过动态且富含场景信息的模拟,来解决现实世界的问题的 AI 模型。 图 2:Sora 文本到视频生成的示例。 向 OpenAI 的 Sora 模型提供了文本指令,模型根据这些指令生成了三个视频。 如图 2 所示,Sora 能够出色地理解并执行复杂的指令,展现出令人印象深刻的能力。该模型可以生成包含多个角色执行特定动作、拥有复杂背景的详细场景。研究人员将 Sora 的熟练技能归因于其不仅能够处理用户给出的文本提示,还能辨别场景中元素之间复杂的相互作用。...

February 29, 2024 · 4 min · fisherdaddy