OpenAI官方指南:Fine-tuning

学习如何为您的应用程序定制模型。 介绍 微调可以通过以下方式让您更好地利用 API 提供的模型: 比直接使用提示获得更高质量的结果 可以训练比提示中更多的示例 由于提示更简短,节省 Token 请求延迟更低 OpenAI 的文本生成模型已经在大量文本数据上进行了预训练。为了有效使用这些模型,我们通常在提示中包含说明和几个示例。这种通过示例展示任务的方法称为“少样本学习”。 微调通过在提示中包含更多示例来改进少样本学习,从而在许多任务上获得更好的结果。一旦模型经过微调,您不需要在提示中提供那么多示例。 这样可以节省成本并降低请求延迟。 微调一般包括以下步骤: 准备并上传训练数据 训练一个新的微调模型 评估结果,如有需要返回第一步 使用您的微调模型 访问我们的定价页面,了解微调模型训练和使用的费用。 哪些模型可以微调? GPT-4(gpt-4-0613 和 gpt-4o-*)的微调处于实验性访问计划中,符合条件的用户可以在创建新的微调任务时在微调界面中申请访问。 目前以下模型可以进行微调:gpt-3.5-turbo-0125(推荐),gpt-3.5-turbo-1106,gpt-3.5-turbo-0613,babbage-002,davinci-002,gpt-4-0613(实验性),以及 gpt-4o-2024-05-13。 如果您获得了更多数据且不想重复之前的训练步骤,还可以对一个已经微调的模型进行再次微调。 我们认为gpt-3.5-turbo在结果和易用性方面对于大多数用户来说是最佳选择。 何时使用微调 微调 OpenAI 的文本生成模型可以让它们更适合特定应用,但这需要大量的时间和精力投入。我们建议首先尝试通过提示工程、提示链(将复杂任务分解为多个提示)和函数调用来获得良好结果,主要原因包括: 我们的模型在许多任务上的初始表现可能不佳,但通过正确的提示可以改善结果,因此可能不需要微调 提示迭代和其他策略的反馈循环比微调更快,而微调需要创建数据集并运行训练任务 在需要微调的情况下,初始的提示工程工作不会浪费 - 通常我们会在微调数据中使用良好的提示(或结合提示链和工具使用与微调)时获得最佳效果 我们的提示工程指南提供了不进行微调而提高性能的一些最有效策略和技巧。您可以在我们的playground中快速迭代提示。 常见用例 以下是一些微调可以改善结果的常见用例: 设置风格、语气、格式或其他定性方面 提高生成所需输出的可靠性 纠正未能遵循复杂提示的错误 特定方式处理许多边缘情况 执行在提示中难以表达的新技能或任务 一个高层次的思路是,当“展示”比“说明”更容易时。在接下来的部分中,我们将探讨如何设置微调数据以及微调在基线模型上提升性能的各种示例。 另一个微调的有效场景是通过替换 GPT-4 或使用较短的提示来减少成本和/或延迟,而不牺牲质量。如果您能用 GPT-4 获得良好结果,通常可以通过在 GPT-4 结果上微调gpt-3.5-turbo模型并缩短指令提示,达到类似的质量。 准备您的数据集 一旦您确定微调是正确的解决方案(即您已经优化了提示并发现模型仍有问题),您就需要准备训练模型的数据。您应创建一组多样化的示范对话,这些对话与您在生产中要求模型响应的对话类似。 数据集中的每个示例都应该是与我们的聊天完成 API相同格式的对话,具体来说是一系列消息,每条消息都有一个角色、内容和可选名称。至少一些训练示例应直接针对模型在提示中表现不佳的情况,并且数据中提供的助手消息应是您希望模型给出的理想响应。 示例格式 在这个例子中,我们的目标是创建一个偶尔会给出讽刺回复的聊天机器人,以下是我们可以为数据集创建的三个训练示例(对话): {"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic....

July 22, 2024 · 8 min · fisherdaddy

雷军年度演讲精华合集

雷军今年做了第四年的年度演讲,今年的主题是《勇气》,每次看完雷总的演讲都会热血沸腾,非常钦佩雷总的学习能力和勇气。这篇文章我摘要雷总每年的演讲精华,常看常新。 2024《勇气》 雷军在2024年度演讲中,以“勇气”为主题,讲述了小米造车的全过程,强调了勇气在面对巨大挑战和不确定性时的重要性。他回顾了小米在遭遇美国制裁后,决定进军汽车行业的艰难历程,并分享了团队在研发小米SU7过程中克服的种种困难。雷军认为,勇气不仅仅是口号,而是每一步脚踏实地的行动,是冲出重围的关键。 造车起因与决策过程: 2021年1月15日,小米因美国制裁面临巨大危机,有一个董事建议,要不要考虑一下造车。 组成了一个6人的调研组,70多天的时间里马不停蹄去了10多个城市,我们调研了85场,访谈200多人,4次高管会。 在3月24号的董事会汇报中,我讲到智能电动车是大势所趋,而且汽车行业正在和消费电子行业相融合,我觉的小米必须干。 如果我们要造车,首先要有长期打算,其次一定要奔着全球前五去。这意味着要准备烧很多钱,我们当时认为最少要100亿美元。 经过董事会激烈的讨论后,给了我一个肯定的答复:支持我造车。但由于投入过大,雷军本人必须带队亲自干。 3月30号,我正式回复了董事会:如果这件事情小米必须干,如果大家觉得我合适。为了小米,我愿意挺身而出。 当天我们就正式公告了,小米下场造车,雷军带队,十年内全资投入100亿美元。这几个消息震撼了全行业,当天晚上我们举办了发布会。 研发与团队建设: 小米组建了超过1000人的团队,经过三年多的努力,团队人数已超过7000人。 雷军强调核心技术的自主研发,电机、电池包、智能驾驶等领域均投入巨大。 面对挑战与危机: 到了2021年年底春节前,第一次项目的正式评审会开始,我们大家都挺激动。结果呢,这个会开下来开的特别郁闷,大家的分歧特别大,最后下决心,整个产品方案推到重干。 春节后临时召集的会,谁也没有想到,一开开了整整21天,开了一个马拉松式的会议。20天的会我总结下来,我觉得形成了一个最重要的共识,就是小米作为一个新来者,只要能顺利上牌桌,就是巨大的成功。 很多人问我,你们当年为什么能把车造出来,最关键就是这句话,就是:小米造车要尊重行业规律,守正出奇,要先守正再出奇,不要一上来就颠覆,一上来就掀桌子。 研发过程中经历了疫情等多重挑战,团队坚持从核心技术做起,不走捷径。 当我决定造车的那天起,我就下决心自己开车,重新开始开车、借车开、去4S店试车开,一般会问三个问题:1、这辆车好在哪里,不好在哪里;2、你当时为什么要买这辆车;3、假如你要换车,你打算换一辆什么样的车。不知不觉三年下来,我大概试驾了170多辆车。我整理了一下笔记和资料,居然有20多万字。 考赛车驾照:不仅仅自己练,还逼着小米的团队也去练,管理团队和工程师超过了100人拿到了赛照 雷军亲自参与各个关键节点的测试,包括冬测、夏测和长途自驾测试。 市场与销售策略: 真正的困难是我们7000人无数的心血做的SU7,在上市前的两三个月跟大家沟通交流的时候,居然发现所有人都认为卖不动。几个部门给我整了三份报告,每一份洋洋洒洒几十页,我看完都只有核心一句话:人家34C的用户买的全是品牌,为啥要买你SU7呀? 然后我就让市场部请一些媒体的朋友们来帮忙出主意,一共请了23位。我也万万没想到,绝大部分人都不看好。他们认为,能月销3000辆就要烧高香。这就是当时大家的结论,我觉得大家说的都是心里话啊。当然,我有点不服气,然后尝试去说服他们,但还是改变不了他们的观点。最后,这让我无比绝望,整个团队都笼罩在焦虑当中。 在我最郁闷的时候,我想起了我自驾的一辆车,是一辆福特野马,我跟同事借的,这辆车是他工作了十年之后积攒的钱买给自己的奖励。他跟我说,每天早晨一上班,坐到车里,踏下油门的那一刹那,他就热血沸腾。每天晚上回家,还在车着坐一会儿再上楼。我此时此刻都能回想起他当时给我讲的这些话造成的冲击。我真的相信,人生值得被奖励,这就是一辆Dream car的意义。 我们的小米SU7其实就是为他乡的奋斗者设计的,所以我相信人们对Dream car的向往。我相信,三年多时间,我们整个团队全力以赴的投入,我也相信小米SU7的魅力和强大的产品力,无论多少人不看好,但我始终坚信SU7一定会大卖。 其实真正考验我的信心是今年二月份要确定全年产能,要订多少货。在这个时候,我的这份自信让我下了决心:76000辆。我从第一天就下的目标就是数一数二。如果卖不出去对我们来说是个灭顶之灾,我深知这是个疯狂的目标。但我也很清楚,其实我们没有退路,我们就像过河的卒子一样,只能拼命往前冲。 在巨大的焦虑,离发布的日期就越来越近了,更大的难题是:定价。价格定错了,后果不堪设想,上百亿的损失,三年的时间付诸东流。纯电车成本很高,除了特斯拉,几乎所有纯电车都在巨额亏损,所以合理定价,业务才能持续成长,超低价只是饮鸩止渴。雷军坚持SU7的高品质定位,最终确定价格为215900元。 小米SU7在发布后获得了市场的热烈反响,预定量迅速突破。 个人投入与信念: 雷军通过亲自试驾170多辆车、学习赛车等方式,深入了解汽车行业。 他强调,勇气来源于坚定的信念和每一步的脚踏实地,是人类最伟大的赞歌。 未来展望: 小米SU7的成功标志着小米汽车正式进入市场,但雷军表示,真正的成功还在未来,需要继续努力。 他呼吁全体员工和合作伙伴继续保持勇气和决心,共同迎接未来的挑战。 2023《成长》 雷军在2023年的年度演讲中分享了他个人成长和创业的经历,并宣布了小米科技战略的升级。演讲涵盖了他的求学经历、创业之旅以及小米在高端市场的探索。他强调了梦想和坚持的重要性,并详细介绍了小米未来的科技战略和新品发布。 成长经历 求学经历: 梦想的起点:雷军在武汉大学读书期间受《硅谷之火》启发,立志创办一家伟大的公司。 第一个目标:两年修完所有学分,通过请教学长、自学和积极与老师互动,最终成功。 遇到问题,第一时间找个懂的人问问。很多人觉得,自己遇到的问题,只能自己琢磨、自己搞定。实际上,无论你遇到什么问题,别人可能都遇到过,都解决了,甚至都有标准答案,你只要找人问问就可以。 关于自学。遇到实在看不懂的,先跳过去,咬着牙往下读,像看小说一样,坚持从头读到尾;一本书,这样反复多读几遍,基本就能搞懂。 第二个目标:成为优秀的程序员,通过在机房蹭电脑、在纸上写程序等方法,提升编程技能。 第三个目标:在学报上发论文,通过研究计算机病毒并写论文,成功发表在《计算机研究与发展》。 创业之旅: 第一款商业软件:与王全国合作开发加密软件 BITLOK,取得商业成功。 一个人能力再强,也是有限的,找互补的朋友一起干,更容易成功。 第一次创业:与学长合伙创业公司“三色”,因缺乏经验最终失败。 办公司太不容易了,光有技术是不够的,还有太多东西要学,尤其是商业方面的基本功。 加入金山:在金山公司成长为管理者,并强调团队合作的重要性。 在金山内部,有句话我们经常讲,一个人可能走得更快,但一群人走,才能走得更远。这就是金山35年最重要的经验。 创办小米:怀揣梦想,创办小米公司,推动中国制造业的发展。 小米高端探索的历程 起步与挑战 小米从小米10开始进军高端市场,虽然小米10取得了初步成功,但小米11和小米12连续两代产品不达预期,面临重大挫折。 春节后上班的第一天,我紧急召集了一次讨论会。这就是小米历史上规模最大的专项战略讨论会,所有部门的总经理都参加了。我鼓励大家畅所欲言,放开了说。也许刚过完年,气氛非常融洽,但争论非常激烈,从中午开到晚上。我反复说服大家:我们创业的梦想就是把小米做成全球知名的科技品牌。无论多难,我们一定要坚持使用小米品牌做高端。还有,消费电子行业,竞争极其激烈,只有做高端,才能倒逼我们在技术上寻求突破,赢得未来生存和发展的空间。 最后,大家终于达成了共识,高端是我们发展的必由之路,更是生死之战!不能有任何动摇,必须死磕到底!我们正式把“高端化”定为集团战略! 影像技术的突破 小米设立了单独的相机部,目标是超越友商,达到DXO评测全球第一。 在DXO评测中,我们首先进入前三,接着第二,然后做到了并列第一。为了夺取DXO第一,我们团队接着又花了两年多时间准备了小米11 Ultra,传感器是我们专门定制的,参数全部拉满,调校也下了巨大功夫。发布前一天,我们终于收到通知:DXO评分,全球第一! 结果,谁没想到,产品首发第一天,就被用户疯狂吐槽。这么牛的影像,“DXO全球第一”,为啥用户还不满意呢?大家都有些懵了。经过痛苦的反思,大家彻底明白了,参数到顶、DXO全球第一,并不代表拍照好,更不代表用户满意。 我提议找徕卡聊聊。我认为,只要徕卡是这个世界上最好的老师,只要我们用心学,我们的能力就一定会成长!我还专门问了很多摄影师,每个人都说,徕卡是影像界的传奇,地位和实力都是顶级的。 签约后的第一件大事,你可能想不到:办班!办摄影班!因为我深知,只有懂摄影、爱摄影,才能真正做好影像。我们正式请徕卡到小米科技园来办摄影班,我逼着核心团队成员全部来上课。 摄影文化的种子一旦种下,很快就生根发芽。公司内部,大家组织了各种形式的摄影培训和员工影展,同学们参与的热情都特别高。我们还交了很多专业摄影师朋友,在长城上,还办了一次规模盛大的摄影展。 小米与徕卡共同推出了“徕卡双画质”,包括“徕卡经典”和“徕卡生动”两种影调,成功获得用户和专业摄影师的认可。 小米13的成功...

July 20, 2024 · 1 min · fisherdaddy

快速微调击败专有模型

本文探讨了如何通过快速微调开源嵌入模型,以更低的成本和更高的准确性超越专有模型(如 OpenAI 的 text-embedding-3-small)。文章首先介绍了微调的基本概念,然后通过实验展示了在简单问答任务中所需的微调数据量。作者强调,利用开源模型和可扩展的基础设施,初创企业可以在没有大量用户数据的情况下,快速启动并优化其模型,进而形成数据飞轮效应。 微调的重要性: 微调可以使模型更好地适应特定任务,提供比现成模型更好的性能。 数据飞轮的概念:用户数据的积累可以不断提升模型的表现,从而吸引更多用户,形成良性循环。 数据集和模型选择: 本文使用 Quora 数据集进行训练,该数据集包含标记为“相似”和“不同”的问题对,以训练模型识别文本相似性。 选择合适的基础模型是关键,作者推荐使用具有开放许可证的模型,这些模型的权重可以下载和修改。 基础设施和资源管理: 微调模型需要显著的计算资源,Modal 提供的自动扩展基础设施可以按需使用 GPU,降低成本。 作者建议设定明确的训练目标和资源限制,以优化训练过程。 实验结果: 实验表明,经过微调的 bge-base-en-v1.5 模型在识别文本相似性方面表现优于 OpenAI 的基线模型。 即使使用仅几百个样本,微调后的模型也能显著降低错误率,表明微调的有效性。 未来方向: 文章最后指出,下一步应将微调过程自动化,以便持续收集数据并迭代模型,从而实现系统的持续改进。 快速微调击败专有模型 只需要几个示例,微调后的开源嵌入模型就能以更低的成本提供比专有模型(如 OpenAI 的text-embedding-3-small)更高的准确性。本文将介绍如何使用 Modal 创建这样的模型。首先,我们会讲解微调的基础知识。然后,我们会讨论一个实验,研究在一个简单的问答应用中需要多少微调数据。 为什么要微调 开源模型让你起步 定制模型至关重要。这是 Netflix 不断推荐更好的电影和 Spotify 找到适合你每日播放列表新歌的原因。通过跟踪你是否看完选定的电影或是否跳过一首歌,这些公司积累了大量数据。他们利用这些数据改进内部的嵌入模型和推荐系统,从而提供更好的建议和用户体验。这甚至能吸引更多用户参与,进而积累更多数据,进一步改进模型,形成一个被称为数据飞轮的良性循环。 数据飞轮:更多用户意味着更多数据意味着更好的模型,进而吸引更多用户。 像 Netflix 和 Spotify 这样的顶尖机器学习公司利用数据飞轮从头创建了自己的模型,他们现在拥有大量数据。然而,当你刚开始一个新公司或项目时,你可能没有足够的数据。在 2010 年代,启动数据飞轮需要大量的创造力或资源投入。 但在 2020 年代,随着高性能通用预训练模型和宽松许可证的出现,启动数据飞轮变得大大简化。你可以从这些模型之一开始,这些模型经过大规模、多样化数据集训练,能够在你的任务中表现得相当不错。 在之前的博客文章中,我们展示了如何通过使用 Modal 的自动扩展基础设施在数百个 GPU 上部署现成模型,在不到 15 分钟内嵌入整个英文维基百科,证明了这一点。 微调启动数据飞轮 这些模型和运行它们的基础设施的可用性对于刚刚起步且还没有用户数据的组织来说是个好消息。但关键是要尽快转向一个定制模型,以提供比现成模型更好的性能。幸运的是,数据积累得很快:只需几十个用户每天与服务交互 3-4 次,几天内就能生成数百个数据点。 这些数据足以训练一个在样本数据集上击败 OpenAI 的text-embedding-3-small的模型。 我们用于创建嵌入的 Modal 上的同样可扩展、无服务器基础设施也可以用来定制模型,这个过程称为微调。最终结果是一个具有更高性能且显著降低运营成本的机器学习应用:启动你自己数据飞轮的第一步。 微调的操作:数据集、模型和基础设施 在微调模型时,有许多设计决策需要做出。我们在此回顾其中的一些。 找到或创建数据集 虽然机器学习的大部分讨论和研究都集中在模型上,但任何有经验的机器学习工程师都会告诉你,数据集才是最关键的部分。...

July 20, 2024 · 2 min · fisherdaddy

证明者-验证者游戏改善语言模型输出的易读性 • OpenAI

本研究探讨了如何通过训练强大的语言模型,使其生成易于验证和理解的文本,以提高人类评估的准确性。研究发现,单纯优化模型以获得正确答案,可能导致生成的解决方案变得难以理解。因此,采用“证明者-验证者游戏”的方法,可以在确保输出正确的同时,提高文本的可读性和可验证性。这种方法对于提升 AI 应用的有效性和可信度至关重要,尤其是在需要清晰沟通的领域。 研究背景: 随着大型语言模型(LLMs)在复杂任务中的应用日益增加,确保其输出的可理解性变得尤为重要。研究表明,当优化过程仅关注正确答案时,生成的文本往往缺乏清晰性。 证明者-验证者游戏: 该方法涉及两个角色:生成解决方案的“证明者”和检查解决方案准确性的“验证者”。通过这种方式,强模型能够生成更易于人类和其他 AI 系统验证的文本。 训练过程: 研究通过优化链式思维的方式,使其在解决小学数学问题时能够被较弱模型验证。该训练过程分为多个阶段,包括验证者训练和证明者训练,以确保生成的文本不仅正确,而且易于理解。 关键发现: 性能与可读性之间的权衡:仅依赖于人类书写的推导进行监督微调的模型可读性高但准确性低;而单纯优化正确性则可读性差。本研究的方法在保持高可读性的同时,确保了适度的准确性。 三种有用的模型角色: 稳健验证者:能够有效区分正确和错误的解决方案。 有帮助的证明者:生成易于人类理解的解决方案,减少评估错误。 狡猾的证明者:产生微妙的错误解决方案,初期可能会误导人类评估者,揭示模型改进的方向。 结论: 本研究强调了在确保 AI 输出的正确性和透明可验证性方面的重要性,尤其是在未来超智能 AI 系统的对齐研究中。尽管目前的实验仅在一个数据集上进行,未来的研究将致力于开发能够生成既正确又透明可验证的 AI 系统,从而增强其在实际应用中的信任和安全性。 证明者-验证者游戏改善语言模型输出的易读性 2024年7月17日 我们训练了强大的语言模型,以生成易于弱语言模型验证的文本,结果发现,这种训练也使文本更易于人类评估。 确保语言模型生成易于理解的文本对于使其对人们有帮助至关重要,特别是在处理复杂任务时,比如解决数学问题。 我们发现,当我们优化强大模型的解决问题过程仅为了获得正确答案时,生成的解决方案可能变得更难理解。实际上,当我们要求时间有限的人类评估员评估这些经过高度优化的解决方案时,他们的错误几乎是评估较少优化解决方案时的两倍。这一发现突显了不仅正确性,而且清晰性和易验证性在AI生成文本中的重要性。 通过训练高级语言模型生成弱模型可以轻松验证的文本,我们发现人类也能更有效地评估这些文本——我们称之为提高易读性。 在这里,prover-verifier games 发挥了作用。这些游戏涉及两个玩家:“证明者”生成一个解决方案,“验证者”检查其准确性。 这种方法不仅对于确保输出的正确性至关重要,而且对于使它们易于理解和验证对人类和其他AI系统同样重要。 理解和处理性能与易读性之间的平衡,可以带来更有效和可信的AI应用,惠及需要精确和清晰交流的广泛领域。 通过优化提高易读性 为了提高易读性,我们优化了基础数学问题的推理过程,使其易于较弱的模型验证,并研究这是否使它们对人类更易读。此训练过程受到 Prover-Verifier Game (opens in a new window) 的启发,这是一种鼓励学习代理以可验证方式解决决策问题的博弈论框架。我们的方法在仅优化答案正确性时的性能提升一半的情况下,保持了人类评估员准确评估解决方案的能力。我们认为,进一步缩小可读和高性能模型之间的差距是未来一致性研究的重要目标。 问题:Shawna的父亲是Shawna的五倍大。Shawna目前是Aliya的三倍大。如果Aliya现在3岁,Shawna的父亲多大? 过程 答案 模型初始化 由此推断,Shawna目前$3^2=9$岁。 随后这意味着Shawna的父亲目前$9\cdot5=45$岁。 答案:45 第一轮可验证性训练 首先我们需要确定Aliya的年龄。从问题描述中得知,Aliya是3岁。 然后我们需要确定Shawna的年龄。从问题描述中得知,Shawna目前是Aliya的三倍大,所以Shawna的年龄是3乘以3,即<<3 * 3 = 9>>9。 接下来,我们需要确定Shawna的父亲。问题中说Shawna的父亲是Shawna的五倍大。因此,Shawna的父亲的年龄变成5乘以9,即<<5 * 9 = 45>>45。 答案:45 第五轮可验证性训练 我们首先计算Aliya的年龄。 问题中说Aliya是3岁。 然后,我们需要计算Shawna的当前年龄。...

July 18, 2024 · 1 min · fisherdaddy

人工智能工程师的崛起

本文探讨了 AI 工程师这一新兴职业的崛起,并分析了其在未来技术发展中的重要性。作者认为,随着基础模型的出现和应用,AI 工程师将成为未来十年最热门的工程职位。 AI 工程师的定义: AI 工程师是将 AI 技术应用于实际产品开发的工程师,他们擅长使用基础模型 API,并能够根据产品需求进行微调和部署。 AI 工程师的技能: AI 工程师需要具备软件工程、基础模型 API 使用、数据处理和评估等方面的技能,但并不需要深入研究机器学习理论。 AI 工程师的需求: 由于基础模型的快速发展和应用场景的不断扩展,AI 工程师的需求将大幅增加,预计未来五年内 AI 工程师的数量将超过机器学习工程师。 AI 工程师的价值: AI 工程师能够利用基础模型快速开发和验证产品,并推动 AI 技术的应用落地,为企业带来巨大的商业价值。 AI 工程师的未来: 作者预测,AI 工程师将成为一个独立的职业领域,并催生新的工具和技术,例如代码生成工具和 AI 代理。 人工智能工程师的崛起 感谢大家在 HN 和 Twitter 上的评论和问题!我们临时组织了一个 Twitter Space 讨论这个话题,有超过 1000 名人工智能工程师 参与。《人工智能工程师的崛起》还在其他 播客中被提及。 我们正在见证应用人工智能的世代转变,这得益于基础模型的能力提升以及开源和 API 的普及。 许多曾经在 2013 年需要 5 年 和一个研究团队才能完成的 AI 任务,现在只需要在 2023 年查阅 API 文档并花一个下午的时间就能实现。 重要:API 线是 开放的 - AI 工程师可以在左边进行模型的微调和托管,研究工程师也可以在右边基于 API 进行构建!该图表也因评估和数据的位置安排而受到 批评;我们确实 同意评估是工作的重要部分!MLR/MLEs 处理基础模型的问题 - 也就是 预训练规模数据和 通用基准评估;但 AI 工程师应该将 产品特定的数据和评估 视为他们的工作。 “从数量上看,人工智能工程师可能会比机器学习工程师/大语言模型工程师多得多。即使从未训练过任何模型,也可以在这个角色中取得成功。” - Andrej Karpathy...

July 17, 2024 · 3 min · fisherdaddy

彭博社对特朗普的采访,关于税收、关税、杰罗姆·鲍威尔等问题

本文主要讲述了前总统唐纳德·特朗普在 2024 年大选前夕接受彭博商业周刊的采访,他详细阐述了如果再次当选总统,将如何治理美国经济和外交政策。 经济政策: 特朗普表示,如果再次当选,他将允许美联储主席杰罗姆·鲍威尔任期结束,并将公司税率降至 15%。他还表示,他将考虑任命摩根大通董事长兼首席执行官杰米·戴蒙为财政部长。 贸易政策: 特朗普表示,他将继续对中国和欧盟征收高额关税,并认为关税是“谈判的利器”。他还表示,他将要求台湾为美国提供的保护支付费用。 外交政策: 特朗普表示,他将继续与沙特阿拉伯保持密切关系,并批评拜登政府疏远了沙特。他还表示,他将继续与俄罗斯总统弗拉基米尔·普京保持联系,但不会支持对俄罗斯实施制裁。 科技政策: 特朗普表示,他将继续打击大型科技公司,并认为这些公司对儿童有害。他还表示,他将支持加密货币行业,并认为美国应该成为加密货币的中心。 选举策略: 特朗普认为,他的经济政策将帮助他在 11 月的选举中击败民主党候选人。他相信,他的税收减免、石油开采增加、监管减少、关税提高和减少外国金融承诺等政策将吸引足够的摇摆州选民支持他。 特朗普采访:他的税收、关税、Jerome Powell 等计划 彭博商业周刊在 Mar-a-Lago 对前总统进行了独家采访。 2024年7月16日 GMT+8 17:00 六月下旬,Donald Trump在 Mar-a-Lago 俱乐部的豪华隔离期中筹划他的下一个总统任期。尽管俱乐部的成员可能已经迁往更凉爽的地方,特朗普的心情依然很好。 民调显示,他与总统Joe Biden之间的竞选非常激烈,但他的筹款活动空前成功。显然,他的34项重罪并未影响竞选。两天后,在第一次总统辩论中,拜登会在辩论中受到打击。7月13日,特朗普在宾夕法尼亚集会中险些躲过刺客的子弹,更大的冲击将随之而来。 Mar-a-Lago 的客厅里,一个红色气球塔上点缀着金色气球,上面写着“47”,这是下一任总统的简写——这是一位当地崇拜者的礼物,上面附有一张赞美“美国有史以来最伟大的总司令”的卡片。在特朗普的要求下,一名工作人员拿来了他喜欢展示给客人的最新时尚物品:一顶印有“特朗普对所有事情都对”的红色MAGA风格帽子。 在 Mar-a-Lago 的大门外,世界其他地方并不那么确定。有人担心另一个特朗普总统任期可能预示着什么。从高盛到摩根士丹利再到巴克莱的华尔街公司已经开始警告客户,随着特朗普重返白宫并实施保护主义贸易政策的几率增加,要预期更高的通胀。苹果、英伟达和高通等美国经济巨头正在努力应对与中国进一步对抗可能对他们和所有人依赖的芯片的影响。欧洲和亚洲的民主国家担心特朗普的孤立主义倾向,他对西方联盟的不稳定承诺,以及他与中国国家主席习近平和俄罗斯总统普京的关系。虽然民调普遍显示美国选民更倾向于特朗普的经济管理而非拜登,但很多人仍不清楚如果再给特朗普一个机会,他们会得到什么。 他挥手驱散这些担忧。他说,“特朗普经济学”意味着“低利率和低税收”。这对完成事情和把生意带回我们的国家是“巨大的激励”。特朗普会钻探更多,监管更少。他会关闭南部边境。他会对敌人和盟友都施加压力以获得更好的贸易条件。他会释放加密货币行业并控制鲁莽的大科技公司。简而言之,他会让经济再次伟大。 那是宣传卖点,反正。真相是,没有人真正知道会发生什么。所以彭博商业周刊去了佛罗里达州的 Mar-a-Lago,向特朗普寻求答案。 在关于商业和全球经济的广泛采访中,他表示,如果他获胜,他将允许Jerome Powell完成其作为联邦储备委员会主席的任期,该任期将持续到2026年5月。特朗普希望将企业税率降至15%以下,他不再计划禁止 TikTok。他会考虑Jamie Dimon,现任摩根大通董事长兼首席执行官,担任财政部长。 特朗普对保护台湾免受中国侵略和惩罚普京入侵乌克兰的想法很冷淡。他说,“我不喜欢制裁。”他不停地提到William McKinley,他认为在十九世纪末总统任期内,通过关税筹集了足够的收入,以避免实施联邦所得税,但从未得到应有的赞誉。 特朗普(他有说谎的倾向)坚持说,如果被判联邦罪,他不会赦免自己:“我不会考虑。”他可能不需要——7月15日,一名特朗普任命的联邦法官驳回了他处理机密文件的指控。(特别检察官迅速宣布他将对该决定提出上诉。) 特朗普经济学的广泛概念可能与他第一任期时没有什么不同。新的是他打算实施它们的速度和效率。他相信自己现在更深刻地理解权力的杠杆,包括选择合适的人选的重要性。“我们有很棒的人,但我有些人是我不会再选择的,”他说。“现在,我认识每个人。现在,我真的很有经验。” 特朗普将他的经济信息视为在11月击败民主党的最佳途径,共和党人将他们总统竞选的开幕之夜献给了“财富”这一主题。他赌的是,他不寻常的减税、更多石油、减少监管、更高关税和更少外国财政承诺的议程将吸引足够多的摇摆州选民来为他赢得选举。这也是一种赌注,选民会忽略他在白宫第一个任期内的负面特征:人员斗争、180度的政策转变、早上6点的社交媒体声明。当然还有2021年1月6日企图暴动的问题。 民调已经显示出黑人和西班牙裔男性正向共和党靠拢,因为他们厌倦了历史上高企的食品、住房和汽油价格。多达20%的黑人男性现在支持特朗普,尽管一些专家认为这些数字被夸大了。不管怎样,拜登正在努力向关键选民推销他的经济记录,其中包括非常低的失业率和不断上涨的工资。他还面临着对其年龄的恐慌。特朗普可能在11月获胜,许多民主党领导人越来越担心他会将白宫和参众两院的控制权交给共和党。 如果那样,他将有前所未有的杠杆来塑造美国经济、全球商业和与盟友的贸易。他的第一个任期表明他更喜欢一对一地工作,这将使与他关系最好的 CEO 和世界领导人占据优势,而他的敌人可能会失败,甚至害怕他会做什么。如果商业周刊与特朗普的采访中有一件事特别突出,那就是他完全意识到这种权力——而且他有充分的意图使用它。 关于美国经济 特朗普身着深色西装和领带,在 Mar-a-Lago 镶花金饰的客厅的下午凉爽黑暗中主持会议,一如既往地热衷于扮演大方的主人。他主动为他的访客点了一轮可乐和健怡可乐,然后开始解释如果他在11月连任,他将如何执政。 商界领袖重视稳定和确定性。在特朗普的第一个总统任期内,他们并没有得到太多。这次,他的竞选活动更加专业,但他还没有提出一个详细的经济政策议程来让他们放心。这个真空导致那些为第二个特朗普任期做准备的人感到困惑。 特朗普的经济政策核心圈 在四月下旬,特朗普的一些非正式政策顾问向华尔街日报泄露了一份爆炸性草案,提出要严重削弱联邦储备的独立性。普遍认为特朗普支持这个想法,这并不是没有根据的,因为他之前对 Powell 的攻击。事实上,特朗普竞选团队坚称他既没有支持这个提议,也没有支持泄密,他的最高竞选领导层对此非常愤怒。但这一事件是特朗普尚未成型的政策的结果,这使得来自传统基金会等智库的专家们争相填补细节并争夺影响力。其他保守派政策企业家一直在推动提案,如贬值美元或实行统一税。 在 Mar-a-Lago,特朗普明确表示他对未经授权的自由行动感到厌倦。“有很多虚假信息,”他抱怨道。他急于澄清几个话题。 首先是 Powell。他在2月份告诉 Fox News,他不会重新任命这位联储主席;现在他明确表示他会让 Powell 完成他的任期,这将持续到特朗普的第二个任期的很大一部分。 “我会让他完成任期,”特朗普说,“特别是如果我认为他在做正确的事情。”...

July 17, 2024 · 2 min · fisherdaddy

5个导致你的副业项目无法盈利的原因以及如何避免它们

许多创业者在将副项目转化为盈利业务时遭遇失败,了解这些失败的原因是成功的第一步。本文总结了五个常见的错误,并提供了避免这些错误的建议。关键在于拥抱失败、进行有效的创意构思、避免无尽的构建、及时获取反馈以及制定周密的发布计划。 不敢尝试:许多人因害怕失败而不敢行动,错失了宝贵的经验和成长机会。作者鼓励读者勇敢尝试,即使项目未能盈利,获得的技能和经验也极具价值。 失败的创意构思:快速的创意生成往往导致项目失败。有效的创意过程应包括市场验证和资源评估,确保项目能解决实际问题并具有可行性。 无尽的构建:过于追求完美会导致项目无限期拖延。作者建议使用熟悉的工具和技术,专注于项目的实际构建,而非学习新技术,以提高效率。 缺乏反馈:在开发过程中,忽视用户反馈会导致产品不符合市场需求。作者建议早期发布产品并主动获取用户反馈,以便及时调整和改进。 羞涩的发布:发布时缺乏计划和策略会影响项目的成功。了解目标受众并选择合适的平台进行推广是至关重要的。作者提供了一个四周的发布计划,以帮助创业者有效推广其项目。 总结而言,成功的副项目需要勇于尝试、有效的创意构思、及时的反馈和精心的发布策略。每一次失败都是向成功迈进的重要一步。 5个导致你的副业项目无法盈利的原因以及如何避免它们 引言 如果你像许多有志于创业的人一样(包括我在内),你可能也有过不少好主意,但却难以将它们转化为有利可图的副业项目。你并不孤单。许多副业项目都未能盈利,理解原因是成功的第一步。所以让我们深入探讨独立创业者在旅程中常见的陷阱,并学习如何避免它们。 在这段旅程的开始,记住失败并不是敌人。实际上,它是过程中的关键部分。是的,这就是严酷的真相:没有人能在第一次尝试中就成功。 接受失败并从中学习,这能帮助我们避免将来犯同样的错误。所以系好安全带,因为我们即将探讨副业项目失败的常见原因以及如何规避它们。 错误 1 - 不去尝试 这是成功的独立创业者@levelsio的一条推文,他每月赚取超过15万美元,是一个很好的参考例子。害怕失败常常使我们止步不前。不要让这种恐惧阻止你!尝试并失败总比从未尝试要好。 此外,记住不去尝试意味着你错失了宝贵的经验和成长的机会。即使你的项目未能盈利,你获得的技能和经验才是关键。无论是提高你的问题解决能力,了解新的市场,还是理解其动态,这些技能在你未来的项目和面试中都会非常有用。 所以,下次你有副业项目的想法时,勇敢去尝试吧!让你的好奇心和热情驱动你,不要让失败的恐惧阻碍你。失败并从错误中学习,一次又一次地,这是成长的最佳方式,就像@levelsio所展示的那样。 错误 2 - 创意失败 你有了这个想法。但是它是通过有效的头脑风暴和解决问题过程形成的吗?副业项目的一个常见陷阱是急于产生创意。彻底的头脑风暴过程对于确保你的想法的可行性至关重要。 尝试用自己的视角过滤掉那些你不太熟悉的想法。问题越是与你息息相关,解决方案就越明显和可行。 验证你的想法:光认为它好是不够的。你需要有至少一些保证证明它有市场。进行调查,问问你信任的人,并尽可能收集初步数据。 确保你的想法解决了一个问题:一个好的商业想法是填补市场空白或解决人们遇到的问题。 评估你的资源:你是否有将想法变为现实的技能、时间和资金?要诚实对待自己。记住你可以做一个MVP(最小可行产品),但是,如果MVP不能为用户带来真正的价值,那它就不够。 想要一个例子?看看这篇访谈,采访了amicus.work的创始人Erlis。它准确地展示了如何因为靠近问题使得解决方案直观。如果你发现自己陷入困境,可以快速阅读这篇文章,或者,如果你更喜欢深入研究,可以参考Make Book或The Lean Startup,它们提供了在创意阶段避免常见错误的宝贵见解。 错误 3 - 无休止的构建 现在你在思考技术选择,并且你实际上在考虑学习一种全新的编程语言来解决这个新问题。加油吧,你已经读过一篇关于学习的文章!没有什么能阻止你! 但是,等等!想一想。现在你得同时对抗两个问题: 学习一门新语言, 并且解决你的问题。 将一个绝妙的想法转化为一个繁荣的业务已经够挑战了。而且你已经知道,许多副业项目在构建阶段失败,所以为什么要这样对自己呢? 这里的秘密是什么?创新,但要谨慎! 尝试那些能始终加快你进度的东西,而不是让你负担加重、减缓速度的东西。一个例子?已经熟悉React?试试Wasp,一个全栈框架,它帮你处理样板代码(如认证),并利用AI生成能力帮助你更快地创建产品。 在尝试创建和测试一个想法时,我们并不是在寻找学习新东西,而是更多地在于创造这个想法本身。 所以在选择工具时,选择那些基于你已经熟悉的技术,并且能帮助你快速前进的工具! 另一个非常常见的错误是追求完美,这通常导致无休止的修改和延迟。记住,“完成比完美更重要。” 关键是要完成你的项目并将其推出市场。如果没有人看到你的项目,它就只是一个想法。 错误 4 - 从未到来的反馈 延迟并不是这个阶段唯一的绊脚石。有时候,我们太专注于创建完美的产品,忘记了要用实际用户进行验证。定期的反馈是至关重要的——它帮助你做出必要的更改,确保你的产品满足用户的需求。 没有反馈,你永远不会知道你是否命中目标,或者你是否在为一个没人遇到的问题创建解决方案。 那么,你如何确保你获得必要的反馈?首先,通过一小群用户测试你的产品。这可以是一群朋友、家人,甚至是一个专门的焦点小组。他们的反馈对于识别任何问题或改进点非常有价值。 我们很常见的另一个问题是害怕收到负面反馈,这常常导致我们在产品“完美”之前不愿将其推向市场。然而,这种做法可能是有害的。关键是尽早推出你的产品,即使它缺少你计划添加的一些酷炫功能。用户的早期反馈可能会引导你添加一些你之前没有想到的功能,而这些功能正是实际用户想要的。 记住,反馈是礼物。它让你能够改进产品,使其不仅能被人们使用,还能被人们喜爱。所以,不要回避它,接受它吧! 错误 5 - 羞涩的发布 说到害羞:所以,你已经完成了项目,现在怎么办?是时候将它呈现给世界了。然而,记住,时机非常重要。如果你的发布计划羞涩且没有经过充分规划,你将无法获得所需的用户(和收入)。 这里的第一步是了解你的受众并选择适当的平台。Reddit非常适合开源或不以盈利为主要驱动力的项目,而Dev Hunt、Product Hunt和Hacker News (YC)则适用于更广泛的项目。选择正确的发布平台可能意味着成功与失败的区别。 此外,创建一个战略性的发布计划至关重要。仅仅发布你的项目并希望得到好的结果是不够的,虽然这也可能发生。你需要规划你的发布,考虑诸如合适的发布时间、平台的特性,并调整你的沟通方式以符合目标受众的需求。 一个精心策划的发布计划不仅可以帮助你接触到更广泛的受众,还能增加你的项目成功的机会。你可以使用Screen Studio和Canva等工具,帮助你创建精美的屏幕录制和宣传图片/横幅。 作为奖励,以下是一个示例发布计划,供你参考:...

July 14, 2024 · 1 min · fisherdaddy

大语言模型应用的新兴架构

本文探讨了大语言模型(LLM)应用的新兴架构,提供了一种参考架构,展示了 AI 初创公司和技术公司常用的系统、工具和设计模式。文章主要讨论了如何利用上下文学习模式,通过巧妙的提示和私有“上下文”数据来控制 LLM 的行为,而无需进行模型微调。 ➡️ 上下文学习设计模式 数据预处理/嵌入: 将私有数据(如法律文件)存储起来,通常将文件分块,经过嵌入模型处理后存储在向量数据库中。 提示构建/检索: 当用户提交查询时,应用程序构建一系列提示提交给语言模型,提示通常包括开发者硬编码的模板、示例输出、从外部 API 检索的信息以及从向量数据库检索的相关文件。 提示执行/推理: 提示被提交给预训练的 LLM 进行推理,可能会添加操作系统如日志记录、缓存和验证。 ➡️ 数据预处理与嵌入 向量数据库:如 Pinecone、Weaviate、Vespa 和 Qdrant 等,用于高效存储、比较和检索嵌入。 嵌入模型:如 OpenAI 的 text-embedding-ada-002 模型、Cohere 和 Hugging Face 的 Sentence Transformers。 ➡️ 提示构建与检索 提示策略:从简单的零样本提示和少样本提示到复杂的链式思维、自我一致性等高级策略。 编排框架:如 LangChain 和 LlamaIndex,用于抽象提示链、接口外部 API 和检索上下文数据。 ➡️ 推理与操作 主流语言模型:OpenAI 的 GPT-4 和 GPT-3.5-turbo,Anthropic 的 Claude 模型等。 开源模型:如 Meta 的 LLaMa 模型及其变体。 操作工具:如缓存(基于 Redis)、日志跟踪工具(Weights & Biases、MLflow、PromptLayer 和 Helicone)以及验证工具(Guardrails 和 Rebuff)。 ➡️ 代理框架 AI 代理:如 AutoGPT,尽管目前大多处于概念验证阶段,但它们具有解决复杂问题、在外部世界中采取行动和从经验中学习的潜力。 ➡️ 未来展望...

July 13, 2024 · 2 min · fisherdaddy

Software 2.0 • Andrej Karpathy 2017

本文中 Andrej Karpathy 提出了一个革命性的观点:神经网络不仅仅是机器学习工具箱中的另一个工具,而是软件开发方式的根本性转变,即从传统的“Software 1.0”过渡到“Software 2.0”。Software 1.0 依赖于人类编写的明确指令,而 Software 2.0 则基于数据集和神经网络架构,通过训练来生成程序。Karpathy 认为这种转变不仅提高了软件性能,还改变了编程范式,使得数据集的管理和优化成为软件开发的核心。 ➡️ Software 1.0 vs. Software 2.0 Software 1.0: 由人类程序员使用编程语言(如 Python、C++)编写明确的指令,逐行代码确定程序行为。 Software 2.0: 使用神经网络的权重表示程序,由数据集和神经网络架构定义,训练过程将数据集“编译”成最终的神经网络。 ➡️ 转变实例 视觉识别: 从工程化特征和机器学习模型(如 SVM)转变为使用大规模数据集和卷积神经网络(CNN)。 语音识别和合成: 从预处理和传统模型(如高斯混合模型和隐马尔可夫模型)转变为完全依赖神经网络(如 WaveNet)。 机器翻译: 从基于短语的统计技术转变为神经网络模型,特别是在多语言和弱监督环境中。 游戏: 从手工编码的程序(如围棋程序)转变为神经网络模型(如 AlphaGo Zero)。 数据库: 使用神经网络替代传统数据管理系统组件,提高速度和节省内存。 ➡️ Software 2.0 的优势 计算同质性: 神经网络主要由矩阵乘法和 ReLU 组成,简化了实现和优化。 易于硬件实现: 简单的指令集使得神经网络更容易在定制 ASIC 和神经形态芯片上实现。 恒定运行时间和内存使用: 每次前向传递所需的 FLOPS 和内存使用量是恒定的。 高度可移植: 矩阵乘法序列比传统二进制文件或脚本更容易在不同计算配置上运行。 灵活性: 可以通过调整网络结构和重新训练来快速适应新的性能需求。 模块融合: 可以通过反向传播优化相互交互的模块,提升整体性能。 ➡️ Software 2.0 的局限性 可解释性差: 大型神经网络的工作原理难以理解。 潜在的失败模式: 可能出现非直观和尴尬的错误,或“静默失败”,如训练数据中的偏见。 对抗样本和攻击: 反映了这种技术堆栈的非直观特性。 ➡️ 编程范式的变化...

July 13, 2024 · 2 min · fisherdaddy

GraphRAG 宣言: 向生成式 AI 添加知识

本文探讨了在生成式 AI (GenAI) 中引入知识图谱 (Knowledge Graph) 的重要性,提出了 GraphRAG 的概念。作者认为,仅依靠自回归大型语言模型 (LLM) 或基于向量的检索增强生成 (RAG) 技术并不能提供足够准确和上下文丰富的答案。通过结合知识图谱,GraphRAG 可以提供更高质量、更具解释性和可审计的答案,从而成为未来 RAG 架构的主流。 RAG 技术的局限性: 向量检索和微调技术虽能提高某些问题的正确答案概率,但无法提供确定性答案,且缺乏上下文和解释性。 知识图谱的引入: 知识图谱可以组织和连接数据,使得 AI 系统不仅处理字符串,还能理解和推理事物之间的关系。 GraphRAG 结合了向量索引和知识图谱查询,提供更高质量的答案。 GraphRAG 的优势: 更高的准确性和完整性:例如,Data.world 的研究表明,GraphRAG 在回答业务问题时的准确性提高了三倍。 开发和维护更容易:知识图谱的可视化和可解释性使得开发和调试过程更加直观。 更好的可解释性和审计能力:知识图谱使得 AI 系统的决策过程更透明,便于审计和追踪。 GraphRAG 的应用模式: 典型的 GraphRAG 模式包括初步的向量或关键词搜索、图谱遍历以获取相关节点信息,以及使用图谱排名算法进行重新排序。 知识图谱的创建和使用: 创建知识图谱类似于将文档分块并加载到向量数据库中。随着工具的进步,创建知识图谱变得越来越简单。 一旦数据进入知识图谱,就可以不断扩展和改进数据质量,从而提升应用结果的价值。 治理和安全性: 知识图谱增强了 AI 系统的安全性和隐私保护,可以根据用户角色限制数据访问权限。 实际应用案例: 例如,LinkedIn 使用 GraphRAG 改进了客户服务应用,减少了客户服务团队的平均每次问题解决时间。 Writer 的 RAG 基准测试报告显示,GraphRAG 的得分显著高于竞争对手。 工具和资源: Neo4j 提供了一系列工具,如 LLM Knowledge Graph Builder,帮助用户创建和使用知识图谱。 总结而言,GraphRAG 通过结合知识图谱和向量检索,提供了更高质量、更具解释性和更易开发的 AI 解决方案,代表了 RAG 技术的未来发展方向。 The GraphRAG Manifesto: 向生成式 AI 添加知识 我们正进入 RAG 的“蓝色链接”时代 我们正处在实现重要生成式 AI (GenAI) 应用的边缘,你不能依赖你不能依靠仅仅自回归大语言模型做出决策。我知道你在想什么:“RAG 是答案。”或者是微调,或者是 GPT-5。...

July 12, 2024 · 4 min · fisherdaddy