Stay hungry, Stay foolish

👋 Welcome to fisherdaddy’s blog!

    1. 精心翻译的优质博客内容
    1. 有趣的技术分享
    1. 博主的个人认知分享

📚 博客内容:

    1. 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
    1. 分享: 探索各种有趣技术,从编程语言到软件开发,从云计算到人工智能。
    1. 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的见解。

生成式 AI 的 Act o1

本文讨论了生成式 AI 领域的最新进展,特别是从快速响应(“System 1”)向推理能力(“System 2”)的转变。这一转变标志着 AI 系统在推理和认知操作方面的能力显著提升,开启了一个新的“代理性应用”时代。文章还探讨了生成式 AI 市场的现状及未来趋势,特别是 OpenAI 推出的 o1 模型如何通过推理时间计算实现更强的推理能力。此外,作者分析了 AI 市场的各个层次(基础设施、模型、开发工具和应用层)的竞争格局,指出应用层的机会最大,特别是在构建定制的认知架构以应对现实世界中的复杂任务。 市场结构的稳定:生成式 AI 市场的基础层已经趋于稳定,主要由几大巨头主导,如 Microsoft/OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind。尽管竞争激烈,但市场结构逐渐固化,预示着更便宜且更强大的预测能力即将到来。 推理层的崛起:随着基础层的稳定,AI 研究的重点转向推理层,即“System 2”思维。这种思维模式类似于 AlphaGo 的运作方式,即通过推理和模拟多个未来场景来做出更有深度的决策。 OpenAI 的 o1 模型:2024 年最重要的模型更新是 OpenAI 的 o1 模型(代号 Strawberry),这是第一个具有真正推理能力的模型。它通过推理时间计算实现了更复杂的推理能力,特别是在逻辑和数学等领域表现突出。 推理的挑战:与 AlphaGo 不同,语言模型在推理时难以构建明确的价值函数,因为许多任务(如写作或制定旅行计划)没有明确的评分标准。这使得推理在开放性任务中更加困难。 系统 1 与系统 2 思维:系统 1 思维是基于模式匹配的快速响应,而系统 2 思维则需要模型在推理时停下来思考,生成多种可能性并评估其结果。这种深度推理对于复杂任务(如数学或生物学突破)至关重要。 推理时间计算的扩展:o1 模型揭示了推理时间计算的新扩展规律,即给模型更多的推理时间,它的表现会显著提升。这一发现将推动从大规模预训练集群向动态推理云的转变。 应用层的机会:尽管基础层和模型层由巨头主导,但应用层仍有巨大的机会,特别是在构建能够应对现实世界复杂任务的定制认知架构方面。许多 AI 公司已经开始在各个行业中开发代理性应用,如 Harvey(AI 律师)、Factory(AI 软件工程师)和 Sierra(AI 客户支持)。 服务即软件的转变:生成式 AI 正在推动从软件即服务(SaaS)向服务即软件的转变。AI 公司通过代理性应用提供具体的工作成果,而不是简单的软件工具,从而瞄准了数万亿美元的服务市场。 未来展望:未来的 AI 发展将继续围绕推理和推理时间计算展开,特别是在复杂的现实世界任务中。多代理系统可能会成为一种新趋势,帮助 AI 实现更复杂的任务协作。最终,AI 可能会达到类似 AlphaGo 的“Move 37”时刻,即展示出超越人类的创新能力。...

November 6, 2024 · 2 min · fisherdaddy

AI 规模扩展能否持续到 2030 年?

本文探讨了人工智能(AI)训练规模的快速扩展是否能够持续到2030年。研究表明,AI模型的性能提升与计算资源的增加密切相关,当前AI训练的计算量每年增长约4倍。文章分析了四个关键限制因素:电力供应、芯片制造能力、数据稀缺性和“延迟壁垒”,并预测到2030年可能实现2e29 FLOP的训练规模,远超当前的GPT-4水平。尽管技术上可行,但实现这一规模的关键在于AI开发者是否愿意投入数千亿美元的资金。 电力限制 预计到2030年,美国数据中心的电力需求将显著增加,可能需要多达2至45 GW的电力供应,支持2e28到2e30 FLOP的训练运行。 单一数据中心的电力供应可能达到1至5 GW,地理分布的训练网络则能利用多个地区的电力资源。 扩展电力基础设施,如建设新的发电厂,可能需要3至5年的提前规划。 芯片制造能力 AI芯片(如Nvidia H100)的生产能力是AI扩展的另一个关键因素。尽管芯片制造商计划扩展生产能力,但受限于先进封装和高带宽内存(HBM)的生产能力。 预计到2030年,全球将有足够的产能生产1亿个H100等效GPU,支持9e29 FLOP的训练运行。 数据稀缺性 训练大型AI模型需要大量数据。当前网络上可索引的文本数据约为500万亿词,预计到2030年增加50%。 多模态数据(图像、视频、音频)将有助于缓解数据稀缺问题,可能使训练数据增加至6e28至2e32 FLOP的规模。 生成合成数据可能进一步扩展数据供应,但需要额外的计算资源。 延迟壁垒 延迟壁垒是AI训练的“速度限制”,随着模型规模的增加,训练时间也会增加。通过并行处理更多数据可以部分缓解这一问题,但批量大小的增加有一定限制。 预计到2030年,延迟壁垒可能限制训练运行在3e30到1e32 FLOP之间。 经济与投资考量 实现大规模AI训练的关键在于AI开发者是否愿意投入数千亿美元。微软和OpenAI的“Stargate”项目表明,业界可能正在为实现这一目标做准备。 经济回报可能驱动巨额投资,特别是如果AI能够实现大规模的经济自动化。 尽管存在电力、芯片制造、数据和延迟等限制因素,但AI训练的扩展在技术上是可行的。到2030年,AI训练规模可能达到2e29 FLOP,这将带来与当前GPT-4相比显著的性能提升。然而,能否实现这一目标取决于资金投入和基础设施扩展的速度。 引言 近年来,AI 模型 (AI models) 的能力显著提升。我们的研究表明,计算资源的增长是 AI 性能提升的重要原因之一。[1] 持续且可预测的规模效益使得 AI 实验室积极扩大训练规模,训练计算量以每年约 4 倍的速度增长。 AI 训练计算量每年 4 倍的增长速度,甚至超过了近代史上一些技术发展最快的时期。它超过了移动电话普及速度最快时 (2 倍/年,1980-1987 年),太阳能装机容量 (1.5 倍/年,2001-2010 年) 和人类基因组测序 (3.3 倍/年,2008-2015 年) 的增长速度。 本文探讨当前 AI 训练规模快速扩张的步伐(约每年 4 倍)能否持续到 2030 年。我们调查了可能限制规模扩展的四个关键因素:电力供应、芯片制造能力、数据稀缺性和“延迟墙 (latency wall)”。延迟墙是由 AI 训练计算中不可避免的延迟造成的根本速度限制。 我们的分析涵盖了生产能力的扩张、投资和技术进步等因素。这包括分析先进芯片封装设施的扩建计划、新增发电厂的建设以及数据中心的地域分布(以便利用多个电网)。为了考虑这些变化,我们纳入了来自各公共渠道的预测数据,包括半导体代工厂的扩张计划、电力供应商的容量增长预测、其他相关行业数据以及我们自己的研究。 我们发现,到 2030 年,进行 2e29 FLOP 的训练很可能在技术上可行。换句话说,到 2030 年,训练出比 GPT-4 更强大的模型,就像 GPT-4 比 GPT-2 更强大一样,将很有可能。[2] 如果继续发展下去,我们可能会在 2030 年前后看到 AI 出现巨大的进步,就像 2019 年 GPT-2 只能生成简单的文本,而 2023 年 GPT-4 却具备了复杂的问题解决能力一样。...

November 6, 2024 · 11 min · fisherdaddy

导引 - 形势感知 (Situational Awareness):未来十年 • Leopold Aschenbrenner

本文讨论了未来十年内人工智能(AI)领域的重大变革,尤其是通用人工智能(AGI)和超级智能的快速发展。作者认为,随着计算能力和算法效率的提升,AGI 可能在 2027 年前实现,并在此后迅速进化为超级智能。这场技术竞赛将引发全球范围的工业动员,特别是在美国,涉及数万亿美元的投资和国家安全力量的介入。本文还探讨了超级智能带来的挑战,包括安全问题、对抗中国的竞争,以及如何确保“自由世界”在这场竞赛中胜出。 AGI 竞赛的启动:目前,全球尤其是美国,正加速推进 AGI 的研发。预计到 2025/26 年,AI 的能力将超过许多大学毕业生,并在 2027 年前实现真正的 AGI。随着技术的快速发展,超级智能的出现也变得不可避免。 工业动员与电力扩张:为了支持 AGI 和超级智能的发展,美国将大规模扩展电力生产,预计未来十年内电力产量将增长数十个百分点。成百上千万的 GPU 将投入使用,推动工业的全面动员。 超级智能的潜力与风险:超级智能不仅将推动 AI 研究的自动化,还可能在极短时间内实现巨大的算法进步。然而,控制远超人类智能的系统仍是一个未解决的技术难题,处理不当可能导致灾难性后果。 国家安全的介入:随着 AGI 竞赛的加剧,美国政府将逐渐介入,预计到 2027/28 年会有一个正式的国家 AGI 项目启动。此时,国家安全力量将全面投入,确保 AGI 技术不落入敌对国家手中。 中美竞争与自由世界的存亡:超级智能将赋予拥有它的国家巨大的经济和军事优势。美国及其盟友必须在这场竞赛中保持领先地位,否则“自由世界”的生存将面临威胁。 安全与对抗中国:目前,许多 AI 实验室对安全问题重视不足,关键技术可能落入中国等国家之手。确保 AGI 的安全和防止技术外泄将是未来的关键任务。 导引 - 形势感知 (Situational Awareness):未来十年 Leopold Aschenbrenner,2024 年 6 月 想窥见未来?那就来旧金山 (San Francisco) 吧。 在过去一年里,城中热议的话题已经从百亿美元级的算力集群一路飙升到千亿美元级,再到万亿美元级。每六个月,企业规划的金额就翻十倍。在你看不到的地方,一场争夺战正激烈上演,目标是未来十年所有可用的电力合同和所有能采购到的电压变压器。美国各大企业正准备投入数万亿美元,开启一场久违的工业动员。到这个十年结束时,美国的电力产量将增长数十个百分点;从宾夕法尼亚州 (Pennsylvania) 的页岩气田到内华达州 (Nevada) 的太阳能农场,数亿个 GPU 将日夜轰鸣。 通用人工智能 (AGI) 的竞赛已经打响。我们正在建造能够思考和推理的机器。到 2025/26 年,这些机器的能力将超过许多大学毕业生。到这个十年结束时,它们将比你我都聪明;我们将迎来真正的超级智能 (Superintelligence) 时代。与此同时,沉寂了半个世纪的国家安全力量将被释放,不久之后,“The Project” (一个意义重大的项目)也将启动。如果我们幸运,我们将与中国 (CCP) 展开全面的竞争;如果我们不走运,那将是一场全面的战争。 现在人人都在谈论人工智能 (AI),但很少有人真正理解即将到来的变革。英伟达 (Nvidia) 的分析师仍然认为 2024 年可能接近峰值。主流评论员仍抱着“人工智能只是在预测下一个词”的观点,对即将到来的巨变视而不见。他们看到的只是炒作和商业活动,最多认为这只是又一次互联网规模的技术变革。...

November 6, 2024 · 1 min · fisherdaddy

李开复对 AGI 的核心认知以及关于 OpenAI 的一些信息

本文来自腾讯科技对李开复的访谈。李开复在对话中探讨了美国主导的 AGI(通用人工智能)可能带来的霸权问题,特别是 OpenAI 及其 CEO Sam Altman 的垄断野心。他认为,中国应通过建立一个良性生态系统来抵抗 AGI 垄断。核心策略是降低推理成本(推理成本每年将下降 10 到 50 倍,从而推动应用的普及),使得更多应用能够快速落地,形成广泛的应用生态。虽然中国在 AGI 研发上可能落后,但在应用落地和成本控制方面具有优势,中国可以通过快速发展应用来抵抗 AGI 垄断。 良性的生态 一个良性生态,应该是芯片赚最少的钱,平台赚蛮多的钱,应用赚最多的钱;平台本身比任何一个应用都赚钱;但所有应用加起来比平台赚更多的钱。PC、互联网、移动互联网是这样,云也是这样。AI是不是?绝对不是。 今天 AI 生态是芯片 GPU 占 750 亿美金>云厂商 100 亿>应用商 ChatGPT 这类只有 50 亿——是一个倒三角。如果持续是倒三角,AI-first 的应用不会雨后春笋冒出来。用户不会得到福利,大家做应用不会那么快 PMF(Product Market Fit,产品市场契合度)、赚到钱、融到资,不能达到良性生态系统的正向循环。 AI 应用为什么没爆发 AI 应用为什么不爆发?是因为推理成本太贵了。 前一阵有一篇文章《Situational Awareness: the Decade Ahead》(《态势感知:未来十年》,OpenAI 前员工撰写),大胆说 AGI 三年会发生,有些假设值得商榷。我觉得 Epoch AI(一家非营利研究组织)说得更靠谱,他们在今年 8 月一篇文章《Can AI Scaling Continue Through 2030?》(《人工智能的规模定律能否持续到 2030 年?》)中,分析了四件事: 数据还能多快增加? 世界生产 GPU 的能力,还有 HBM(高带宽存储器),就是内存的能力,能多快增加? 计算的耗损能多快增加?你作为一个神经网络,它的 forward backward 训练(前向传播和反向传播训练),使它不是 GPU 问题,而是传输问题。如果是一张变成两张传输还好,如果是 100 万张变成 200 万张,传输就会成为瓶颈。 还有一个,世界上有多少电? ——最后它计算的结果大概是 2030 年。...

November 6, 2024 · 2 min · fisherdaddy

推动音频生成的前沿 • DeepMind

本文介绍了最新的语音生成技术的进展,重点展示了如何通过先进的模型和算法推动更自然、更直观的数字助理和 AI 工具的语音交互。这些技术不仅能够生成高质量的单人语音,还能创建复杂的多角色对话,从而提升用户体验,促进知识获取。 语音生成技术的应用:这些技术已被应用于多个 Google 产品和实验项目中,如 Gemini Live、Project Astra、Journey Voices 和 YouTube 的自动配音,帮助全球用户与 AI 工具进行自然的互动。 最新功能开发: NotebookLM Audio Overviews:将上传的文档转化为生动的多角色对话,两个 AI 主持人总结用户材料并探讨相关主题。 Illuminate:生成关于研究论文的正式 AI 讨论,帮助知识更易于理解。 研究基础: 先前的研究(如 SoundStream 和 AudioLM)为音频生成奠定了基础,SoundStream 是一种神经音频编解码器,能够高效压缩和解压音频,而 AudioLM 则将音频生成视为语言建模任务。 这些技术可以灵活处理不同类型的声音,并且在生成多角色对话时表现出色。 最新模型的性能: 最新的语音生成模型能够在不到 3 秒的时间内生成 2 分钟的多角色对话,且语音自然度、角色一致性和音质都有显著提升。 模型通过专门的 Transformer 架构处理超过 5000 个音频标记,并使用新的语音编解码器将音频压缩至 600 bps 的低比特率。 训练和优化: 模型通过数十万小时的语音数据预训练,并通过小规模的高质量对话数据进行微调,确保生成的对话具有真实感,包括自然的停顿和语气变化。 通过使用 SynthID 技术,对生成的音频进行水印标记,以防止滥用。 未来发展: 未来的改进方向包括提升模型的流畅度、音质,并增加对语音特征(如语调)的细粒度控制,同时探索与视频等其他模态的结合。 这些技术将被应用于更广泛的场景,如教育和内容的普及化。 推动音频生成的前沿 发布时间:2024年10月30日 我们的开创性语音生成技术正帮助全球用户与更自然、对话性更强、更直观的数字助手和AI工具互动。 语音是人类交流的核心工具。它帮助人们在全球范围内分享信息、表达情感并建立相互理解。随着我们生成自然语音技术的不断进步,数字体验正变得更具吸引力、更加生动。 近年来,我们一直在推动音频生成的前沿,开发出能够从文本、节奏控制和特定声音等多种输入生成高质量自然语音的模型。这项技术已应用于Google的多个产品和实验中,包括 Gemini Live、Project Astra、Journey Voices 和 YouTube的自动配音,帮助全球用户与更加自然的数字助手互动。 我们与Google的合作伙伴一起,开发了两项新功能,用于生成多人的长篇对话,使复杂内容更易于理解: NotebookLM Audio Overviews:将上传的文档转换为生动的对话形式,两个AI主持人总结用户的内容并相互调侃。 Illuminate:生成关于研究论文的AI讨论,以帮助知识更易于消化。 音频生成的开创性技术 多年来,我们一直在进行音频生成研究,并探索如何将生成自然对话的技术应用到我们的产品和实验工具中。在先前的 SoundStorm 研究中,我们首次展示了生成多位说话者之间自然对话片段(长达 30 秒)的能力。...

October 31, 2024 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的 SimpleQA

SimpleQA 是一个新的基准测试,旨在评估语言模型在回答简短、事实性问题时的准确性。该基准测试的核心目标是减少模型产生“幻觉”(即无根据的错误答案)的现象,并提升模型的可信度。SimpleQA 专注于简短的事实查询,确保问题有单一、不可争议的答案,从而使得评估模型的事实性表现更加可行。通过该基准,研究人员可以更好地衡量语言模型的准确性、校准性及其在不同问题类别中的表现。 SimpleQA 的特点: 高正确性:所有问题的参考答案由两名独立的 AI 训练师提供,并且这些问题经过严格筛选,以确保答案易于评分。 多样性:涵盖广泛主题,包括科学、技术、历史、音乐、视频游戏等多个领域。 挑战性:相比于老旧的基准(如 TriviaQA 和 NQ),SimpleQA 对前沿模型(如 GPT-4o)更具挑战性。 研究友好:由于问题简洁,SimpleQA 的运行速度快,评分效率高。 数据集构建: 问题由 AI 训练师从网上搜集,确保每个问题有单一、不可争议的答案。 为确保质量,问题经过三轮验证,最终的错误率约为 3%。 模型评估方法: 使用 ChatGPT 分类器对模型的答案进行评分,分为“正确”、“错误”和“未尝试”三类。 测试表明,较大的模型(如 GPT-4o 和 o1-preview)比较小的模型(如 GPT-4o-mini 和 o1-mini)表现更好,且后者更倾向于“未尝试”问题,表明它们可能更擅长判断何时不确定答案。 模型校准性: 校准性指模型对其回答的自信程度是否与实际准确性一致。SimpleQA 提供了两种方法来测量模型的校准性:一是通过模型自述的信心百分比,二是通过模型多次回答同一问题的频率。 结果显示,较大的模型(如 o1-preview 和 GPT-4o)在校准性上表现更好,但模型普遍倾向于过高估计其自信度。 结论与局限性: SimpleQA 是一个简洁但具有挑战性的基准,专注于短、事实性问题。然而,它的局限性在于仅测量简短回答的事实性,尚不清楚这是否与模型生成长篇、多事实回答的能力相关。 介绍一下 SimpleQA 2024 年 10 月 30 日 SimpleQA 是一个衡量语言模型回答简短、寻求事实的问题的能力的基准工具。 在人工智能领域中,一个未解决的问题是如何训练模型,使其生成的回答更加符合事实。当前的语言模型有时会产生错误的输出,或提供没有证据支撑的回答,这种现象被称为“幻觉”。生成更为准确、幻觉更少的语言模型可以增加可信度,并能够应用于更广泛的领域。为此,我们 开源了⁠(新窗口打开)一个名为 SimpleQA 的新基准工具,以衡量语言模型的事实性。 关于 SimpleQA 基准 事实性是一个复杂的话题,因为其评估难度很大——评价任意声明的真实度颇具挑战性,而语言模型可能会生成包含大量事实性信息的长篇回答。在 SimpleQA 中,我们专注于简短的、寻求事实的查询,尽管这缩小了评估范围,但使得衡量事实性变得更为可行。 我们创建 SimpleQA 数据集的目标是实现以下特性: 高准确性。 所有问题的参考答案均有两位独立 AI 训练师提供支持,问题设计也便于答案的评分。...

October 31, 2024 · 1 min · fisherdaddy

一个全新的媒体格局 • Cristóbal Valenzuela

Runway CEO Cristóbal Valenzuela 在这篇文章中阐述了他对 AI 和媒体未来的看法。他认为,AI 已经成为像电力或互联网一样的基础设施,因此称自己为“AI 公司”已经不再有意义。相反,未来的关键在于如何利用 AI 作为工具来创造全新的媒体形式和叙事方式。Runway 的目标是通过 AI 重新定义媒体和娱乐行业,创造互动、生成式和个性化的内容。AI 不再是终点,而是推动新媒体革命的手段。 AI 的基础设施角色:Valenzuela 认为 AI 已经像互联网一样普遍,成为所有公司都依赖的基础设施。称自己为“AI 公司”已经不再能准确描述企业的核心使命。 Runway 的愿景:Runway 专注于艺术、媒体和娱乐,认为 AI 是讲故事的必要工具。公司从建立最好的研究团队和模型开始,以实现这一愿景。 AI 类似于相机的历史作用:Valenzuela 将 AI 比作相机,认为它不仅是一个技术工具,更是改变整个行业、经济和艺术形式的催化剂。相机改变了人们捕捉现实的方式,而 AI 则改变了人们创造现实的方式。 新媒体的未来:他设想了一个全新的媒体景观,其中内容可以实时生成和响应观众的需求。AI 将打破传统的内容创作与分发的界限,创造互动性、生成式和个性化的媒体体验。 AI 公司逐渐过时:Valenzuela 认为,未来的创新不再来自于专注于开发更好 AI 模型的公司,因为这些技术已经成为商品化。真正的突破将来自那些能够利用这些工具创造新形式媒体和叙事的人。 Runway 的新使命:Runway 不再定位为 AI 公司,而是致力于利用 AI 工具创造新的媒体体验,回归公司最初的使命,即通过技术推动艺术和媒体的创新。 一个全新的媒体格局 2024年10月 Runway 并非一家 AI 公司。Runway 是一家媒体和娱乐公司。我认为,AI 公司的时代已经结束了。 这并不是因为 AI 失败了,恰恰相反,正是因为 AI 已经成为一种基础设施,和电力或互联网一样重要。如今称自己为 AI 公司,就像在 2024 年称自己为互联网公司一样没有意义。因为 AI 已经普及了。每家公司都在使用互联网;未来每家公司也都会使用 AI。 对 Runway 来说,我们的关注点是艺术、媒体和广泛的娱乐领域。我们在将近七年前创立 Runway 时,就提出了一个至今依然坚定的愿景:AI 是讲故事必不可少的工具。为了实现这个愿景,我们倒推构建了一个最优秀的研究团队,开发出最佳模型,从而打造出最好的产品。...

October 31, 2024 · 1 min · fisherdaddy

写作者与非写者 • Paul Graham

保罗格雷厄姆的这篇文章预测,未来几十年内,会有越来越少的人具备写作能力。这是因为写作本质上是一项艰难的技能,尽管它在许多职业中仍然是必需的。然而,随着 AI 技术的进步,越来越多的人将依赖 AI 进行写作,从而导致社会逐渐分化为两类人:会写作的人和不会写作的人。作者认为,这种变化不仅仅影响写作技能的消失,更重要的是,它会削弱人们的思考能力,因为写作与清晰思考密不可分。 写作的困难性:写作的难点在于它要求清晰的思考,而清晰思考本身就是一项复杂的任务。许多高职位的工作要求写作,但因为写作的难度,甚至一些著名的学者也会选择抄袭。 AI 的影响:AI 技术的进步让人们不再需要自己写作,尤其是在学校和工作场合,AI 可以代替人类完成写作任务。这使得写作的压力大大减轻,导致越来越少的人愿意学习写作。 社会分化:未来社会将分为两类人:“会写作的人”和“不会写作的人”。中间地带(即写作能力一般的人)将消失,只剩下那些擅长写作的人和完全依赖 AI 的人。 写作与思考的关系:作者强调,写作不仅仅是表达的工具,它本身也是思考的过程。引用 Leslie Lamport 的观点:“如果你不通过写作思考,你只是在自以为在思考。” 因此,写作能力的消失会导致思考能力的退化,社会将进一步分化为“会思考的人”和“不会思考的人”。 历史类比:作者将这种变化与体力劳动的消失类比。在工业化之前,许多人的工作让他们变得强壮;如今,只有那些主动选择锻炼的人才会变得强壮。同样,未来只有那些主动选择写作的人才能保持聪明。 写作者与非写者 2024年10月 我一向不太愿意对科技发展做预测,但这次我有相当的把握:再过几十年,可能没多少人会写作了。 如果你是一名作家,你会发现一个很奇怪的现象:很多人有写作困难。医生知道有多少人担心自己身上的痣;电脑高手知道有多少人不会设置电脑;而作家知道有多少人需要写作帮助。 人们写作困难的原因在于,写作本质上很难。要写得好,就需要清晰的思维,而清晰思考是件难事。 尽管如此,写作贯穿于许多职业,且职位越高,通常需要的写作量越大。 这种对写作的广泛需求和写作本身的难度之间的矛盾带来了巨大的压力。这也就是为什么一些知名学者会选择抄袭。让我感到意外的是,他们抄袭的内容通常非常平凡——都是些任何写作水平过得去的人都能轻松写出的内容。这说明他们的写作水平甚至连“过得去”都达不到。 在不久前,这种压力没有合适的释放方式。你可以像美国前总统肯尼迪 (JFK) 那样雇人代写,或者像民权领袖马丁·路德·金 (MLK) 那样抄袭,但如果无法买或偷别人的文字,你就只能自己动笔。因此,几乎所有被要求写作的人都得学会写作。 但现在情况不同了。AI 打破了这一格局。几乎所有对写作的压力都消失了。无论在学校还是职场,你都可以让 AI 替你写作。 结果就是,未来的世界将被分为“会写作的人”和“不会写作的人”。依然会有人会写作,因为有些人是真心喜欢写作。但原本那些写作能力参差不齐的人——从擅长写作的,到勉强能写的,再到完全不会写的——将不复存在。未来将只剩下“擅长写作的人”和“不会写作的人”。 这是件坏事吗?当科技让某些技能变得多余时,这些技能消失不是很正常吗?比如,现在很少有铁匠了,但这似乎没造成什么问题。 不,这的确是个问题。原因就在于我前面提到的:写作就是思考。事实上,有些思考只有通过写作才能完成。Leslie Lamport 曾说得非常到位: 如果你在不写作的情况下思考,那你只是以为自己在思考。 因此,一个分为“会写作的人”和“不会写作的人”的世界,听起来比表面上更危险。这会是一个“会思考的人”和“不会思考的人”的世界。我知道自己想待在哪一边,我猜你也一样。 其实,这种情况并非新鲜事。在工业化之前,大多数人的工作让他们身体强壮。如今,如果你想强壮,就得去健身房。因此,依然有强壮的人,但只限于那些选择锻炼的人。 写作也会如此。依然会有聪明的人,但只限于那些选择去写作的人。 感谢 Jessica Livingston、Ben Miller 和 Robert Morris 预览本文草稿。

October 30, 2024 · 1 min · fisherdaddy

何时去做你热爱的事情 • Paul Graham

保罗格雷厄姆的这篇文章讨论了“是否应该追随自己的激情”的复杂性,认为答案不能简单地归结为“是”或“否”。作者指出,是否应该追随兴趣取决于个人目标和情境。如果主要目标是赚钱,通常无法仅凭兴趣工作,但在某些情况下,兴趣与财富可以一致。对于那些想要取得卓越成就的人,追随兴趣则是必要的。文章还强调了在不确定情况下,通过尝试和探索来获得更多确定性的重要性。 追随兴趣与赚钱的权衡 如果主要目标是赚钱,通常无法完全按照兴趣行事,因为人们付钱让你做他们想要的事情,而不是你想做的事情。 例外情况是,当你的兴趣和市场需求一致时,比如在足球或软件开发领域,兴趣和收入可以重合。 兴趣与成功的关系 对于那些有“奇怪”兴趣的人,成功的几率更大,例如 Bill Gates 对软件公司运营的热爱。 有些人对“赚钱”本身有知识性兴趣,把发现市场错误定价当作一种智力挑战。 创业与兴趣的联系 想要赚取巨额财富的人,通常通过创业实现,而创业的好点子往往源于个人兴趣。许多大型公司(如 Apple、Google 和 Facebook)最初都是创始人出于兴趣的项目。 不确定时的行动策略 当不确定该追随兴趣还是追求财富时,通常是因为缺乏对自我、工作性质和能力的充分了解。 最好的方法是通过实际行动获取更多信息,尽早开始尝试不同的工作或项目,而不是等待毕业或实习机会。 “上风”策略 在不确定的情况下,选择能为未来提供更多选择的路径,例如在选择专业时,数学比经济学更具灵活性,因为数学为转向经济学提供了更多可能性。 伟大工作与兴趣的关系 如果想要做出伟大成就,追随兴趣是必要条件。虽然并非每个人都能做出伟大成就,但对于那些有志于此的人,兴趣是不可或缺的动力源泉。 经济不平等的自然性 文章提到,经济不平等并不一定是社会不公的表现,因为不同人有不同的兴趣,而某些兴趣能带来更多财富。 判断他人动机的思考实验 作者建议通过思考实验来判断一个人是否真正对工作感兴趣:如果不支付高薪,他们是否仍愿意在业余时间从事这项工作?例如,许多数学家和科学家会这么做,但投资银行家可能不会。 何时去做你热爱的事情 2024年9月 在“是否应该追随自己的热爱”这个问题上,存在不少争论。事实上,这个问题很难用简单的“是”或“否”来回答。有时候你应该追随自己的热爱,有时候却不该,但“应该”与“不该”之间的界限非常复杂。要回答这个问题的唯一方式是仔细分析其中的逻辑。 人们讨论这个问题时,往往带有“代替”的意味。在其他条件都相同的情况下,为什么不选择自己最感兴趣的事情呢?所以,提出这个问题本身意味着你需要在“做自己喜欢的事”和其他选择(比如高薪工作)之间做出权衡。 如果你的首要目标是赚钱,那么你通常无法随心所欲地从事自己喜欢的工作。人们付钱是让你做他们想要的事情,而非你自己想做的。但也有明显的例外:当你的兴趣和他们的需求一致时。例如,如果你热爱足球,并且足够优秀,那么踢足球也能带来丰厚收入。 当然,像足球这种职业的成功几率并不高,因为有太多人也喜欢踢足球。这并不是说你不该去尝试,关键是看你的天赋和努力程度。 当你有一些“冷门”的兴趣时,成功的机会更大:即喜欢一些既有高收入、又少有人感兴趣的领域。例如,显然 Bill Gates 真正热爱经营一家软件公司。他不仅喜欢编程(这是很多人喜欢的),还喜欢为客户开发软件。这种兴趣非常特别,但如果你也有这种兴趣,追随它可能带来丰厚的回报。 有些人对赚钱本身也有一种智力上的兴趣。这与单纯的贪婪不同,他们会敏锐地注意到某些事物的价值偏低,并忍不住去纠正,对他们来说,这就像解谜一样。 实际上,这里有一个例外,甚至可以颠覆上述所有建议。如果你想赚取巨额财富——几亿甚至几十亿美元——那么从事自己最感兴趣的事情会很有帮助。这并不是因为兴趣带来更多动力,而是因为赚大钱的方式往往是创业,而你对某件事的热爱常常会引发独特的创业灵感。 许多知名的创业公司,比如 Apple、Google 和 Facebook,都是因为创始人兴趣驱动而起步的。为什么这种模式如此常见?因为最佳的创业点子通常是那种刻意寻找时反而会忽略的。而当你年轻且技术能力强时,你对哪些事情有兴趣的直觉往往与市场需求不谋而合。 在财富积累上,可以说存在一种“中等智商峰值”。如果你不需要赚太多钱,你可以随心所欲地做喜欢的事;如果你想实现中等富裕,通常需要做一些妥协;但如果你追求极致的富裕,并且你年轻且擅长技术,那么选择从事自己最感兴趣的事情又变得可行。 那么,如果你对自己真正的兴趣并不确定呢?如果你既渴望赚钱,又对某些工作更有兴趣,但没有一种吸引力占上风,又该如何选择? 这里的关键在于,这种纠结通常是表象。当你在兴趣与收入之间难以抉择时,往往并不是因为你对自己和工作完全了解、且这些选项恰好平衡。大多数情况下,这是因为你对自身和工作理解不够全面。具体来说,你可能对以下三方面都不了解:什么能让你真正快乐、各类工作的实际内容、以及自己在这些工作中的潜力。 这种不确定在某种程度上是可以理解的。很难预测什么工作会让你开心,而没有人会告诉你需要去思考这些问题。如果你有抱负,人们会建议你上大学,而这确实是不错的建议,但通常到此为止。没有人会告诉你如何选择适合自己的工作,也很少人告诉你这有多难。 面对不确定性时,你该做的就是去获得更多的确定性。而获得确定性的最佳方式之一,就是去尝试做你感兴趣的事。这样你能了解自己对它的热情、自己的能力以及这个领域的发展空间。 不要等,不要等到大学毕业才思考要做什么,也不要等到实习。你不一定需要正式的工作来做一件事,许多事情你可以自己尝试去做。因为探索适合的职业可能需要数年,所以越早开始越好。 判断不同工作的一个有效方法是观察你的同事。你会越来越像与你共事的人。你愿意成为这样的人吗? 实际上,不同工作的性格特征被同事放大了。如果你因为高薪而选择一份工作,你会被同样因为高薪而来的同事包围,这会让工作比外界看起来更加令人疲惫不堪。而如果你选择了自己真正感兴趣的工作,你周围会有同样热爱这份工作的人,这将使工作更加激励人心。 应对不确定性时的另一个策略是选择那些“未来留有更多选择”的选项。我称之为“保持前沿”。例如,如果你不确定是否主修数学或经济学,可以选择数学,因为数学是经济学的前沿,未来你更容易从数学转向经济学。 但有一种情况下,你是否应做自己最喜欢的事情的答案很明确:如果你想做出杰出成就。虽然这不是做出杰出成就的充分条件,但却是必要条件。 关于“是否追随热爱”的建议往往具有选择偏差。大部分这样的建议来自那些成功人士,如果你问他们如何达成成就,他们多数会告诉你,要做自己最感兴趣的事情。这确实是事实。 这并不代表适合每个人。并非每个人都能或愿意做出杰出成就。但如果你确实想要,那么是否去做自己最感兴趣的事情这个复杂问题就变得简单了。答案是肯定的。伟大成就的根源在于一种雄心勃勃的好奇心,而这种好奇心无法制造。 注释 这些例子说明,假设经济不平等就是某种缺陷或不公平是错误的。显而易见的是,不同的人有不同的兴趣,而有些兴趣能带来更多财富,因此在有人喜欢写企业软件而另一些人喜欢做陶艺的世界中,经济不平等是一种自然结果。 在兴趣之间做选择的困难是另一回事。这并不总是因为无知。往往是内在的困难。我自己也常常感到难以抉择。 不要总是相信人们在这方面的言辞。由于追求兴趣比单纯追求金钱更具声望,那些主要因金钱驱动的人往往会声称对工作更有兴趣。测试这种说法的一种方法是设想:如果他们的工作不再高薪,他们是否会为了继续做这件事而选择一份养活自己的日常工作?很多数学家、科学家和工程师会这么做。在历史上,确实很多人是这样做的。但我不认为有多少投资银行家会这样。

October 30, 2024 · 1 min · fisherdaddy

我通过内容赚了 50 万美元,但我认为内容行业并不是一个好选择 • Swizec Teller

Swizec Teller 在这篇文章中反思了自己通过内容创作赚取 $500k 的经历,认为内容创作虽然有潜力带来可观的收入,但本质上是一个不稳定且难以持续的商业模式。他指出,内容创作更像是“拥有一份工作”而不是“经营一门生意”,并且这个行业充满了竞争和消耗,尤其是对于独立创作者而言。Teller 强调了内容创作的两种类型——娱乐性和洞察性,并提出了他对行业现状的批评,尤其是与广告驱动和开发者关系(DevRel)内容的竞争。 关键细节 内容创作的商业模式: 内容创作的核心是通过建立受众,然后周期性地推出产品。每次产品发布通常伴随强烈的市场营销推动,使用人工稀缺性策略(如限时优惠、新产品等)来促成销售。 内容创作的收益不稳定,且需要持续不断地推出新内容才能维持收入。 内容的两种类型: 娱乐性内容:此类内容通常通过广告或商品销售获利,旨在吸引广泛受众,用户无需解决具体问题。 洞察性内容:此类内容专注于解决特定问题,通常通过销售产品(如书籍、课程)获利。免费内容则用于建立受众。 创作者的困境: 内容创作者在行业中处于不利地位,往往像“消耗品”一样被快速替换。平台、出版商和背后的机构才是主要的获利者。 创作者必须不断推出新的“热门”内容,无法停下来,否则业务就会迅速失去盈利能力。 与开发者关系(DevRel)的竞争: DevRel 团队拥有大量资源,内容创作只是他们推动 SaaS 订阅和企业合同的手段。独立创作者难以与之竞争,因为 DevRel 可以投入更多的资金和人力。 DevRel 内容往往通过付费影响者进行推广,缺乏深度洞察,而独立创作者则更注重分享真实的经验和见解。 未来的方向: Teller 认为编程教程类内容的 SEO 市场已经饱和,尤其是在 ChatGPT 等 AI 工具的帮助下,新手问题可以轻松得到定制化解答。未来的机会在于那些难以复制的深度洞察内容。 Teller 最后建议,尽管内容创作有其挑战,分享深度见解仍然是有价值的,但不应将其作为全职事业。 我通过内容赚了 50 万美元,但我认为内容行业并不是一个好选择 朋友问我 “Swiz,你为什么还要打工?”,他指的是我围绕软件工程师书籍和课程的副业还算成功。我忍不住一直在琢磨这个问题,所以今天跟大家聊聊。 这项业务 自从我在 2015 年推出第一本 React+D3 电子书后,经历了几次迭代。从那时起,它已经创造了近 50 万美元的收入(没有广告收入),逐渐发展为一个小团队,推出了多个产品,多年来基本上都很赚钱。 到了 2023 年左右,我开始慢慢退出。过去八年里,我几乎天天都在思考 “下一个要写的是什么?”,但我感到疲惫,这份业务也不再带给我快乐。说到底,倦怠是一种 徒劳无功的磨砺。 业务几乎立即就不再盈利了。这是我认为这不是一个“好生意”的最有力证据。说是生意,不如说是给自己打工。 内容行业的运作方式 每个内容行业都有一套公式。有人偶然碰上了这套公式,有人则是潜移默化学到的。如果你知道该去哪里找资料,相关的内容早已成体系。 我花了 2000 多美元买课程来优化这套公式,结果回本了 50 倍。这比自己摸索要快得多 :) 具体操作方式如下: 大部分时间都在“建立受众群体” 这是你的分发渠道 接着你创建产品 定期“推出”产品 发布是一场强力的市场推广,带有一些人为制造的稀缺感。目的是让人们有足够动力去购买,比如限时优惠、特别赠品、真正的新品发布等等。 你会卖出一大批产品,但 80% 的买家从未真正使用。几个月后你再一次推出。虽然看似重复,但并不无聊。随着受众的增长,很多人第一次看到你的产品,觉得是新鲜的。...

October 30, 2024 · 1 min · fisherdaddy

OpenAI 产品发布时间线一览

这里整理一下 OpenAI 发布的一系列重大里程碑产品和事件,部分内容参考 OpenAI Release Notes。为了方便预览和美观,我做了一个网页版,大家可自行取用。 2015年12月:OpenAI 成立 核心功能:创建人工智能,造福全人类 功能介绍:OpenAI的成立标志着人工智能研究的开端,致力于确保先进AI技术的安全和普及。 2016年4月:OpenAI Gym 发布 核心功能:强化学习训练平台 功能介绍:提供了一套工具用于开发和比较强化学习算法,促进了AI社区的算法研究。 2016年12月:Universe 发布 核心功能:通用AI开发与测试平台 功能介绍:支持AI在各种环境中进行训练和测试,拓展了强化学习的应用领域。 2018年6月:GPT-1 发布 核心功能:自然语言生成模型 功能介绍:首个将Transformer与无监督预训练相结合的模型,开启了大规模语言模型的探索。 2019年2月:GPT-2 发布 核心功能:文本生成 功能介绍:拥有15亿参数的语言模型,展示了在文本生成上的强大表现。 2020年6月:GPT-3 发布 核心功能:自然语言处理 功能介绍:GPT-3参数量达1750亿,显著提升了自然语言理解和生成能力。 2021年1月:DALL·E 发布 核心功能:图像生成 功能介绍:通过文本描述生成图像,拓展了生成模型的应用场景。 2021年8月:Codex 发布 核心功能:自然语言转代码 功能介绍:支持代码自动生成,成为GitHub Copilot的核心技术。 2022年4月:DALL·E 2 发布 核心功能:高分辨率图像生成 功能介绍:生成的图像更细致,支持更高的分辨率。 2022年9月:Whisper 发布 核心功能:语音识别 功能介绍:多语言语音识别模型,接近人类的识别水平。 2022年11月30日:ChatGPT 核心功能:基于 GPT-3.5 的 ChatGPT 网页版 功能介绍:能够进行自然语言交互,回答任意问题的 AI 助手 2023年1月27日: ChatGPT Plus订阅服务推出 核心功能:付费订阅版ChatGPT,收费为每月20美元 功能介绍:提供更快的响应速度、高峰时段优先访问、优先使用新功能和改进等额外功能 2023年3月14日:GPT-4 发布 核心功能:多模态大模型 功能介绍:支持图像输入,其理解力和生成能力大幅提升 2023年3月24日:ChatGPT Plugins 推出 核心功能:对第三方插件的支持 功能介绍:ChatGPT Plugins是进一步生态变革的开端,基于ChatGPT的改进包括:能够访问互联网实时数据、创建并编译代码、调用和创建第三方程序等等 2023年5月18日:ChatGPT iOS 版发布 核心功能:iOS 版的 ChatGPT 功能介绍:iOS 版的 ChatGPT 2024年7月25日:ChatGPT Android 版发布 核心功能:Android 版的 ChatGPT 功能介绍:Android 版的 ChatGPT 2023年8月29日:ChatGPT Enterprise 版发布 核心功能: 面向企业的ChatGPT版本 功能介绍: 提供企业级安全和数据隐私保护,提供无限速的GPT-4访问权限,支持32K上下文输入,高级数据分析功能,自定义选项等所有高级功能 2023年9月26日:GPT-4V (Vision) 发布 核心功能:GPT-4 的视觉增强版本 功能介绍:它具有更强大的图像处理能力,可以执行更复杂的视觉分析任务,如详细的场景描述、物体识别、视觉推理等 2023年11月6日:GPT-4 Turbo、DALL·E 3、GPTs 发布 核心功能:增强版GPT-4 功能介绍:融合了文本和视觉能力的大模型 2024年2月15日:Sora 发布 核心功能:文本到视频生成AI 功能介绍:首个视频生成模型,能够生成长达一分钟的高清视频,同时保持视觉品质并遵循用户提示。 2024年5月14日:GPT-4o 发布 核心功能:GPT-4o的“o”代表“omni”,意为“全能” 功能介绍:GPT-4o 是迈向更自然人机交互的一步,支持文本、音频和图像的多模态输入,提升了人机交互的自然性。 2024年6月26日:Mac 版ChatGPT 发布 核心功能:Mac 版 ChatGPT 功能介绍:Mac 版 ChatGPT 2024年7月18日:GPT-4o-mini 发布 核心功能:相当于是能力更强的“GPT-3....

October 14, 2024 · 1 min · fisherdaddy

OpenAI 官方指南:智能体编排 - 流程与任务交接

本文翻译自 OpenAI Cookbook 的 Orchestrating Agents: Routines and Handoffs Ilan Bigio Oct 10, 2024 当使用语言模型时,通常只需要设计一个好的提示词并配合合适的工具,就能获得不错的效果。然而,当你需要处理许多不同的流程时,情况可能会变得复杂。本手册将介绍一种方法来应对这些复杂情况。 我们将引入“常规任务 (routine)”和“任务交接 (handoff)”的概念,并逐步展示如何实现这些功能,以及如何通过它们协调多个 AI 智能体 (agents),从而实现简单、强大且可控的系统。 最后,我们提供了一个示例仓库 Swarm,它实现了这些想法并附带了示例代码。 让我们从设置导入开始: from openai import OpenAI from pydantic import BaseModel from typing import Optional import json client = OpenAI() 常规任务 (Routines) “常规任务”这个概念没有严格的定义,主要用来表示一系列步骤。具体来说,我们可以将常规任务定义为一组用自然语言编写的指令 (我们通过系统提示词来实现),以及完成这些任务所需的工具。 让我们来看一个示例。下方代码定义了一个客户服务智能体的常规任务,指示它对用户问题进行分类,然后要么建议解决方案,要么提供退款。我们还定义了两个辅助函数 execute_refund 和 look_up_item。你可以把它称为客户服务常规任务、智能体或助手,但核心思想相同:一组步骤和执行这些步骤的工具。 # Customer Service Routine system_message = ( "You are a customer support agent for ACME Inc." "Always answer in a sentence or less....

October 14, 2024 · 8 min · fisherdaddy

充满爱意的机器 • Dario Amodei

本文是 Anthropic 的 CEO Dario Amodei 所写。Dario 曾担任 OpenAI 的研究副总裁,领导了 GPT-2 和 GPT-3 等大型语言模型的开发。他也是根据人类反馈进行强化学习的共同发明者。在加入 OpenAI 之前,他曾在 Google Brain 担任高级研究科学家。 文中 Dario Amodei 探讨了强大人工智能(AI)对未来世界的潜在积极影响。他强调,尽管人们对 AI 风险的关注是必要的,但 AI 的正面潜力同样不可忽视。他认为,AI 可以通过加速科学发现、改善人类健康、减少贫困、促进全球和平与民主等方式,极大地提升人类生活质量。Amodei 描述了一个“如果一切顺利”的未来,AI 将在多个领域带来革命性进步,尤其是在生物学、神经科学、经济发展、治理和人类工作的意义等方面。 AI 的潜力与风险: Amodei 强调,尽管 AI 的风险不容忽视,但 AI 的潜在好处可能比大多数人预期的更加激进。通过有效管理这些风险,AI 可以带来一个更美好的未来。 AI 在五大领域的应用: 生物学与健康:AI 可以加速生物学发现,解决疾病问题,延长人类寿命,甚至可能在 5-10 年内实现 50-100 年的科学进展。AI 将不仅仅是分析工具,而是成为“虚拟生物学家”,通过设计实验、控制实验室设备等方式推动生物医学的突破。 神经科学与心理健康:AI 将帮助理解和治疗精神疾病,如抑郁症、精神分裂症等。通过结合生物学、神经测量和行为干预,AI 可能在 5-10 年内治愈大部分精神疾病,并提升人类的认知和情感自由。 经济发展与贫困:AI 有潜力通过优化健康干预、提高生产力和促进经济增长,帮助发展中国家赶上发达国家。然而,AI 也面临腐败和人类复杂性等挑战。 和平与治理:AI 的发展可能会影响全球的民主与专制斗争。Amodei 提出了“民主联盟”策略,建议通过 AI 增强民主国家的军事和经济优势,以遏制专制国家的扩张。 工作与意义:尽管 AI 可能取代许多工作,但人类仍然可以通过与 AI 协作找到新的经济和社会角色。Amodei 提出,未来的经济可能需要重新设计,可能包括普遍基本收入等新形式的经济结构。 AI 对社会结构的影响: 健康与寿命:AI 可能在未来几年内消除大部分疾病,延长人类寿命,甚至实现“生物自由”,让人们能够控制自己的生物过程。 治理与民主:AI 有潜力改善民主治理,减少偏见,增强法律系统的公平性,并通过提供更透明的信息流动,削弱专制政权。 经济转型:AI 可能带来前所未有的经济增长,尤其是在发展中国家。然而,如何确保技术的公平分配和防止社会不平等的加剧,将是一个重要的挑战。 未来的愿景:...

October 12, 2024 · 5 min · fisherdaddy

OpenAI Canvas 介绍

OpenAI 于 2024 年 10 月开发者大会上发布 Canvas,官方给它的用途定义为:在写作和代码方面展开协作。有点结对写作和结对编程的意思,应该是想往写作工具(office、notion这些)和代码编辑工具(vscode、cursor)上扩展。下面我结合官方的文档以及我的试用体验,给大家简单大概介绍一下 Canvas。 功能 写作工具 该功能支持在线编辑文档,可以选中某一句或段文本进行追问让chatgpt进行改写,也可使用快捷键,其中快捷键包括建议编辑、调整长度、阅读水平、添加最后的润色、添加表情。有点类似于 DALLE 的交互逻辑。 代码编辑 该功能借鉴了 Claude 的 artifacts,虽然不支持在线预览,但支持在线编辑、选中某一句或段文本进行追问,也可使用快捷键,如代码审查、转移到另一种语言、修复错误、添加日志、添加注释。 关于实现 我阅读了一下 OpenAI 官方发布的介绍文章,这里记录了一些重点的内容。 重新训练了 GPT-4o,让它能够成为创造性的合作伙伴。这个模型知道何时打开 Canvas、进行有针对性的编辑或彻底重写。它还能理解更广泛的上下文,提供精准的反馈和建议。据 OpenAI 研究员介绍 Canvas 模型是通过合成数据进行训练的,并在 2 个月内训练了出具有核心行为的模型。 Canvas 有以下核心功能: 在写作和编程时触发 Canvas 生成多样化的内容类型 进行有针对性的编辑 重写文档 提供行内点评 通过超过 20 项自动化内部评估来衡量进展。使用了新颖的合成数据生成技术,例如从 OpenAI o1-preview 蒸馏输出结果,对模型的核心行为进行微调训练。这种方法让我们能够快速解决写作质量和新的用户交互问题,而且完全不依赖人工生成的数据。 一个关键的挑战是定义何时触发 Canvas。我们教会模型在像“撰写一篇关于咖啡豆历史的博客文章”这样的提示时触发 Canvas,同时避免在“帮我做一道新的晚餐食谱”这样的常规问答任务中过度触发。对于写作任务,我们优先提升了“正确触发率”(以牺牲“正确不触发率”为代价),达到了 83%,相比基础的零样本 GPT-4o 使用提示指令有了明显提升。 值得注意的是,这类基线的表现对具体提示的敏感性很高。使用不同的提示时,基线模型可能仍然会表现不佳,但形式不同——例如,它可能在编码和写作任务上同样表现不佳,从而导致不同的错误分布和其他形式的次优表现。对于编码任务,我们故意让模型偏向不触发 Canvas,以避免干扰高级用户的使用体验。 对于写作和编程任务,我们改进了正确触发 Canvas 的决策边界,分别达到了 83% 和 94%,相比基础的零样本 GPT-4o 使用提示指令有了显著提升。 第二个挑战是如何在触发 Canvas 后调整模型的编辑行为——特别是在何时进行有针对性的编辑,何时重写整个内容。我们训练模型在用户在界面中明确选择文本时执行有针对性的编辑,否则则倾向于重写。 训练模型生成高质量评论需要经过反复的仔细迭代。与前两个较容易通过全面人工审查适应自动化评估的情况不同,自动化衡量质量是一个特别具有挑战性的任务。因此,我们通过人工评估来判断评论的质量和准确性。我们的集成 Canvas 模型在准确性上比零样本 GPT-4o 使用提示指令提升了 30%,在质量上提升了 16%,这表明合成训练相比零样本加详细提示指令,能够显著提升响应质量和行为表现。

October 5, 2024 · 1 min · fisherdaddy

o1 研发团队/奥特曼/王小川/杨植麟对 OpenAI o1 的观点

o1 研发团队访谈 Hyung Won Chung:o1 是个推理模型,它在回答你的问题之前会做更多思考。我们将发布两个模型:o1 preview,还有采用了与 o1 相似的训练框架、更小更快的 o1 mini 什么是推理?Giambattista Parascandolo:可以这么理解:对于一些需要立即回答的简单问题,例如,「意大利的首都是哪里?」,不用想太多,就知道答案是罗马。但是如果想要解一个复杂的谜题、想精心策划一份商业企划书、或者想写小说,那可能需要很多思考。想得越多,可能成果越好。因此,可以说推理是一种把思考时间转化为更好成果的能力。 Mark Chen:很难确切指出 o1 是从哪个具体的时刻开始的。最早和 Yakob 进行了一些探索,后来又和Łukasz 和 Ilya 进行了早期的探索。关键时刻是 Jerry 一起整合了这些内容,并由 Jerry 来推动项目。 Trapit Bansal:当我们开始考虑要训练一个推理模型时,我最先想到的方法就是,可以让人类写下他们的思维过程,然后以此进行训练。我的「Aha Moment」是当我们发现,通过使用强化学习来训练模型生成和打磨它自己的思维链,效果竟然比让人类为其写下思维链更好。我们意识到可以真正扩展这个方法,并且专家模型也可以通过这种方式进行推理。 Jerry Tworek:从本质上讲,训练大型模型是非常困难的事情,有成千上万的事情可能出错,实际在每一轮训练中至少有数百个地方确实出错了。几乎每个人都投入了大量的心血、汗水和眼泪去训练这些模型,并想办法让它们继续学习和改进。通向成功的道路非常狭窄,而失败的可能性却很多。 Ilge Akkaya:这个模型非常优秀,很多时候甚至表现得比人类还要好,就像拥有好几个博士学位的水平。但这有时也是一种挑战,因为我们经常需要验证模型是否没有偏离轨道,或者是否在做一些不合理的事情。随着模型规模的扩大,这开始变得非常耗时;我们已经用尽了所有行业级资源,但我们不知道接下来应该找什么,所以这也是一个挑战。 Jason Wei:对我来说,我喜欢把 o1 当作一个头脑风暴的伙伴,从解决某个非常具体的机器学习问题到如何写一篇博客都适用。比如,我最近写了一篇关于语言模型评估的博客,我向 o1 询问了有关博文结构的想法、某些基准测试的优缺点,甚至包括写作风格的建议。因为它在给出最终答案之前会思考,更好地更好地连接起思路,它还可以修改和评估备选的方案。 Jakub Pachocki:每次我们将某件事扩大一个数量级时,都会遇到一组新的问题 —— 包括算法和基础设施方面的问题 ——OpenAI 无疑已经发展出了同时解决这两个方面问题的强大能力。 Hongyu Ren:我们的动机是希望将 o1 系列带给更多的用户,并降低成本。因此,我们创建了 o1 Mini,它的设计目的是展示整个 o1 框架的简化版本。我们让它成为一个推理专家,它可能不一定知道你最喜欢的名人的生日,但它确实能够非常有效地理解如何进行推理。它比我们之前最好的推理模型要聪明得多,并且几乎与我们最好的模型 o1 持平。它确实有一些限制,比如可能不知道很多外界的信息,尤其是与科学或技术无关的内容。但我们努力让它大致与我们之前最好的模型(如 GPT-4o mini)相当。我们正在进一步改进它,我非常期待外部用户能够尝试体验这种「闪电般」的推理和思维。 原文:https://www.thepaper.cn/newsDetail_forward_28821226 o1 研究团队三位核心技术人(Noam Brown、Hunter Lightman、Ilge Akkaya)对话红杉美国合伙人 o1 模型系列使用了强化学习,能够进行推理,或者你也可以称之为“思考”。它与我们过去使用的大型语言模型有本质上的不同。 我们从一开始就相信这一方向有潜力,但实际走到今天的路径并不清晰。你看看 o1 ,这并不是一夜之间的成果。实际上,这背后有多年研究,而其中很多研究并没有取得成效。 OpenAI 整体上采取了一种非常实证、数据驱动的方式,当数据开始向你展示趋势并且变得有意义时,我们就会追随这些线索。而这也是我信心确立的时刻。...

October 1, 2024 · 1 min · fisherdaddy

我爱计算器 • Andrej Karpathy

本文来自 Andrej Karpathy 的 blog,我这里将其翻译为了中文。 作者表达了对计算器的深深喜爱,尤其是作为一种技术产品和象征的意义。计算器不仅仅是一个简单的工具,它代表了一种极简、用户友好的技术哲学,与现代技术产品日益复杂、依赖性强、用户体验糟糕的趋势形成鲜明对比。作者认为,当前的技术产品越来越偏向于复杂的、依赖网络和用户数据的商业模式,损害了用户的隐私和自主权。作者呼吁消费者和开发者反思这种趋势,并以计算器为理想,推动技术回归简单、可靠和用户至上的方向。 计算器的优点: 计算器是一个自给自足的设备,不依赖外部网络或服务。 它通过太阳能或电池供电,不需要复杂的设置或更新。 计算器的功能简单直接,不收集用户数据,也不要求创建账户或登录。 这种技术产品在过去、现在和未来都能稳定运行,完全属于用户自己。 与现代技术的对比: 现代技术产品通常依赖互联网、需要账户注册、权限管理,并且频繁更新。 许多设备和应用程序通过数据收集、订阅模式等手段,逐渐侵蚀用户的隐私和控制权。 作者提到 CO2 监测器等现代设备,要求用户提供精确位置信息、创建账户等,来说明现代技术的复杂性和用户不友好性。 技术与资本主义的关系: 作者认为,现代技术的复杂性与资本主义公司追求最大化股东价值的目标有关。 通过数据收集、订阅服务等手段,公司可以在售卖产品的同时,持续从用户身上获利。 这种趋势导致技术产品变得越来越依赖用户数据,侵害用户的隐私和自主权。 对未来技术的期望: 作者希望技术产品能够像计算器一样,简单、可靠、用户至上。 他呼吁消费者通过抵制复杂、依赖性强的产品,来影响市场趋势。 开发者则应在设计产品时,考虑到用户体验和自主权,避免过度优化商业利益。 我爱计算器 2024年9月8日 前几天,我随意逛书店时,偶然发现了一本书:《总和帝国:掌上计算器的崛起与统治》。翻阅它的过程中,我突然有了一个强烈的感悟:我真的……爱……计算器。这里的“计算器”并不是指你今天可以购买和使用的实体设备,而是一种技术的结晶,也是一种哲学的象征。请看: 计算器是个奇妙的发明。通过手指操作,它仿佛成为你大脑的插件,扩展了你在算术方面的能力,让你思维更敏捷。而更神奇的是它的工作方式。计算器是一个完全独立的物理设备,它几乎不依赖外部技术环境。它只需要一点光(感谢它前面的太阳能板),或者电池,这些都很容易获得。你只需要花钱买它一次,它就永远属于你。只要按下“开机”键,它随时可以为你服务。如果你把这个小巧的设备带回几千年前,交给当时的人们,它也会正常工作,简直像是奇迹。 让我们对比一下我们现在习以为常的技术。计算器不需要联网,也不需要蓝牙权限。它不会询问你的位置信息,也不需要你创建账户或登录。它不会频繁提示你更新软件版本。你不必升级到什么带有正弦、余弦功能的“高级计算器+”版本。它不会硬着头皮变成一个多功能平台,也不需要你的信用卡信息,更不会追踪你的使用数据。它不会随机弹出窗口要求你评分或反馈,也不会在暗网上泄露你的数据或自动订阅什么通讯邮件。更不会因为服务器宕机而无法使用。所有的计算都在设备上完成,完全私密、安全,不会被记录。计算器就是你大脑的算术工具。它过去能用,现在能用,未来也能用。你买了它,它就是你的。它没有其他的附加要求,它只做它该做的事——如此完美。 相比之下,这款有上千好评的二氧化碳监测器却要求我必须创建账户、下载它的应用,并开启位置服务,才能告诉我房间内的二氧化碳含量。 那么,为什么我们的技术正逐渐变得如此复杂、臃肿,对用户不友好,充满反模式?一个常见的类比是,在资本主义经济中,公司可以被看作是在法规限制下,最大化股东价值的优化问题。如今的这些现象,是不是公司为了实现目标而过度优化的结果?为什么要卖产品,当你可以通过租赁来持续获利,并且最大化信息控制权,收集并货币化所有客户数据?政府是否在应对这些不利于用户的行业行为、外部成本和垄断问题时已经落后?作为消费者和开发者,我们应当记住并深刻感受技术本来的样子。技术可以像计算器那样简单、纯粹。也许不是所有的产品和服务都能做到,但它可以作为一种理念,一种可以不断追求的理想。作为消费者,我们可以更加意识到这种趋势,并通过影响公司利润来抵制这种趋势。而作为开发者,我们可以为优化目标增加一个意识形态的约束项。只有这样,我们才有可能找到真正的全局最优解。 这是一个资本主义经济中公司的数学模型,它可以被看作是解决一个二次规划优化问题。 以下是一些我觉得有趣且有启发的相关内容: Internet of shit 没有工业的技术 科技法官 过度追求效率使一切变得更糟

September 29, 2024 · 1 min · fisherdaddy

Licklider 1960 • Andrej Karpathy

本文来自 Andrej Karpathy 的 blog,我这里将其翻译为了中文。 在这之前先介绍一下文章标题里一个名字:Licklider,他的全名是 J. C. R. Licklider 是计算机科学和互联网发展的先驱,他的愿景和研究为现代交互式计算和全球计算机网络(即互联网)的诞生奠定了基础。他不仅在技术上有远见,预见了图形计算、时间共享系统、网络计算等概念,还通过资助和管理关键项目推动了这些技术的实现。他的工作直接影响了诸如 ARPANET(互联网的前身)、人机交互界面、以及人工智能的早期发展。 早期生平与教育背景 Licklider 于 1915 年出生于美国密苏里州圣路易斯。他在华盛顿大学获得了物理、数学和心理学的学士学位,并在罗切斯特大学获得了心理学硕士和博士学位,专攻心理声学。 职业生涯与学术贡献 他早期在哈佛大学和麻省理工学院(MIT)任职,参与了 SAGE 项目(半自动地面环境),这是冷战时期的计算机辅助防空系统。 在 MIT,他负责了人机交互的研究,并在 1960 年发表了具有里程碑意义的论文《人机共生》,预见了未来计算机与人类合作的方式。 推动互联网的先驱 Licklider 是互联网概念的最早提出者之一,1962 年他在一系列备忘录中提出了 “Intergalactic Computer Network” 的设想,这一设想后来演变为 ARPANET。 他在 ARPA(高级研究计划署)担任信息处理技术办公室(IPTO)主任期间,资助了多个关键项目,包括 MIT 的 Project MAC 和斯坦福大学的研究,这些项目推动了时间共享技术和网络计算的发展。 人机共生与人工智能 Licklider 的研究重点是如何通过计算机增强人类智能,而不是完全取代人类。他提出的 “人机共生” 概念预见了计算机将承担繁琐的任务,从而帮助人类在科学和技术思维中做出更高层次的决策。 他还对人工智能持谨慎态度,认为计算机虽然可以在未来某天主导思维过程,但在短期内,人类仍然会设定目标并进行评估。 计算机网络与全球通信 Licklider 的愿景不仅限于个人计算机的交互式使用,他还预见了全球计算机网络的潜力。他的 1968 年论文《计算机作为通信设备》详细描述了计算机网络将如何支持跨地域的合作和交流,这一设想成为了现代互联网的基础。 其他贡献 Licklider 还在心理声学领域做出了重要贡献,提出了 “双重音高感知理论”,并进行了有关双耳语音去遮蔽效应的研究。 他是互动小说游戏公司 Infocom 的创始成员之一,推动了计算机游戏领域的发展。 Licklider 的远见卓识不仅影响了计算机科学的技术发展,还改变了人们对计算机在社会中的角色的理解。他的工作为现代计算机网络、人工智能和人机交互奠定了基础。 本文摘要 Licklider 在其 1960 年的文章《Man-Computer Symbiosis》中,提出了计算机作为“智能增强”工具的概念。他认为,虽然完全自动化(即人工智能,AI)可能是未来的终极目标,但智能增强(IA)这一阶段将持续足够长的时间,值得深入思考和研究。Licklider 还预测了计算机在人类生活中扮演的角色,尤其是军事和日常任务中的应用。然而,许多当时的预测由于技术和数据的限制未能实现,今天的计算机技术发展方向与他预期的有所不同。 智能增强与自动化的对比 Licklider 认为,计算机在未来会逐步从智能增强工具过渡到完全自动化。然而,尽管当时的研究对人工智能和广义人工智能(AGI)充满乐观,实际进展远未达到预期。今天,AI 领域的主流方法(如大语言模型,LLMs)在当时是不可想象的,因为当时的计算能力和数据规模都无法支持。...

September 29, 2024 · 2 min · fisherdaddy

拥抱琐碎 • Jacob Kaplan-Moss

本文是 Django 的共同创建者,同时担任工程主管的 Jacob Kaplan-Moss 所写。作者通过一个魔术表演的例子,强调了成功的秘诀往往在于愿意投入大量时间和精力去完成那些看似枯燥、乏味的任务。这种“磨砺”的精神不仅适用于魔术,也适用于技术行业,甚至可以帮助解决复杂的问题。尽管自动化和效率是现代技术行业的重要追求,但有时解决问题的关键在于亲力亲为,愿意承担那些别人不愿意做的繁琐工作。 魔术的例子: 作者描述了一个魔术表演,观众选择的卡片最终出现在一个密封的茶包里。这个魔术的秘密不在于复杂的手法,而在于表演者在幕后进行了大量准备工作:打开数百个茶包,将卡片放入其中,然后重新封装。这种耗时的准备工作让观众无法想象背后的努力,从而感到惊奇。 魔术师的投入: 引用魔术师 Teller 的话,强调魔术的一个核心原则:观众会被那些需要比他们想象中更多时间、金钱和练习的表演所迷惑。比如,Teller 和 Penn 为一个节目准备了 500 只特制的蟑螂,花费了数周时间,只为完成一个看似简单的表演。 技术行业的应用: 作者将这种“磨砺”的精神引入技术行业,指出虽然自动化和效率是技术人员追求的目标,但有些问题无法通过自动化解决。例如,作者曾加入一个充满问题的团队,面对数千个未解决的错误报告。通过亲自阅读、分类和整理所有报告,作者成功扭转了局面,帮助团队恢复了效率。这一过程虽然耗时且单调,但最终的效果却如同魔术一般。 核心教训: 作者总结道,有时成功的秘诀不在于寻找捷径或依赖自动化,而在于愿意投入时间和精力去完成那些看似枯燥的任务。如果能“拥抱磨砺”,就能在看似不可能的情况下取得成功。 拥抱琐碎 我曾见过一个魔术表演,至今仍让我印象深刻。它的表演方式非常简单(为了清晰起见,我在此进行了简化):一位志愿者选了一张卡片,并将其密封在信封中。然后,魔术师请志愿者选择一种茶。桌上有几十盒茶,所有的茶都用塑料包装封好。志愿者选择一盒,撕开塑料包装,从里面挑选出一个密封的小袋。当志愿者撕开小袋时……里面竟然是他们之前选的那张卡片。 ⚠️ 如果你不想知道这个魔术的原理,请立即停止阅读。 这个魔术的秘密其实很平常,但对我来说却充满了神奇感。选卡片的过程其实是“强迫选择 (force)”。不过,志愿者从几十盒茶中选择的过程确实是自由选择,从茶盒中挑选茶包也是自由选择。没有任何手法或欺骗:魔术师根本没有接触到志愿者选择的茶盒或茶包。那张卡片真的就在密封的茶包里。 这个魔术的精髓在于背后的准备工作。表演前,魔术师会买来几十盒茶,将每盒茶都拆开,取出每个茶包,再将一张梅花三的卡片放入每个茶包里,然后重新密封这些茶包。接着,再把茶包放回茶盒中,并重新封好每个茶盒。这个过程重复几百次。可能需要几个小时,甚至几天的时间。 唯一的“魔术”在于,这样的准备工作看上去既枯燥又耗时,当我们看到最终的效果时,很难想象有人会为了这个看似简单的表演而做如此繁琐的准备。 Teller 在一篇关于“魔术七大秘密”的文章中提到了这个现象: 如果一个魔术比你(或其他任何理智的旁观者)愿意付出的时间、金钱和精力更多,你就会被它愚弄。我的搭档 Penn 和我曾在 David Letterman 的脱口秀节目上,从桌子上的礼帽里变出 500 只活蟑螂。为此我们准备了数周时间。我们雇了一位昆虫学家,他为我们提供了适合镜头展示的慢速蟑螂(厨房下水道里的蟑螂可不适合拍特写),并教我们如何在不尖叫的情况下抓住这些虫子。然后我们用泡沫板(蟑螂无法附着的少数材料之一)制作了一个秘密隔层,并精心设计了将这个隔层悄悄放入礼帽的方案。这个过程比表演本身要麻烦得多?对你来说可能是的。但对魔术师来说并不是。 很多刚入行的科技新人会问我成功的秘诀。其实并没有什么特别的秘诀,但有一个道理:愿意做那些看上去极其琐碎乏味的工作,就能产生像魔术般神奇的效果——这在科技领域同样适用。 我们是一个痴迷于自动化、精简和效率的行业。我们的工程文化奠基文本之一,Larry Wall 的《程序员的美德》中提到过“懒惰”: 懒惰:这种品质让你愿意付出巨大的努力来减少整体的工作量。它促使你编写省力的程序,这些程序能帮助其他人,并且记录你写的内容,这样你就不用重复回答同样的问题。 我并不反对这一点:将重复性工作交给程序处理是编程最好的地方之一。但有些问题是无法通过自动化解决的。如果你愿意去面对那些琐碎繁重的任务,你就能展现出如魔术般的能力。 例如,我曾经加入一个维护系统的团队,这个系统因为错误太多而陷入困境。大概有两千个未解决的错误报告。所有问题都没有被标记、分类或优先排序。团队无法就哪些问题需要优先处理达成一致。结果就是不断随机地处理错误,但这常常让人不清楚某个问题是否真的重要。新问题无法被有效处理,因为找到重复问题几乎是不可能的。未解决的问题数量继续攀升,团队已经停滞了数月。我被分配的任务是:让团队重新运转起来,扭转未解决问题数量的上升趋势,并最终将其降到零。 于是我采用了和魔术师一样的方法——其实根本没有什么技巧:我做了那些枯燥的工作。我把所有的问题都打印出来——每个问题一页纸。我读了每一页。我占用了一个大房间,把纸张堆放在地板上。我在便签上写上标签,然后贴在不同的堆上。我在各个堆之间移动纸张。我在白板上画了长长的列,写上问题编号,幻想自己像 Ben Affleck 在电影《会计刺客》中那样。我在那个房间里呆了将近三周,最后所有的错误报告都被审阅、标记、分类和优先排序。 趋势立即发生了逆转:我们立刻关闭了几百个重复的错误报告,而现在新问题的分类只需要几分钟,而不是一天。我们用了大概一年多的时间,将未解决的问题数量降到零,整个过程非常顺利。人们说我完成了不可能的任务,但其实不是:我只是做了那些琐碎乏味的工作,而没人愿意去做罢了。 有时候,编程像是魔术:你念一些晦涩的咒语,然后一群机器人就会按你的指令行事。但有时候,魔法其实很平凡。如果你愿意面对那些枯燥繁重的任务,你也能实现看似不可能的效果。

September 27, 2024 · 1 min · fisherdaddy

为什么我们坚持使用 Ruby on Rails • Sid Sijbrandij

这篇文章 由 GitLab Inc. 的联合创始人、首席执行官和董事会主席 Sid Sijbrandij 撰写,本文主要探讨了 Ruby on Rails 作为开发框架的优势,尤其是在 GitLab 项目中的成功应用。作者强调,Ruby on Rails 通过结合良好的架构和易用性,解决了传统开发框架在“可用性”和“结构性”之间的权衡问题。此外,文章讨论了 模块化 的重要性以及为什么 微服务 并不是实现模块化的唯一或最佳方式。最后,文章介绍了 GitLab 如何通过 模块化单体架构 实现了开源与商业模式的结合,促进了创新和扩展。 Ruby on Rails 的优势 Ruby on Rails 结合了 PHP 的易用性和 Java 的架构完整性,创建了一个既易于上手又结构良好的 Web 框架。 GitLab 选择 Ruby on Rails 作为其开发框架,得益于其易用性和良好的架构,这一选择极大地推动了 GitLab 的成功。 模块化的必要性 模块化可以缩短开发时间,减少沟通需求,并允许对单个模块进行独立的更改和研究。 作者引用了 David L. Parnas 和 Fred Brooks 的理论,强调模块化有助于减少复杂性和沟通成本。 微服务的局限性 虽然微服务可以通过操作系统强制模块边界,但这种方法带来了显著的性能和可靠性问题。 微服务架构增加了不必要的复杂性,并且没有保证能够真正实现模块化,反而可能导致“分布式混乱”。 模块化单体架构的优势 GitLab 采用了 模块化单体架构,即一个结构良好、模块化的单一进程程序。这种架构减少了复杂性,并提升了开发效率。 虽然 Rails 有一些性能问题,但 GitLab 通过结合其他技术(如用 Go 编写的 gitaly 守护进程和 PostgreSQL)解决了这些问题。 开源与商业模式的结合...

September 27, 2024 · 1 min · fisherdaddy

作为独立开发者,如何管理我的动力 • Marcus Buffett

本文作者 Marcus Buffett 作为一名独立开发者,分享了自己在保持工作动力方面的经验与心得。作者强调,作为独立开发者,如何有效地激发和维持动力是一个关键问题,并介绍了多种策略来帮助自己保持高效工作。这些策略包括从外部获取动力、留下一些未完成的任务、亲自使用自己的产品、解决痛点、避免“零日”、以及与合作伙伴保持互动等。文章的基调轻松,更多像是一篇个人日记而非正式的建议。 外部动机的利用: 作者自知自己更依赖外部动机,因此通过系统化的方式来获取动力。例如,订阅通知和社交媒体提及提醒等外部反馈能给他带来动力,尽管随着时间推移,这种动力的强度会有所减弱。 留下一些未完成的任务: 每次工作结束时,作者会刻意留下一些未完成的任务,这样第二天开始工作时能迅速进入状态。这种“快速胜利”的策略帮助他更快进入工作流。 亲自使用产品: 通过亲自使用自己开发的产品,作者能够更直观地感受到产品中的问题和不足,从而激发改进的动力。同时,这也带来了更好的产品创意。 解决痛点: 作者强调,与其强行忍受工作中的痛点,不如寻找解决方案。例如,使用自动生成类型的库来减少重复性工作,不仅消除了痛苦,还增加了工作的兴奋感。 避免“零日”: 作者尽量避免“零生产力日”,即完全没有任何工作成果的日子。即使是完成一点小任务,也能让他在休息时没有负罪感,从而真正放松。 合作伙伴的作用: 尽管是独立开发者,作者也提到拥有一个合作伙伴的重要性。合作伙伴不仅能在技能上互补,还能通过定期的沟通和反馈保持双方的工作动力。 灵活利用突发的动力: 当灵感和动力突然涌现时,作者会立即行动,即使是在深夜。这种灵活性是独立开发者的一大优势。 做“无事”以重新聚焦: 当陷入社交媒体等干扰时,作者发现最有效的策略是先什么都不做,让大脑冷静下来,再重新进入工作状态。 通过这些策略,作者能够更好地管理自己的动力,保持工作效率,同时也享受独立开发的自由和灵活性。 作为独立开发者,如何管理我的动力 对于独立开发者来说,保持动力是最大的挑战之一。我一直在记录如何“破解”我的动力,哪些方法有效,哪些方法无效。以下是一些对我而言行之有效的策略。 将外部刺激转化为动力 我一直知道自己比起内在动机(intrinsically motivated)更受外部动机(extrinsically motivated)驱动。因此,我建立了一些系统来获取短暂的外部动力,例如当有人订阅时,我的 Money Bots 会立即弹出通知。 虽然我平时会关闭大多数推送通知,但这些订阅通知会直接出现在我的主屏幕上。每次收到通知时,我都会感到一阵小小的动力提升。尽管一开始每新增一个订阅者都会带来强烈的多巴胺刺激和能量提升,但随着时间推移,这种刺激会逐渐减弱。然而,这些通知依然能为我提供动力。 类似地,我还订阅了一个服务,当有人在网络上提到我的项目 Chessbook 时,它会立即通知我。这不仅有助于市场推广,因为在社交媒体上与用户互动很重要,同时,每当看到有人(希望是正面的)讨论我开发的项目时,也会激励我继续前进。 此外,我还创建了一个名为 #pump-up 的频道,用来记录我们达到的一些里程碑,比如月经常性收入(MRR)达到 $X 美元,Discord 用户达到 2000 人,流失率低于 6% 等等,这些成就都令人振奋。 任务留一点没做完 这一点对我的帮助非常大。我尽量在结束一天的工作时,将任务留到 90% 完成。这种状态比完全完成任务稍显不爽,但第二天开始工作时,会轻松 10 倍。开始一天的工作时,能迅速完成一个小任务,会让我立刻进入“心流状态”(flow state)。但任务也不能过于简单,如果只是运行 git commit 就能完成,那就没有挑战了。理想情况下,剩余的任务应该是我知道怎么做,但需要花 5-10 分钟才能搞定的。 尽可能多地使用自己的产品 我尽量多使用自己开发的产品。有人报告某个小 bug 时,我可能觉得无关紧要。但当我自己遇到同样的问题时,才意识到它对用户体验的负面影响有多大,这时我就会立刻修复它。亲身体验的痛点远比别人告知的更直观。 顺便一提,这也帮助我想出更好的产品创意。最好的创意往往不是坐下来冥思苦想用户可能想要什么,而是来自我自己在使用过程中发现了需求。 消除痛点,而不是硬着头皮坚持 开发过程中,总会有一些令人头疼的任务,比如维护被忽视的代码库、处理第三方服务,或者发布新版本的原生应用等。如果我知道某个任务中包含这些内容,就会更难鼓起勇气去开始。 诀窍是,你几乎总能找到方法来减轻这些过程中的痛苦。 比如,最近我开始一个新任务时感到很大的阻力,因为它需要创建 4 个以上的新接口,而这通常涉及很多重复代码。我需要在后端定义数据类型,然后在前端再次定义,确保传递的数据和路径都正确,而且由于没有类型检查,这通常第一次总是出错的。所以我在开始前,找到了一个名为 RSPC 的 RPC 库,它可以自动为我生成类型定义,使得在前端调用后端函数变得和调用另一个异步函数一样简单和安全。...

September 27, 2024 · 1 min · fisherdaddy

Canva 的 SEO 策略:程序化内容聚合与反向链接

偶然看到的一篇介绍Canva SEO的推文,我整理了一下并翻译成了中文。 Canva 是 SEO 领域的典范。 每月流量达 2.42 亿 拥有 2900 万个反向链接 (Backlinks) 覆盖 190 个目标国家 每月用户达 1.8 亿 公司估值 260 亿美元 我花了 20 多个小时逆向分析了他们的成功策略。 总结出 7 大核心 SEO 策略: 策略 1:程序化 SEO Canva 非常擅长程序化 SEO,这种策略通过自动化方式创建成千上万个针对 SEO 的网页。 这些页面专门针对与设计需求相关的搜索,如: 标志设计 简历制作 图表、统计图等… 这些页面通常瞄准高搜索量的关键词,为 Canva 带来了超过 1 亿的每月 SEO 流量。 Canva 的程序化策略分为两个主要类别: 1. 制作器/生成器页面 公式:[主题] [生成器/制作器] 例如:简历生成器 或 标志制作器 Canva 的制作器/生成器页面是其 SEO 策略的核心,它们的目标用户是那些想要创建设计的客户。 这些页面有两个主要作用: 信息中心 功能型着陆页 这些页面为用户提供了在 Canva 平台上直接创建所需设计的工具。 2. 模板 公式:[创意] 模板...

September 26, 2024 · 1 min · fisherdaddy

智能时代 • Sam Altman

本文探讨了人类即将进入“智能时代”的前景。通过人工智能( AI )的持续发展,尤其是深度学习技术的进步,人类将能够解决许多当前难以想象的问题,并实现前所未有的繁荣。尽管 AI 的发展可能带来挑战和风险,但其潜力巨大,将极大地提升全球生活质量。未来的 AI 将不仅仅是工具,而是能够协助人类完成复杂任务的虚拟助手,推动科学、教育、医疗等领域的全面进步。 历史进程与 AI 的加速作用: 人类历史上通过科学发现和技术进步不断提高能力, AI 将加速这一进程。我们的祖先为现代社会奠定了基础,而 AI 将帮助我们在这一基础上继续构建,解决难题并实现新的突破。 深度学习的成功: 深度学习技术的突破是推动 AI 进步的核心原因。随着计算资源和数据的增加, AI 在解决问题上的表现越来越好。深度学习能够学习任何数据分布的底层规律,这种能力使其成为解决复杂问题的有力工具。 AI 的未来潜力: 未来, AI 将成为个人助手,帮助协调医疗、教育等各个领域的任务。 AI 还将推动下一代系统的开发,促进科学的全面进步。人类将拥有虚拟专家团队,能够实现几乎任何想象中的目标。 智能时代的繁荣与挑战: AI 的广泛应用将带来巨大的繁荣,未来每个人的生活质量都可能超过当今最富有的人。然而,繁荣并不一定直接带来幸福,社会需要谨慎应对 AI 带来的挑战,特别是劳动力市场的变化。尽管工作形式会发生变化,但人类的创造力和互助精神将继续推动社会进步。 技术与能源的基础设施需求: 为了使 AI 普及并惠及更多人,必须降低计算成本并确保能源和芯片的充足供应。如果基础设施建设不足, AI 可能成为一种稀缺资源,甚至引发冲突。 风险与应对: 尽管 AI 可能带来一些负面影响,如就业市场的变化,但这些变化将比预期更为缓慢。社会应尽早采取措施,最大化 AI 的好处,同时尽量减少其潜在的危害。 未来的展望: 智能时代将带来前所未有的繁荣和技术突破,如解决气候问题、建立太空殖民地、揭示物理学的终极奥秘等。虽然这一切不会一蹴而就,但 AI 的发展将使这些成就变得可能且常见。 智能时代 在未来几十年里,我们将能够实现一些在祖辈眼中如同魔法般的事物。 这种现象并非新鲜事,但其发展速度将大幅提升。随着时间推移,人类的能力显著增强;我们现在已经能够做到许多前辈们认为不可能的事情。 我们的能力提升并非源于基因变化,而是因为我们生活在一个比任何个体都更智慧、更强大的社会体系中。从某种意义上说,社会本身就是一种高级智慧。我们的祖辈和他们之前的几代人,为我们今天所依赖的“人类进步的基石”奠定了基础。人工智能(AI)将为人类提供工具,帮助我们解决难题,为这一进步体系增添新的支撑点,让我们能够实现单靠自身难以完成的任务。进步的故事将继续延续,我们的子孙后代将拥有更强的能力。 这一过程不会一蹴而就,但我们很快将能与 AI 合作,实现比以往更多的成就。最终,每个人都可以拥有一支虚拟专家团队,涵盖各个领域的 AI 专家,共同创造几乎所有我们能够想象的事物。孩子们将拥有虚拟导师,可以在任何学科、任何语言以及任何学习进度上,提供个性化的指导。类似的应用还可以扩展到医疗保健、软件开发等众多领域。 借助这些新能力,我们有望实现今天难以想象的共享繁荣;未来,每个人的生活都有可能比现在任何人的生活都要好。虽然财富不一定能带来幸福——即使在富人中也有不少不快乐的例子——但它确实能够显著改善世界各地人们的生活。 从狭义上看,人类历史就是科学发现和技术进步不断积累的过程。经过数千年的努力,我们学会了如何将沙子熔化,加入杂质,并以惊人的精度在极小的尺度上排列成计算机芯片,最终创造出能够生成日益强大的人工智能的系统。 这可能是迄今为止人类历史上最重大的事实。或许在未来几年内(!),我们就能拥有超级智能(Superintelligence);即使需要更长的时间,我也相信我们终将达到这一目标。 我们是如何到达这一繁荣的起点的? 简单来说,就是因为深度学习 (Deep Learning) 有效。 更具体地说,深度学习在规模扩展的过程中,表现出可预见的效果提升,而我们为其投入了越来越多的资源。 事实就是这样:人类发现了一种算法,它能够真正学习任何数据分布(更确切地说,它能够学习生成任意数据分布的“规则”)。随着计算能力和数据的增加,它帮助人们解决难题的能力也随之提升。尽管我花了很多时间去思考这一点,但仍无法完全领会它的深远意义。 我们仍有许多细节问题需要解决,但过于关注某个具体挑战是错误的。深度学习确实有效,我们将会解决剩下的问题。未来会有许多可能发生的事情,但最主要的是,随着 AI 规模的扩大,它将变得越来越强大,从而显著提升世界各地人们的生活质量。...

September 24, 2024 · 1 min · fisherdaddy

对 OpenAI o1 的逆向工程分析

本文主要是对OpenAI o1 的逆向工程分析。OpenAI 推出了新的推理系统 o1,这是一个基于强化学习(RL)训练的语言模型,旨在处理复杂的推理任务。o1 与传统的自回归语言模型不同,它在推理时进行在线搜索,并且推理过程中的计算成本显著增加,展示了新的推理扩展规律。尽管 o1 目前只是一个原型,尚未达到产品市场契合度,但它代表了 AI 未来发展的方向。OpenAI 对 o1 的发布采取了透明的态度,承认自己也不完全知道如何最有效地使用该模型,并希望通过用户反馈来完善其功能。 o1 系统的特性: o1 是通过强化学习(RL)训练的,特别注重长推理链条的生成。 与传统语言模型不同,o1 在推理过程中进行在线搜索,并且花费更多的推理计算资源,这表明推理扩展规律的存在。 o1 的推理过程更接近于闭环控制系统,而不是简单的自回归生成。 强化学习的作用: o1 的训练依赖于强化学习中的“链式思维”方法,系统在推理过程中不断改进自己的表现。 强化学习的成功使得 o1 能够在训练时有效探索新的推理路径,并通过更多的推理时间提高模型性能。 推理过程中的每一步都可能获得奖励,帮助模型识别并纠正推理中的错误。 发布背景与未来展望: o1 的发布被视为一种“预览”,类似于早期的 GPT-3 发布,而非像 ChatGPT 那样的成品。 OpenAI 还没有完全确定 o1 的最佳应用场景,并希望通过用户反馈来定义其用途。 尽管 o1 目前的表现尚未达到顶级,但它展示了未来 AI 系统中可能采用的推理和决策方法。 推理过程与计算成本: o1 的推理过程非常昂贵,尤其是在推理时生成多个候选答案并进行评分的情况下。 OpenAI 提供的推理时间计算表明,o1 的推理成本并不随着生成的令牌数量呈线性增长,而是受到推理深度和广度的影响。 目前 o1 的推理价格为每百万输入令牌 $15,每百万输出令牌 $60。 未来的挑战: 要在开源社区中复制 o1 的训练过程将非常困难,因为需要大量复杂的前向推理路径和对比示例。 o1 的成功依赖于大量计算资源以及精细的强化学习过程,这对其他公司和研究机构来说是一个巨大的挑战。 随着 o1 系统的发展,它可能会被整合到 ChatGPT 等产品中,用于处理更复杂的任务。 总结来说,o1 是 OpenAI 推理系统的一次重要尝试,展示了未来 AI 推理模型的发展方向,尽管目前仍处于原型阶段,但它的技术潜力巨大。...

September 19, 2024 · 3 min · fisherdaddy

OpenAI 官方指南:推理模型

本文由 OpenAI 发布于 2024 年 9 月 12 日。 OpenAI o1 系列模型是新一代通过强化学习训练的大型语言模型,专门用于处理复杂的推理任务。o1 模型在回答问题之前会进行思考,能够在回应用户之前生成一系列内部推理链。o1 模型在科学推理方面表现出色,在 Codeforces 编程竞赛中排名前 11%,并在美国数学奥林匹克竞赛 (AIME) 预选赛中跻身美国前 500 名选手,同时在物理、生物和化学问题的基准测试 (GPQA) 中超越了博士生水平的准确性。 API 中目前有两种推理模型: o1-preview:o1 模型的早期预览版,擅长利用广泛的世界知识来解决复杂问题。 o1-mini:o1 的更快且成本更低的版本,尤其适合处理不依赖广泛知识的编程、数学和科学任务。 虽然 o1 模型在推理能力上取得了重大进展,但并不打算在所有应用场景中取代 GPT-4o。 对于需要图像输入、函数调用或快速响应的应用,GPT-4o 和 GPT-4o mini 模型仍然是更合适的选择。不过,如果你正在开发的应用需要深度推理且可以接受较长的响应时间,那么 o1 模型可能是一个理想的选择。我们很期待看到你用这些模型创造出什么! 🧪 o1 模型目前处于测试阶段 目前,o1 模型正处于测试版阶段,功能有所限制。仅限五级开发者访问(在此处查看你的使用等级),并且速率限制较低(20 RPM)。我们正在努力增加更多功能、提高速率限制,并计划在未来几周内向更多开发者开放! 快速入门 o1-preview 和 o1-mini 模型可以通过聊天完成端点访问。 from openai import OpenAI client = OpenAI() response = client.chat.completions.create( model="o1-preview", messages=[ { "role": "user", "content": "Write a bash script that takes a matrix represented as a string with format '[1,2],[3,4],[5,6]' and prints the transpose in the same format....

September 14, 2024 · 3 min · fisherdaddy

OpenAI 推出 o1 和 o1-mini: AI 推理的新突破,迈向 AGI 的一大步

OpenAI 于 2024 年 9 月 12 日推出了 o1 和 o1-mini 模型,显著提升了 AI 推理能力。o1 不仅仅是一个新模型,更是一个新范式。ChatGPT 正在从仅使用系统 1 思维(快速、自动、直观、容易出错)发展到系统 2 思维(缓慢、深思熟虑、有意识、可靠)。这使得它能够解决以前无法解决的问题。除了模型的推出,OpenAI 还发布了2篇报告:Introducing OpenAI o1-preview、OpenAI o1-mini,通读这两篇报告,可以对 o1 和 o1-mini 有更深入的了解,我这里摘要了其中的核心内容。 o1 模型能力 一种通过强化学习训练的大语言模型,能够执行复杂的推理任务。o1 会在回答前先进行思考——它可以在回复用户之前生成较长的内部思维链。 强化学习算法 OpenAI 的大规模强化学习算法通过模型的思维链教会模型如何以高效的数据利用率进行推理。随着强化学习训练时的计算量增加,以及测试时模型思考时间的延长,模型 o1 的性能会持续提升。这种方法在扩展过程中的限制与大语言模型 (LLM) 的预训练有显著不同。 思维链方式 就像人类在回答困难问题前可能需要长时间思考一样,o1 在解决问题时也会使用“思维链” (chain of thought)的方式。通过强化学习,o1 不断优化这种思维链,改进其解决问题的策略。它能够识别并修正自己的错误,将复杂的步骤分解成简单的部分,并在当前方法无效时尝试不同的路径。这个学习过程极大地提升了模型的推理能力。 考试成绩表现 在 2024 年的 AIME(专为挑战美国顶尖高中生设计的数学竞赛)考试中,GPT-4o 平均只解决了 12%(1.8/15)的题目,而 o1 在每题只使用一个样本的情况下,解决了 74%(11.1/15);使用 64 个样本取共识后,解决率提高到 83%(12.5/15);通过对 1000 个样本进行评分排序,解决率进一步提升到 93%(13.9/15)。13.9 分的成绩足以让 o1 排名进入全国前 500 名,并超过了美国数学奥林匹克的入选线。 推理表现 在数据分析、编码和数学等推理密集型类别中,o1-preview 明显优于 gpt-4o。然而,o1-preview 在某些自然语言任务上并不是首选,这表明它并不适合所有用例。...

September 13, 2024 · 1 min · fisherdaddy

大模型领域一些常见术语的含义

本文是 Anthropic 官方文档给出的一些 LLM 术语的解释,我这里将其翻译为了中文,并增加了 LLM 中一些常见的术语词。 LLM 大语言模型(LLM, Large Language Model)是一种具有大量参数的 AI 语言模型,能够执行多种复杂且实用的任务。这些模型通过大量文本数据进行训练,能够生成类人文本、回答问题、总结信息等。Claude 是基于大语言模型的对话助手,并通过人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback)进一步训练,以更有帮助、诚实且无害。 Pretraining 预训练(Pretraining)是语言模型在大规模无标注文本数据集上进行的初始训练过程。以 Claude 为例,自回归语言模型会根据文档中的上下文来预测下一个词。预训练模型本身并不擅长回答问题或遵循指令,通常需要复杂的提示工程来引导出预期的行为。通过微调(Fine-tuning)和人类反馈强化学习(RLHF),这些预训练模型可以进一步优化,从而在广泛任务中变得更加有用。 Fine-tuning 微调(Fine-tuning)是通过额外数据进一步训练预训练模型(Pretraining)的过程。这会使模型开始模仿微调数据集中的模式和特征。微调可以帮助模型适应特定领域、任务或写作风格,但需要仔细考虑微调数据的质量及其对模型性能和潜在偏见的影响。 SFT (Supervised Fine-Tuning) SFT 是一种用于语言模型优化的技术,它通过使用标注好的数据集对模型进行进一步训练。相比预训练过程中的无监督学习,SFT 专注于让模型在特定任务上表现更好。在监督微调中,模型根据人为标注的输入和输出对进行学习,从而提高其在回答问题、完成任务或遵循指令等特定场景中的表现。SFT 经常用于帮助模型理解更复杂的任务要求,使其生成的输出更加符合预期。 LORA(Low-Rank Adaptation) LORA 是一种微调大型预训练语言模型的技术。它通过在模型的某些权重矩阵上引入低秩分解来降低模型更新所需的参数数量。传统的微调需要更新模型的所有参数,而 LORA 只微调一部分参数,这大大减少了微调的计算成本和存储需求,同时保持了模型的性能。LORA 在特定任务或数据集上的微调表现良好,因为它可以灵活地适应新的任务要求,而不需要重新训练整个模型。 QLORA(Quantized Low-Rank Adaptation) QLORA(量化低秩适应)是一种用于大语言模型的微调技术,它通过对模型权重进行低秩分解和量化来减少微调的计算开销,同时保持性能。这种方法能够在保持模型准确性的同时,显著降低内存需求和计算复杂度,因此特别适用于在有限的资源下微调超大规模模型。 QLORA 的主要特点是: 低秩适应(Low-Rank Adaptation, LORA):通过对模型权重的低秩分解,QLORA 可以仅对少量参数进行微调,这样可以在节省计算资源的同时仍能有效捕捉任务相关的模式。 量化(Quantization):QLORA 使用 4-bit 或更低精度的量化技术来减少模型的存储和计算要求。量化技术通过缩减模型中存储和处理的参数位数,能够降低硬件负载,而不显著影响模型的性能。 高效微调:QLORA 可以在不完全重训练模型的情况下进行微调,尤其适用于资源受限的场景,例如边缘设备或中小型研究团队。 QLORA 技术的出现使得对大型预训练模型进行特定任务的微调变得更加可行。 RLHF(Reinforcement Learning from Human Feedback) 来自人类反馈的强化学习(RLHF, Reinforcement Learning from Human Feedback)是一种用于训练预训练语言模型的技术,使其行为更加符合人类的偏好。这种训练方式可以帮助模型更有效地执行指令,或表现得更像聊天机器人。人类反馈的过程包括对多个文本样本进行排序,强化学习会鼓励模型倾向于生成与高排名样本相似的输出。Claude 已通过 RLHF 进行训练,使其成为一个更加有用的助手。更多详情可以参考 Anthropic 的论文: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback。...

September 6, 2024 · 1 min · fisherdaddy

1994年的重现

本文探讨了当前互联网消费领域的创新机会,并指出我们正进入一个类似于 1994-1998、2003-2007 和 2008-2012 的新时期。在这个新时期,技术的进步将推动新一代消费级应用的诞生。文章提出了几个可能的创新方向,包括“合成专家”、“消费化的创造力”、“新浏览器”和“AI 伴侣”,并分析了这些方向的潜力和挑战。 历史背景: 互联网消费公司往往在技术突破后迅速崛起。例如,1990年代初的网络浏览器诞生后,Yahoo、Amazon、Google 等公司相继成立;高速度互联网普及后,LinkedIn、Facebook、YouTube 等平台出现;iOS 应用商店和 Facebook 平台开放后,Airbnb、Uber、Instagram 等应用迅速发展。 2010年代对消费互联网公司不太友好,部分原因是缺乏技术上的重大突破(加密货币可能是个例外)。 当前的技术机会: 合成专家:AI 技术的发展将使得某些服务变得非常便宜,并可能催生出“合成专家”类产品。这些产品可能以导师、教练或治疗师的形式出现,帮助用户学习新技能或支持情感需求。 消费化的创造力:AI 降低了创作门槛,使得更多创意领域变得对普通消费者友好。例如,Midjourney(图像)、Suno 和 Udio(音乐)、Runway(视频)等公司已经取得了突破。未来,软件开发、时尚设计、游戏开发等领域也可能会变得更加消费化。 新浏览器:浏览器可能成为用户与 AI 助手交互的主要应用,因为它是用户花费最多时间的地方。AI 提供商可能会与现有浏览器合作或收购它们,以获得用户的注意力。文章特别提到 Arc 浏览器可能成为 OpenAI 或 Anthropic 的收购目标。 AI 伴侣:AI 伴侣能够深入了解用户,提供个性化的建议和情感支持,甚至帮助用户更好地理解自己。尽管这种技术可能带来便利,但也可能让人们减少对人际关系的依赖。 总的来说,作者认为这些新兴的技术方向将带来新的消费互联网机会,但同时也提醒我们要谨慎对待这些技术对人类关系的潜在影响。 1994年的重现 2024年8月25日 随着技术的突破,最大的消费级互联网公司纷纷成立。 网络浏览器的诞生(Nexus 于1991年推出,Mosaic 于1993年,Netscape 于1994年): Yahoo(1994年),Amazon(1994年),Ebay(1995年),Craigslist(1995年),Expedia(1996年),Paypal(1998年),Google(1998年)。 高速互联网的普及: LinkedIn(2003年),FB(2004年),YouTube(2005年),Reddit(2005年),Twitter(2006年),Spotify(2006年),Dropbox(2007年)。 Facebook 平台(2007年)+ iOS 应用商店(2008年): Airbnb(2008年),Pinterest(2009年),Whatsapp(2009年),Venmo(2009年),Uber(2010年),Instagram(2010年),Snapchat(2011年),Tinder(2012年)。 2010年代对消费级互联网公司来说相当艰难。虽然有很多因素影响了消费者市场(例如,Facebook 撤销了 API,开始掠夺合作伙伴,并证明它可以成功击退、复制或收购潜在威胁……),但最简单的解释是,2010年代缺乏像之前那样推动消费市场发展的技术突破(加密货币可能是个例外)。 显而易见,我们已经进入了一个新的消费者机会期——类似于1994-1998年、2003-2007年和2008-2012年。 我们可以在哪些领域期待出现新的突破性消费应用呢?这里有几个想法: 合成专家 自动化的好处是服务变得极其便宜,但负面影响是,那些原本因为这些服务昂贵而依赖劳动的人会面临什么命运。 先从好的一面说起。在未来不远的某个时刻,我预计我们会看到类似“合成专家”的产品。 这些专家可能像导师一样,帮助我们学习新技能,比如烹饪、语言学习、高中物理、编程、象棋。它们也可能像教练或培训师,甚至是帮助我们满足情感需求的治疗师…… 创造力的普及 过去几年里,我们看到一些在不同创意表达领域取得突破的公司:Midjourney(图像),Suno 和 Udio(音乐),Runway(视频)。 我猜测有些创意领域,虽然目前还不太适合大众使用,但随着 AI 降低了进入门槛,最终会变得更加亲民。 比如软件开发——通过像 val.town、Claude 或 websim 这样的工具——可能会成为一个突破点。时尚设计、家具设计、游戏开发、硬件设计等领域也可能如此。我从未设计过自己的家具或开发过视频游戏,但我敢打赌,将来某一天我会尝试。...

September 6, 2024 · 1 min · fisherdaddy

OpenAI 官方指南:如何选择合适的模型

在选择合适的模型时,需要在准确性、延迟和成本之间找到平衡。首先应优先优化准确性,达到目标后再优化成本和延迟。本文提供了一个实用指南,帮助用户在不同模型之间做出明智的选择,并通过一个假新闻分类器的示例展示了如何应用这些原则。 准确性优先 设定明确的准确性目标,例如在客户服务场景中,90%的电话需要在首次交互中正确分类。 开发评估数据集,以衡量模型在这些目标下的表现。 使用最强大的模型(如 GPT-4o)来优化准确性,记录所有响应以便后续使用更小的模型进行蒸馏。 成本和延迟优化 一旦达到准确性目标,可以通过以下方法优化成本和延迟: 使用更小的模型(如 GPT-4o-mini)进行零样本或少样本测试,确保在较低成本和延迟下维持准确性。 使用蒸馏技术对更小的模型进行微调。 实际示例 通过开发一个假新闻分类器,设定目标为90%的准确性、每千篇文章成本低于 $5、每篇文章处理时间少于2秒。 通过三次实验,最终使用微调的 GPT-4o-mini 达到了所有目标,成本仅为初始模型的2%。 结论 通过从 GPT-4o 切换到微调后的 GPT-4o-mini,性能相当但成本大幅降低。这一过程强调了先使用强大的模型达到准确性目标,然后再通过微调更小的模型来优化成本和延迟的策略。 如何选择合适的模型 选择合适的模型,无论是 GPT-4o 还是较小的 GPT-4o-mini,都需要在 准确性、延迟 和 成本 之间进行权衡。本指南为您提供关键原则,并通过一个实际例子帮助您做出明智的决策。 核心原则 选择模型的原则很简单: 首先优化准确性: 优化准确性,直到达到目标准确率。 其次优化成本和延迟: 在维持准确率的前提下,选择最便宜且最快的模型。 1. 首先关注准确性 首先为您的用例设定一个明确的准确性目标,确定达到“足够好”的准确率即可投入生产。可以通过以下方式实现: 设定明确的准确性目标: 明确您的目标准确率统计指标。 例如,90% 的客户服务电话需要在首次互动时得到正确分类。 开发评估数据集: 创建数据集,用以衡量模型的实际表现。 继续以上的例子,收集 100 个交互实例,记录用户的请求、LLM 的分类结果、正确的分类结果,以及分类是否正确。 使用最强大的模型进行优化: 从最强的模型入手,以确保达到目标准确率。记录所有响应,供后续更小的模型蒸馏使用。 使用检索增强生成 (retrieval-augmented generation) 来提高准确性。 使用微调 (fine-tuning) 来优化模型的一致性和行为。 在这个过程中,收集提示与生成对 (prompt and completion pairs),用于评估、少样本学习或微调。这一过程被称为 提示优化 (prompt baking),有助于未来生成高质量的示例。 想了解更多方法和工具,请查看我们的 准确性优化指南。 设定一个现实的准确性目标 通过评估模型决策的财务影响来设定一个合理的准确性目标。例如,在假新闻分类的场景中:...

September 5, 2024 · 1 min · fisherdaddy

创始人模式 • Paul Graham

本文讨论了创业者在公司扩展过程中面临的管理挑战,特别是与传统管理模式的冲突。作者通过引用 Airbnb 创始人 Brian Chesky 的经验,指出传统的“经理模式”在初创公司扩展时往往无效,甚至有害。相反,作者提出了“创始人模式”的概念,认为创始人应该继续以更直接、更深入的方式参与公司运营,即使公司规模扩大。虽然目前对“创始人模式”的理解还不成熟,但已有成功的案例证明其有效性。 传统管理模式的缺陷: 传统观点认为,随着公司规模扩大,创始人应逐渐退居幕后,依赖高管团队来管理公司。这种模式通常被总结为“雇佣优秀的人并给他们足够的空间工作”。 然而,许多创始人,包括 Brian Chesky,发现这种模式在实际操作中效果不佳,导致公司业绩下滑。 创始人模式的提出: 作者提出,创始人应保持对公司运营的深入参与,而不仅仅依赖高管团队。这种模式被称为“创始人模式”。 这种模式类似于 Steve Jobs 在苹果公司采用的方式,例如他每年都会与公司中最重要的 100 人举行一次特别的会议,而这些人并不一定是公司中职位最高的。 创始人模式的潜在挑战: 虽然创始人模式可能更有效,但它也更复杂,涉及到更多的直接参与和决策。这种模式可能会因人而异,甚至在同一家公司内,不同时期的实施方式也会有所不同。 文章还警告说,创始人模式可能会被误用。例如,一些创始人可能会借此为不愿意合理授权辩护,或者非创始人管理者可能会错误地尝试模仿创始人的行为。 未来展望: 作者希望未来能更好地理解和定义创始人模式,从而帮助更多的初创公司在扩展过程中保持成功。同时,他也意识到随着创始人模式的普及,可能会出现新的问题和挑战。 创始人模式 2024年9月 上周在 YC 的一场活动中,Brian Chesky 做了一场让所有在场者都记忆深刻的演讲。我事后与大多数创始人交流时,他们都表示这是他们听过的最好的演讲。Ron Conway 生平第一次忘记了做笔记。我并不打算在这里试图重现它,而是想谈谈它引发的一个问题。 Brian 的演讲主题是,关于如何经营大公司的传统智慧其实是错误的。随着 Airbnb 的扩展,一些出于好意的人建议他必须以某种方式管理公司以便扩张。这些建议可以乐观地总结为“雇佣优秀的人并给他们足够的空间去完成工作”。他照做了,但结果却十分糟糕。于是他不得不自己摸索更好的方法,其中部分灵感来自于研究 Steve Jobs 如何经营 Apple。目前来看,这些方法似乎确实有效。Airbnb 现在的自由现金流利润率已经位居硅谷前列。 在这场活动中,许多我们曾资助过的最成功的创始人都表示,他们也经历了类似的情况。他们同样被告知要用这种方式管理公司,但最终却对公司产生了负面影响。 为什么大家都在对这些创始人传达错误的建议?这对我来说是个谜。在反复思考后,我找到了答案:他们所收到的建议,其实是针对如何管理一个自己没有创立的公司——如何在你只是一个职业经理人时管理公司。但这种方法效果远逊于创始人自己的管理方式,对创始人来说,这种模式显得无效和不自然。因为创始人能够做到一些经理人无法做到的事情,而不去做这些事对创始人来说确实是错误的。 实际上,经营公司的方式有两种:创始人模式和经理人模式。到目前为止,即使在硅谷,大多数人也默认为初创公司扩展时必须转向经理人模式。但我们可以从那些尝试了经理人模式的创始人的失望中,以及他们努力摆脱这种模式的成功中,推断出另一种模式的存在。 据我所知,目前还没有专门讨论创始人模式的书籍。商学院甚至对它一无所知。到目前为止,我们只能依赖那些个别创始人通过自身实践所摸索出来的经验。然而,现在我们知道我们在寻找什么,我们可以更有针对性地去探寻。我希望在未来几年里,创始人模式能够像经理人模式一样被广泛理解。我们已经可以猜测出它在某些方面会有所不同。 经理人被教导的管理公司方法,似乎类似于模块化设计:你将组织结构中的各个部门视为一个个黑箱。你告诉直接下属该做什么,他们则负责具体执行。但你不会深入干预他们的工作细节。那样会变成微观管理,这是被认为不好的行为。 雇佣优秀的人并给他们足够的空间去完成工作。用这种方式描述听起来很有吸引力,不是吗?然而,实际上,许多创始人都发现,这往往意味着:雇佣一些看似专业的骗子,然后让他们把公司推向深渊。 我在 Brian 的演讲中,以及与其他创始人的对话中,注意到了一个共同的主题——被“误导”的感觉。创始人们感觉自己被两方面误导了:一方面是那些告诉他们必须像经理人一样管理公司的人,另一方面是当他们这样做时,公司内部的人对他们的反馈。通常情况下,当你周围的人都不同意你的意见时,你的默认假设应该是自己错了。但在这里,这是一个罕见的例外。没有自己做过创始人的风险投资人并不清楚创始人应该如何管理公司,而 C 级高管们则通常是极为擅长“向上管理”的高手。 无论创始人模式的具体内容是什么,很明显它将打破 CEO 只能通过直接下属与公司接触的传统原则。“跳级”会议将成为常态,而不再是一个如此不寻常以至于需要特别命名的做法。而一旦你放弃了这一限制,你就有无数的选择可以尝试。 例如,Steve Jobs 曾经每年为他认为是 Apple 最重要的100人举办一次休闲会,而这些人并不一定是组织结构图中职位最高的。你能想象在普通公司中做到这一点需要多大的决心吗?然而,试想一下这种做法可能带来的好处。它能够让一个大公司重新拥有初创公司的氛围。如果这些休闲会没有效果,Steve 应该不会年复一年地继续举办这些活动。但我从未听说有其他公司这么做。那么这是一个好主意还是一个坏主意?我们仍然不知道。这说明我们对创始人模式了解得有多么有限。 显然,创始人不可能继续用他们在公司只有20人时的方式来管理2000人的公司。某种程度的授权是必然的。自主权的边界在哪里,以及这些边界的明确程度,可能会因公司而异。甚至在同一家公司内部,随着管理者逐渐赢得信任,这些边界也会有所变化。因此,创始人模式将比经理人模式更为复杂,但它的效果也会更好。从个别创始人摸索前行的例子中,我们已经看到了这一点。 实际上,我关于创始人模式的另一个预测是,一旦我们弄清楚它的本质,我们会发现许多创始人其实早已在无意识中接近了这一模式——尽管他们的做法可能被许多人视为古怪,甚至更糟。 奇妙的是,想到我们对创始人模式的了解还如此之少,这本身就是一种鼓舞人心的念头。看看创始人们已经取得的成就,而他们是在面对不当建议的逆风中取得这些成就的。想象一下,如果我们能够告诉他们如何像 Steve Jobs 那样经营公司,而不是像 John Sculley 那样,他们又能取得怎样的成就呢?...

September 3, 2024 · 1 min · fisherdaddy

软件项目的时间估算 • Jacob Kaplan-Moss

本文是 Django 的共同创建者,同时担任工程主管的 Jacob Kaplan-Moss 所写。软件项目的估算是一个众所周知的难题,许多项目经常出现成本超支和进度延误的情况。然而,尽管估算困难,作者强调了估算的重要性,并认为放弃估算可能会限制职业发展。准确的估算是可以学习和掌握的技能,它能够帮助建立信任并促进职业的进一步发展。Jacob Kaplan-Moss 分享了一种软件项目时间估算的技术。他的方法的核心特点是同时捕捉时间和不确定性,以便为项目制定更准确的时间表。他的技术包括将工作分解为较小的任务、估算不确定性、计算预期和最坏情况的时间、必要时进行精细化,以及跟踪估算的准确性以便不断改进。 估算的挑战: 软件项目估算普遍困难,研究表明许多 IT 项目成本超支超过 200%,并且平均延误近 70%。 大型软件项目尤其容易超支,预算超过 1500 万美元的项目平均超支 66%,进度延误 33%。 “无估算”方法的局限性: 尽管有“无估算”方法和 Agile 方法试图避免时间单位的估算,但在某些情况下,准确的时间估算是不可避免的。例如,销售团队可能需要一个具体的时间表来完成交易,或者其他团队可能依赖于特定功能的交付时间。 估算的重要性: 估算是职业发展的关键技能,能够准确地给出时间表并按时交付任务有助于建立信任。对于希望在技术职业中更进一步的人来说,掌握估算技能至关重要。 估算是可以学习的技能: 估算是一项可以通过实践和反复校准来学习的技能。通过反复的项目分解和时间估算,工程师可以逐渐提高估算的准确性,并了解团队的工作节奏和代码库的复杂性。 我的估算技术: 任务分解:Kaplan-Moss 建议将工作分解为不同复杂度的小任务,并使用实际的日历时间(而非理想化的“程序员时间”)来估算每个任务的完成时间。任务复杂度分为小(1天)、中(3天)、大(5天)和超大(10天)四种。 估算不确定性:在初步估算的基础上,他建议通过应用一个“如果事情出错”的乘数来捕捉不确定性。这个乘数根据不确定性水平(低、中、高、极高)从 1.1 到 5.0 不等。这样可以得到预期时间和最坏情况的时间。 计算时间:通过任务复杂度和不确定性乘数,计算出每个任务的预期时间和最坏情况时间。例如,一个中等复杂度且高不确定性的任务预期需要 3 天,但最坏情况下可能需要 6 天。 精细化估算:如果估算范围过大,他建议通过进一步分解大任务或减少不确定性来精细化估算。可以通过研究、短期试验(spikes)或直接动手完成部分任务来减少不确定性。 跟踪准确性:最后,他强调在项目进行过程中跟踪实际用时,并与估算时间进行比较。这种反馈循环有助于不断改进未来的估算精度。 其他估算技术:Kaplan-Moss 还提到了其他几种估算技术,如 PERT(程序评估与审查技术)、基于证据的调度(Evidence-based scheduling)和水果沙拉 Scrum(Fruit-salad scrum),并指出这些技术也捕捉了时间和不确定性,但采用了不同的方法。 软件项目估算 众所周知,估算软件项目的难度非常大。哈佛商业评论 (HBR) 的一项研究发现,每六个 IT 项目中就有一个成本超支超过 200%,且延迟几乎 70%。麦肯锡 (McKinsey) 的另一项研究发现,IT 项目的平均预算超支 45%,时间超出计划 7%。研究还指出,大型软件项目的问题尤为严重:预算超过 1500 万美元的软件项目,平均预算超支 66%,时间延迟 33%。 实际上,任何在软件行业工作过一段时间的人都经历过类似的情形。你可能曾自信地说“这应该只需要几天时间”,但一个月后却发现自己仍未完成。软件项目估算总是难免遇到霍夫施塔特定律 (Hofstadter’s Law):“事情总是比你预期的时间更长,即使你考虑了霍夫施塔特定律。” 遗憾的是,许多人看到这种模式后,觉得估算软件项目太困难,干脆选择放弃。有一种被称为“无估算” (No Estimates) 的立场认为我们应该完全停止对软件项目进行时间估算。很多敏捷方法采用了任意的评分系统——如故事点 (Story Points)、T 恤尺码等——这些系统的设计目的就是为了避免给出具体的时间估算。...

September 2, 2024 · 1 min · fisherdaddy

李沐上海交大演讲中提到的核心认知

BosonAI 联合创始人、亚马逊前首席科学家,人工智能框架 MXNet 的作者之一:李沐,今年8月份在母校上海交大做了一场演讲,主要分享了他对大语言模型(LLM)的技术现状、未来趋势的预测以及个人职业生涯的感悟。因为他的创业方向是为客户做定制的LLM,他应该是我们熟知的大牛中离LLM最近的人之一,包括数据准备/清晰、预训练、后训练、LLM部署、机房建设、提供 serving、GPU/带宽/电力瓶颈等等。所以,他的演讲会给出很多有关LLM的一线认知,这里我摘出了其中他提到的一些核心认知。 核心认知 语言模型可以分为三块:算力、数据和算法。所以语言模型也好,整个机器学习模型也好,本质上就是把数据通过算力和算法压进中间那个模型里面,使得模型有一定的能力,在面对一个新的数据时,它能够在原数据里面找到相似的东西,然后做一定的修改,输出你要的东西。 这一次(浪潮里)的语言模型和上一次深度学习(浪潮里)的模型有一个比较大的区别 —— 上一次是,我炼一个什么丹就治一个什么病,这次我希望这个东西炼出来会有灵魂在里面,它能解决你很多问题,这其实是技术一代代往前进。 硬件 带宽:让芯片靠得更近一些 因为就现在的模型训练而言,很难让一个机器搞定所有事情,所以要做分布式训练,通常瓶颈就在带宽上。 我们现在的带宽是一根光纤承载 400Gigabits,下一代就是 double,变成 800Gigabits。 英伟达的 GB200 这个卡就可以把 GPU 都放一起,那么它们之间的通讯会变得更好一些。你可以理解成:之前我们做多核,把单核封装到一个芯片里面,现在是说多核不够,我要做多卡,多卡以前是分布在一个房间里面,现在是多卡也要尽量放在一起,这是一个趋势。就是一块芯片那么大,早就做不上去了,这是台积电等面临的工艺难题,现在是尽量把这些东西弄得近一些。 还有一个通讯是 GPU 和 CPU 之间的 PCIe,它每几年也在翻倍,但是确实会慢一些。 内存:制约模型尺寸的一大瓶颈 现在的语言模型,核心是把整个世界的数据压进模型里面,那模型就被搞得很大,几百 GB 的样子。在运行的时候,它的中间变量也很大,所以它就需要很多的内存。现在我们可以做到一个芯片里面封装近 192 GB 的内存。下一代带宽会更高一点。 很有可能在未来几年之内,一个芯片就 200GB 内存,可能就走不动了。这个要看工艺有没有突破。 内存大小会是模型上限的一个制约,而不是算力。内存不够,模型就做不大。在这一块,虽然英伟达是领先者,但其实英伟达是不如 AMD 的,甚至不如 Google 的 TPU。 算力:长期来看会越来越便宜 机器学习好的一点是,你可以用 4 位浮点数,硬件会变小,它对带宽的利用率也会变低,因为每次计算它只有那么多浮点数在里面。所以我们最近几代优化都来自浮点数的精度的降低。这是它给硬件带来的好处。 当你把模型做得更大的时候,你会发现资源是问题,就是供电。 最大的一个芯片要耗一千瓦,一千块芯片就是一兆瓦,整个校园都未必能用上一兆瓦的电。 关于算力价格。从理论上来说,在公平的市场里面,每次算力翻倍,价格会保持不变。但因为英伟达垄断的原因,短期内算力翻倍,价格可能会有1.4倍的提升。长期来看算力会变得越来越便宜。 算力这块,你可以用别的芯片,但是这些芯片用来做推理还 OK,做训练的话还要等几年的样子,英伟达还是处在一个垄断的地位。 今天训练一个模型,一年之后它的价值会减半。很多时候,大家不要去想我现在能搞多大的模型,一年之后,这个模型会贬值。我想说,大模型不是特别有性价比的东西。你要想清楚,从长期来看,你的模型能带来什么价值,让你能够保值。 模型 我觉得语言模型已经达到了较高的水平,大约在 80 到 85 分之间。 音频模型在可接受的水平,处于能用阶段,大约在 70-80 分之间。 但在视频生成方面,尤其是生成具有特定功能的视频尚显不足,整体水平大约在 50 分左右。 语言模型:100B 到 500B 参数会是主流 每次预训练,无论是 OpenAI 还是别的模型,基本都是用 10T 到 50T token 做预训练。开源的话基本也在 10T token 以上。这个数据量我觉得差不多了,不会再往一个更大的尺寸去发展。原因是,人类历史上的数据比这个多是多,但是看多样性、质量的话,我觉得 10T 到 50T 这个规模就差不多了。 我觉得比较好的一线的模型就是 500B,超过 500B 不是训练不动,而是做 serving 很难。在谷歌历史上,他们就没有让 500B 以上的模型上过线。OpenAI 没有对外说,但我觉得 OpenAI 历史上没有上线过有效大小超过 500B 的模型。当然 MoE 不算,我是说换算成稠密模型的话 语音模型:延迟更低、信息更丰富 GPT-4o 出来之后,大家对于语音模型产生了浓厚的兴趣。端到端的方案有两个优点: 1....

September 2, 2024 · 2 min · fisherdaddy

谷歌崛起背后的友谊

本文探讨了程序员 Jeff 和 Sanjay 之间深厚的友谊及其对 Google 成功的推动作用。他们的紧密合作不仅体现在工作中,还在生活中展现了创意与效率的结合。两人的协作方式、互补的思维方式以及在编程中的默契,使他们成为了 Google 发展过程中不可或缺的搭档。 友谊与合作:Jeff 和 Sanjay 在 Google 之前就建立了深厚的友谊,他们常常一起度假,Jeff 的女儿们称 Sanjay 为“叔叔”。这种紧密的私人关系促进了他们在工作中的合作。 编程风格的互补:Jeff 更加外向和探索性,能迅速提出新想法,而 Sanjay 则专注于系统设计,编写出结构优美的代码。他们的合作使得编程过程更加高效,减少了创意瓶颈的发生。 重要项目:两人共同开发的 MapReduce 软件为 Google 带来了巨大的性能提升,使得程序员能够更高效地处理数据。该技术后来成为 Hadoop 的基础,广泛应用于大数据处理。 AI 的发展:Jeff 在 Google Brain 项目中的参与,使得神经网络技术得以迅速发展,最终取代了传统的搜索算法,标志着 Google 在 AI 领域的转折。 角色变化:随着时间的推移,Jeff 和 Sanjay 的角色逐渐分化。Jeff 负责更大的项目和团队管理,而 Sanjay 则专注于独立开发,继续为 Google 的技术决策提供支持。 持续的友谊:尽管工作节奏有所变化,两人仍保持联系,定期共进晚餐,回忆起早年的合作时光,展现了他们之间持久的友谊与默契。 谷歌崛起背后的友谊 “我们在 Google 之前就已经这么做了。” Jeff 说道。 “但我也不清楚为什么我们觉得坐在一台电脑前比两台更好。” Sanjay 说道。 “我常常从离两条街远的 D.E.C. 研究室走到他的 D.E.C. 研究室,” Jeff 说道。“中间还经过一家意式冰淇淋店。” “所以是因为那家冰淇淋店!” Sanjay 笑着说。 单身的 Sanjay 经常与 Jeff 及其妻子 Heidi 和两个女儿一同度假。Jeff 的女儿们称他为 Sanjay 叔叔,五个人通常在周五晚上一起吃饭。Sanjay 和 Jeff 的大女儿 Victoria 开始一起烘焙。“我看着他的女儿们一点点长大,” Sanjay 自豪地说。2004 年 Google 上市后,他们搬到了相距四英里的新居。Sanjay 住在旧山景城的一栋普通的三居室,而 Jeff 则亲自设计了他位于帕洛阿尔托市区附近的房子,还在地下室装了蹦床。在设计这栋房子时,他意识到虽然他喜欢规划空间设计,但没有耐心去处理那些他称之为“适合 Sanjay 的建筑细节”:如梁柱、螺栓和承重结构,这些都是支撑整体设计的基础部分。...

August 21, 2024 · 3 min · fisherdaddy

使用 Unsloth 超高效微调 Llama 3.1

本文介绍了如何高效地对 Llama 3.1 模型进行监督微调,特别是使用 Unsloth 库进行 8B 模型的微调。文章强调,Llama 3.1 的发布缩小了闭源和开源模型之间的性能差距,微调该模型可以实现更好的性能和定制化,且成本更低。作者提供了监督微调的全面概述,比较了与提示工程的不同,并详细介绍了主要技术及其优缺点。 监督微调(SFT)概述: SFT 是一种改善和定制预训练 LLM 的方法,通过在较小的数据集上重新训练基础模型,使其能够更好地执行指令和回答问题。 SFT 可以提高模型的整体性能,增加新知识,或适应特定任务和领域。 SFT 技术: 全微调:对预训练模型的所有参数进行重新训练,效果最佳但需要大量计算资源。 LoRA(低秩适应):只训练小的适配器,减少内存使用和训练时间,非破坏性。 QLoRA:LoRA 的扩展,提供更高的内存节省,适合 GPU 内存受限的情况,但训练时间更长。 微调 Llama 3.1 8B 的过程: 使用 Unsloth 库进行高效微调,支持单 GPU 设置,提供更快的训练速度和更低的内存使用。 训练使用了 mlabonne/FineTome-100k 数据集,经过处理后应用 ChatML 模板。 训练参数和过程: 训练使用 A100 GPU,耗时约 4 小时 45 分钟,建议在资源有限的情况下加载数据集的子集以加快训练。 主要超参数包括学习率、批量大小、训练轮数等,使用 AdamW 8-bit 优化器。 模型评估与保存: 训练完成后,通过简单的提示测试模型性能,并使用 Unsloth 提供的保存方法将训练好的模型上传到 Hugging Face Hub。 文章还提到量化模型的不同格式以便于在推理引擎中使用。 后续步骤建议: 评估模型性能,进行偏好对齐,量化以提高推理速度,或在 Hugging Face Space 部署模型。 使用 Unsloth 超高效微调 Llama 3....

August 21, 2024 · 4 min · fisherdaddy

AI 时代的代码编辑器: Cursor

Cursor 是什么 Cursor 是名为 Anysphere 的初创公司开发的基于 AI 驱动的代码编辑器,按官方的原话是:Cursor is an IDE designed to pair-program with AI. Anysphere 是在 2022 年由 Michael Truell、Sualeh Asif、Arvid Lunnemark 和 Aman Sanger 在麻省理工学院就读期间共同创立。该公司的愿景是致力于构建极其高效的人类人工智能系统。首先要打造的是未来工程师:一位人类人工智能程序员,其效率比任何一位工程师都要高一个数量级。 2023 年 9 月该公司筹集了由 OpenAI Startup Fund 领投的 1100 万美元种子轮融资,前 GitHub 首席执行官 Nat Friedman、Dropbox 联合创始人 Arash Ferdowsi 和其他天使投资者参与了投资。其中,OpenAI 投资 800 万美元,占该轮融资的 72.7%。 据消息称 2024 年 8 月该公司又获得了重要的 6000 万美元的 A 轮融资,估值达到 4 亿美元主要投资者包括 Andreessen Horowitz、Thrive Capital 和 Stripe 的 CEO Patrick Collison。...

August 20, 2024 · 2 min · fisherdaddy

苦涩的教训 • Richard S. Sutton

本文由 Rich Sutton 撰写,强调了在人工智能(AI)研究中,利用计算能力的通用方法是最有效的。这一结论主要归因于摩尔定律,即计算成本的持续下降。尽管研究者们倾向于依赖人类知识来提高短期性能,但长期来看,依赖计算能力的提升才是关键。文章通过计算机国际象棋、围棋、语音识别和计算机视觉等领域的案例,说明了过度依赖人类知识的方法最终会限制进步,而真正的突破往往源于对计算能力的有效利用。 计算机国际象棋: 1997 年,计算机通过深度搜索击败了国际象棋世界冠军卡斯帕罗夫。尽管研究者们希望基于人类理解的复杂方法能获胜,但简单的搜索方法最终显示出更大的有效性。 计算机围棋: 类似的情况在围棋中也出现。研究者们最初投入大量精力试图避免搜索,依赖人类知识,但最终通过大规模搜索和自我对弈学习取得了成功。 语音识别: 1970年代,DARPA 赞助的语音识别比赛中,基于人类知识的特殊方法未能胜出,统计方法(如隐马尔可夫模型)获得了成功。深度学习的兴起进一步表明,依赖计算和学习的统计方法在语音识别中占据主导地位。 计算机视觉: 早期的视觉识别方法侧重于寻找边缘和特征,而现代深度学习神经网络则采用卷积等更为通用的方法,表现出更好的效果。 总结教训: AI 研究者常常试图将人类知识嵌入到系统中,短期内有效但长期会导致停滞。真正的进步来自于通过搜索和学习来扩展计算能力。 研究者应认识到,思维内容的复杂性无法简单化,应该构建能够捕捉复杂性的元方法,而不是试图将已有发现直接嵌入AI系统中。 痛苦的教训 Rich Sutton 2019年3月13日 从70年的AI研究中,我们学到的最重要的一课是:利用计算资源的通用方法最终是最有效的,且远胜其他方法。其背后的根源在于摩尔定律的延伸,即计算成本的持续指数级下降。大多数AI研究都是在假设智能体的计算能力固定的前提下进行的(在这种情况下,借助人类知识是提升性能的主要途径),但在稍长于常规研究周期的时间内,计算能力必然会大幅增长。研究人员为了在短期内见效,往往选择依赖领域专家的知识,然而从长远来看,唯一重要的还是如何最大化利用计算资源。这两种方法理论上并不冲突,但实际中常常是对立的。花在一种方法上的时间会挤占另一种方法的研究,而研究者对某种方法的投入往往带有心理上的偏好。基于人类知识的方法通常会使系统变得更复杂,从而削弱了其利用计算资源的能力。AI研究领域中,研究者往往是经历了多次失败后,才领悟到这一“痛苦的教训”,这里回顾一些经典的案例很有启发意义。 在计算机象棋领域,1997年击败世界冠军卡斯帕罗夫的方法主要依赖于大规模深度搜索。当时,大多数象棋AI研究者对这种方式感到不满,因为他们一直专注于基于人类对象棋结构理解的方法。当一种简单的搜索策略结合专用硬件和软件,证明其效果远胜于人类知识驱动的方法时,这些研究者无法接受。他们声称“蛮力”搜索可能赢了这一局,但这并不是一个通用策略,也不符合人类下棋的方式。这些研究者希望基于人类知识的方法取胜,结果却让他们失望。 类似的研究进展也出现在计算机围棋领域,只是时间上晚了20年。起初,大量研究尝试通过利用人类知识或围棋的特殊规则来避免搜索,但随着大规模搜索的有效应用,这些努力都变得无关紧要,甚至产生了负面影响。另一个重要的因素是通过自我对弈学习价值函数(这一点在其他许多游戏中也适用,甚至在1997年击败世界冠军的象棋程序中,只是学习并未起主要作用)。自我对弈学习和一般意义上的学习,像搜索一样,能够充分发挥计算资源的威力。搜索和学习是AI研究中利用大规模计算资源的两大关键技术。在计算机围棋领域,与象棋类似,研究者们最初将精力放在如何通过人类理解来减少搜索需求,但最终接受搜索和学习后才取得了更大的成功。 在语音识别领域,20世纪70年代有一场由DARPA赞助的竞赛。参赛者中包括了许多基于人类知识的特殊方法,如对单词、音素和人类声道的理解。而另一派则是基于隐马尔可夫模型(HMM)的新方法,这些方法更依赖统计计算。最终,统计方法胜过了基于人类知识的方法。这场胜利引发了整个自然语言处理领域的变革,统计学和计算逐渐占据主导地位。深度学习在语音识别中的崛起是这一趋势的最新发展。深度学习方法更少依赖人类知识,更多依赖大规模计算和海量数据训练,极大提升了语音识别的效果。与游戏领域类似,研究者们总是试图让系统模仿他们的思维方式,将人类知识嵌入系统中,但事实证明,当摩尔定律带来的计算能力大量涌现,且有了更好的利用方式后,这种做法是无效的,甚至浪费了大量研究者的时间和精力。 在计算机视觉领域,也有类似的模式。早期方法将视觉理解为寻找边缘、通用圆柱体或基于SIFT特征。然而如今,这些方法已经被淘汰。现代深度神经网络仅依赖卷积和某些不变性概念,且效果远超前人。 这是一个重要的教训。作为一个领域,我们还没有完全吸取这课,因为我们仍在重复类似的错误。要认识到并有效避免这些错误,我们需要理解这些错误背后的吸引力。我们必须吸取这个“痛苦的教训”:试图模拟我们自认为的思维方式,从长远来看是行不通的。这一教训基于几个历史事实:1)AI研究者往往试图将知识直接嵌入智能体中,2)这种方法在短期内总是有效且令人满意,3)但从长远来看,这种方法会停滞甚至阻碍进一步进展,4)突破性进展最终通过相反的方法实现,即通过搜索和学习扩展计算能力。这种成功往往伴随着苦涩,因为它取代了人们更偏好的以人为中心的路径。 从这个“痛苦的教训”中应当汲取的一点是,通用方法的巨大潜力,这些方法可以随着计算能力的增加而不断扩展。搜索和学习是两种在这方面表现出无限扩展性的技术。 另一个从“痛苦的教训”中得出的普遍原则是,心智的实际内容极其复杂且难以简化;我们应该停止试图用简单的方法去理解心智内容,如空间、物体、多智能体或对称性的简单模型。这些都是外部世界中任意且本质上复杂的一部分,不应被直接嵌入系统中,因为它们的复杂性是无穷无尽的;相反,我们应该只嵌入能够发现和捕捉这种任意复杂性的元方法。这些方法的核心在于它们能够找到良好的近似解,但这个寻找过程应该由我们的元方法完成,而非我们手动设计。我们需要的是像我们一样能发现新知识的AI智能体,而不是简单地包含我们已有知识的系统。嵌入已有的发现只会使我们更难理解发现过程的本质。

August 18, 2024 · 1 min · fisherdaddy

Google 前创始人埃里克·施密特在斯坦福 CS323 访谈的核心认知摘要

本访谈发生于 2024 年 4 月 9 日,在 2024 年8 月 13 日在 Youtube 上放出录播视频,但因为其中提到的 Google AI 落后的大实话而引起网络热议,视频没过两天就被下架了,我上传了一份在 X 上,感兴趣大家可以看原视频。这里也有一个我用 AI 制作的带中文字幕版,也可以测合着看 。 施密特讲他每六个月都会调整一次对 AI 的看法,他举了一个例子:“六个月前,我还确信前沿 AI 模型与其他模型的差距在缩小,所以我在一些小公司投入了大量资金。现在我就不敢确定了。” 短期内人工智能的发展(1-2年) 上下文窗口的扩展、Agent、文本到行动(Text to Action) 上下文窗口 上下文窗口可以理解为短期记忆。长上下文窗口很好的解决了 LLM 的时效性问题。 当前的模型通常18个月的时间来训练,准备 6 个月,训练 6 个月,微调 6 个月,所以他们的信息总是过时的,而长上下文窗口可以反馈最新发生了什么给 LLM,它可以变得像 Google 一样实时。 Agent Agent的定义:执行某种任务的东西。另一种定义是内存中的一个LLM的状态。 施密特建立了一个基金会,资助了一家非盈利组织,有个工具叫ChemCrow,它是一个基于 LLM 的系统,用于学习化学知识。有个实验室晚上用它进行测试、然后把测试结果让 LLM 学习,目前他们会运行这个系统,生成关于蛋白质的化学假设,这对化学和材料科学领域都是一个巨大的加速器,这就是Agent。 文本到行动 文本到行动的定义:从自然语言到Python语言,也就是根据人类描述自动写程序。 文本到行动可以理解为有大量廉价的程序员,如果每个人都有一个自己专属的AI程序员的话,会发生什么呢? 假设你不喜欢Google,那么可以让 AI 程序员给你 copy 一个 Google 程序:搜索网页、用户界面、写好文案 。很多人认为,包括Google在内的现有公司在这种攻击下是脆弱的 。 他还列举了一个TikTok的例子,“给我做一个 TikTok 的复制品。吸引所有用户,拿下所有音乐,加上我的偏好,30 秒内做出来并发布。如果一个小时内不火,就做出类似的调整继续尝试。” 施密特认为当agent和文本到行动可以规模交付时,它会对世界产生没有人能理解的影响。这个影响远大于社交媒体所造成的影响。这三件事情(上下文窗口的扩展、agent、文本到行动)的结合将在下一个浪潮中发生。 这种不确定性还体现在所需投资的规模上。头部 AI 公司正在讨论“100 亿、200 亿、500 亿甚至 1000 亿美元”的需求。Sam Altman 认为可能需要“约 3000 亿美元,甚至更多”。这些数字不仅代表资金投入,还意味着巨大的能源消耗,可能会重塑地缘政治格局。只靠美国没有足够的电力来支撑这件事。所以,美国应该和加拿大搞好关系,因为他们那有大量的水和电。至于钱,需要让阿拉伯国家来资助。...

August 17, 2024 · 1 min · fisherdaddy

LLM 中的外部幻觉 • Lilian Weng

本文是 OpenAI 安全系统团队负责人 Lilian Weng 所写,主要探讨了大型语言模型(LLMs)中的外部幻觉(Extrinsic Hallucinations),即模型生成的内容未能与提供的上下文或世界知识相一致。幻觉问题被细分为两种类型:上下文幻觉和外部幻觉。外部幻觉关注的是模型输出是否基于预训练数据集,并强调模型需要具备事实性和在不知情时能够承认不知道的能力。文章还讨论了幻觉的成因、检测方法以及改进策略。 幻觉的定义与类型: 上下文幻觉:模型输出应与上下文中的源内容一致。 外部幻觉:模型输出应基于预训练数据集,且应与外部世界知识相符合。 幻觉的成因: 预训练数据问题:预训练数据量庞大,通常来自公共互联网,可能包含过时或错误的信息。 微调新知识:在微调阶段引入新知识可能导致模型学习速度较慢,并增加幻觉的可能性。 幻觉检测方法: FactualityPrompt:通过维基百科文档作为事实基础来评估模型输出的真实性。 FActScore:将生成内容分解为多个原子事实,并分别验证其真实性。 改进策略: 检索增强生成(RAG):通过检索相关文档来为模型生成提供支持信息。 自我反思检索增强生成(Self-RAG):模型在生成内容时自我反思并检索相关文档。 验证链(CoVe):模型生成初步响应后,通过设计验证问题进行事实检查。 评估基准: 文章提到了一些用于评估模型幻觉的基准数据集,如 TruthfulQA、FactualityPrompt 和 SelfAware。 LLM 中的外部幻觉 在大语言模型 (LLM) 中,"幻觉" 通常指的是模型生成不真实、捏造、不一致或无意义的内容。这个术语被广泛用于描述模型犯错的情形。在这里,本文将"幻觉"的问题范围限定在模型输出是虚构的,并且无法通过给定的上下文或世界知识加以验证的情况。 幻觉可以分为两类: 上下文幻觉:模型输出应该与上下文中的源内容保持一致。 外部幻觉:模型输出应基于预训练数据集中的知识。然而,考虑到预训练数据集的庞大规模,每次生成时检索并识别潜在冲突的成本过高。如果我们将预训练数据集视为世界知识的代理,我们实际上是在尝试确保模型输出的内容是事实,并且能够通过外部世界知识进行验证。更重要的是,当模型不清楚某个事实时,它应当如实承认。 本文的重点在于外部幻觉。为了避免幻觉,LLM 需要做到以下两点:(1) 输出内容基于事实,(2) 在适当的情况下承认自己不知道答案。 幻觉的成因是什么? 一个标准的 LLM 通常会经历预训练和后续的微调(如对齐优化)的过程,因此我们将在这两个阶段探讨幻觉产生的原因。 预训练数据问题 预训练数据集的规模非常庞大,其目的是涵盖几乎所有书面形式的世界知识。由于大多数数据来自公开的互联网,难免存在过时、缺失或错误的信息。模型在最大化对数似然的过程中可能错误地记住这些信息,导致在生成时出现错误。 引入新知识的微调 通过监督微调 (Supervised Fine-Tuning) 和 RLHF 对预训练模型进行微调是提高模型特定能力(如指令遵从性)的常见方法。然而,在微调阶段引入新知识几乎是不可避免的。 微调通常消耗的计算资源较少,因此关于通过小规模微调来可靠地学习新知识这一点存在争议。Gekhman 等人(2024) 研究了微调 LLM 是否会促进幻觉的产生。他们发现:(1) LLM 在学习包含新知识的微调样本时比其他与模型现有知识一致的样本要慢;(2) 一旦这些新知识被模型学会,模型产生幻觉的可能性反而增加。 在一个闭卷问答数据集(如 EntityQuestions)上,我们可以通过随机少样本示例和设置不同解码温度的方式,估计模型准确生成正确答案的概率。他们根据这一概率将数据分为四类:已知 组(其中包括高度已知、可能已知和弱已知三种子类别)以及 未知 组。 图 1. 闭卷问答示例的知识分类,基于模型输出正确答案的可能性。(图片来源:Gekhman 等人 2024) 实验中,一些基于开发集准确率的有趣发现可作为幻觉的代理指标:...

August 16, 2024 · 6 min · fisherdaddy

Unstructured 案例研究: 多模态 RAG 技术在从 PDF 生成幻灯片的应用

本文探讨了 Alayna 如何与 Unstructured 合作,通过其无服务器 API 推出了一种新的 AI 幻灯片和课程生成器,旨在帮助教师节省准备时间,提升教学质量。该产品利用多模式 RAG 技术,使教师能够将 PDF 教材无缝转换为引人入胜的幻灯片演示,并为学生提供更具互动性的学习体验。 教育挑战:教师面临时间不足的问题,急需创新工具以简化课堂准备工作。 产品介绍:Alayna 的 AI 幻灯片和课程生成器允许教师根据个体学习风格创建高质量课程,支持从 PDF 中提取图像和文本。 技术优势:Unstructured 的无服务器 API 能够处理多模式数据(文本、图像和表格),使得从教科书中提取有意义的数据成为可能。 功能展示:教师可上传教科书 PDF,系统自动生成包含相关图像和表格的幻灯片。这一功能自 7 月 8 日推出后,获得了教育工作者的积极反馈。 学习效果:研究表明,结合视频、文本、音频和互动内容的课程材料可提高信息保留率达 60%。 可扩展性:Alayna 选择无服务器架构以提高处理效率,能够同时处理多页文档,适应请求量的增加。 未来展望:Alayna 与 Unstructured 的合作为教育者提供了重要工具,期待未来在教育领域的进一步创新和发展。 Unstructured 案例研究: 多模态 RAG 技术在从 PDF 生成幻灯片的应用 教师往往缺乏充分的时间来准备课堂,因此,为他们寻找创新的解决方案以简化工作流程,对维持学校教育质量至关重要。Alayna 的使命是利用人工智能 (AI) 技术,使教师能够更多地专注于教学,而减少行政任务的负担。为实现这一目标,Alayna 与 Unstructured 合作,提升其产品功能,并将多模态 RAG (Retrieval-Augmented Generation) 技术引入其平台。本案例研究探讨了 Alayna 如何通过 Unstructured 提供的无服务器 API,作为核心数据摄取和预处理方案,推出其最新的 AI 幻灯片与课程生成器功能。 ^ 来自 Alayna 最新 TikTok 演示的示例幻灯片集 Alayna 利用 AI 技术提升教育内容的创作和传递。其核心产品 AI 幻灯片与课程生成器,帮助教育工作者创建高质量、互动性强且符合个体学习风格和目标的课程。该产品可以将 PDF 文件无缝转换为互动的幻灯片演示文稿,并通过 Unstructured 进行图像与文本的自动提取。他们还为教育工作者提供了 AI 副驾驶 (AI Copilot),帮助处理日常教学任务。...

August 13, 2024 · 1 min · fisherdaddy

如何阅读论文

本文提出了一种实用的三步法来高效阅读研究论文,旨在帮助研究人员提高阅读效率,减少无效的时间浪费。作者强调,尽管阅读论文是一项重要技能,但通常未被系统教授,导致许多研究人员在阅读过程中感到挫败。三步法的每一步都有特定的目标,帮助读者逐步深入理解论文的内容。 三步法概述: 第一步:快速浏览,获取论文的总体印象,通常耗时五到十分钟。主要步骤包括阅读标题、摘要和引言,查看章节标题,快速浏览数学内容,阅读结论,以及查看参考文献。 第二步:深入阅读,关注论文的主要内容,但忽略细节,如证明。此步骤应记录关键点和不理解的术语,通常耗时约一小时。 第三步:全面理解,尝试重新实现论文中的工作,挑战每个假设,关注细节。此步骤可能需要数小时,适合需要深入理解论文的读者。 文献调查: 使用学术搜索引擎查找高引用的相关论文,进行初步阅读。 查找共享引用和重复作者名,识别关键论文和研究者。 浏览顶级会议的最新论文,进行多次阅读,确保全面了解领域内的重要研究。 相关工作: 文中提到了一些相关的资源和文献,供读者进一步学习如何撰写论文和进行评审。 通过这种系统的方法,研究人员可以更有效地处理大量文献,提升自己的研究能力和效率。 如何阅读论文 2016年2月17日版本 S. Keshav David R. Cheriton计算机科学学院,滑铁卢大学 加拿大滑铁卢,安大略省 [email protected] 摘要 研究人员经常需要花费大量时间阅读研究论文。然而,这项技能却很少被正式教授,导致了许多不必要的时间浪费。本文提出了一种实用且高效的“三遍法”来阅读研究论文,并详细介绍了如何利用这一方法进行文献综述。 1. 引言 研究人员阅读论文的原因有很多,例如为会议或课程评审论文,保持自己在领域内的知识更新,或者对新领域进行文献综述。一个典型的研究人员每年可能要花费数百小时在论文阅读上。 高效地阅读论文是一项至关重要却很少有人教授的技能。因此,初学的研究生通常只能通过反复试验来自行掌握。在这个过程中,他们往往浪费了大量时间和精力,并常常感到沮丧。 多年来,我使用了一种简单的“三遍法”来避免在阅读论文时陷入细节之前就先获得全局视角。这种方法让我可以预估审阅一组论文所需的时间。此外,我可以根据需求和时间来调整论文评估的深度。本文将介绍这一方法及其在文献综述中的具体应用。 2. 三遍法 核心思想是,阅读论文时应该分三次完成,而不是从头到尾一气呵成。每次阅读都有特定的目标,并在前一次的基础上逐步深入:第一次阅读让你对论文有一个总体的了解;第二次阅读让你掌握论文的内容但不涉及细节;第三次阅读则帮助你深入理解论文。 2.1 第一次阅读 第一次阅读是一种快速浏览,用于获得论文的整体概况。你还可以决定是否需要继续进行更深入的阅读。这次阅读通常需要大约五到十分钟,包含以下步骤: 仔细阅读标题、摘要和引言 阅读章节和小节标题,忽略其他内容 浏览数学内容(如果有),以确定其理论基础 阅读结论 浏览参考文献,标记出你已经阅读过的那些 在完成第一次阅读后,你应该能够回答以下五个 $\mathit{C}$ : 类型 (Category):这篇论文属于哪种类型?是测量研究?现有系统的分析?还是研究原型的描述? 背景 (Context):这篇论文与哪些其他论文相关?分析问题时用了哪些理论基础? 正确性 (Correctness):论文的假设看起来是否合理? 贡献 (Contributions):论文的主要贡献是什么? 清晰度 (Clarity):论文写得清晰明了吗? 基于这些信息,你可以决定是否继续深入阅读(也避免了不必要的打印,节省纸张)。你可能会因为论文不符合你的兴趣,或是对该领域了解不足以至于难以理解,或者作者的假设不合理而选择不再继续阅读。对于那些与你研究领域不直接相关的论文,第一次阅读通常已经足够,但这些论文可能在未来某个时候会变得相关。 顺便提及,当你写论文时,大多数评审者(和读者)通常只会进行一次阅读。因此,务必要选择结构清晰的章节和小节标题,并撰写简明扼要且内容全面的摘要。如果评审者在一次阅读后无法理解论文的主旨,那么论文很可能会被拒绝;如果读者在五分钟内无法理解论文的要点,那么这篇论文很可能不会再被阅读。正因为如此,一个通过精选图表来总结论文内容的“图形化摘要”是一个非常好的想法,且越来越多地出现在科学期刊中。 2.2 第二次阅读 第二次阅读时,你需要更仔细地阅读论文,但可以忽略诸如证明等细节。在阅读过程中,记下关键点或在页边记录注释会有帮助。奥格斯堡大学的Dominik Grusemann建议,“记下你不理解的术语,或者你可能想问作者的问题。”如果你是作为论文评审人,这些注释将有助于你撰写评审意见,并在程序委员会会议中支持你的评审意见。 仔细查看论文中的图表和其他插图,尤其是图表。检查坐标轴是否正确标记,结果是否显示了误差线,以确保结论的统计显著性?这些常见的错误能够区分出仓促的、粗糙的工作与真正优秀的工作。 记得标记尚未阅读但相关的参考文献,以供进一步阅读(这是学习论文背景的好方法)。 对于有经验的读者来说,第二次阅读应当花费最多一小时。完成这次阅读后,你应该能够掌握论文的内容。你应该能够将论文的主要观点及其支持证据向他人总结。这种细节程度适用于你感兴趣但不属于你研究专长的论文。 有时即使在第二次阅读结束后,你仍然无法完全理解论文。这可能是因为该主题对你来说较为陌生,带有不熟悉的术语和缩写,或是作者使用了你不熟悉的证明或实验技术,从而使得论文的主要内容难以理解。也有可能是因为论文写得不够清楚,存在未经证实的论断或大量前向引用。或者可能只是因为时间太晚,你已经疲惫不堪。此时你可以选择:(a)将论文放在一边,希望不需要理解这些内容也能在职业生涯中取得成功,(b)稍后返回阅读,也许是在阅读了相关背景材料之后,(c)坚持下去,继续进行第三次阅读。 2.3 第三次阅读 要彻底理解一篇论文,尤其是作为评审人时,往往需要进行第三次阅读。第三次阅读的关键是尝试“虚拟地重现”论文中的工作:即在与作者相同的假设下,重新创建该工作。通过将这种重现与实际论文进行比较,你可以轻松地识别出论文的创新点及其隐藏的缺陷和假设。 这次阅读需要极大的细节关注。你应该识别并质疑每个陈述中的每个假设。此外,你还应该考虑自己将如何展示某个特定的想法。这种对实际与虚拟的比较能够让你对论文中的证明和表达技巧有更深刻的理解,并可能将这些技巧纳入自己的工具库。在这次阅读中,你还应该记下未来工作的灵感。 对于初学者来说,这次阅读可能需要很多小时,甚至对于有经验的读者来说,也需要一到两个小时以上。在完成这次阅读后,你应该能够从记忆中重建论文的整体结构,并能够识别出其优缺点。特别是,你应该能够指出隐含的假设、缺失的相关工作的引用,以及实验或分析技术中的潜在问题。 3. 进行文献综述 进行文献综述时,你的论文阅读技巧将受到严峻考验。这通常需要你阅读数十篇论文,可能是一个你不熟悉的领域。你应该读哪些论文呢?以下是如何利用三遍法来帮助你进行文献综述。...

August 13, 2024 · 1 min · fisherdaddy

OpenAI 官方指南:在 API 中引入结构化输出

本文由 OpenAI 发布于2024 年 8 月 6 日 我们在 API 中引入了结构化输出功能——模型输出现在能够可靠地遵循开发者提供的 JSON Schema。 去年在 DevDay 开发者大会上,我们推出了 JSON 模式,帮助开发者构建更加可靠的应用程序。尽管 JSON 模式提高了生成有效 JSON 输出的可靠性,但并不能确保模型的响应会完全符合指定的 Schema。今天,我们引入了 API 的结构化输出功能,确保模型生成的输出能够严格匹配开发者提供的 JSON Schema。 生成结构化数据是 AI 在当今应用中的一个核心应用场景。开发者使用 OpenAI API 构建功能强大的助手,这些助手能够通过函数调用获取数据并回答问题,提取结构化数据用于数据录入,并创建允许大语言模型 (LLM) 执行操作的多步骤智能工作流。开发者通常会使用开源工具、提示工程和反复请求来确保模型输出与他们系统的格式互操作。结构化输出通过限制 OpenAI 模型的输出,使其严格遵循开发者提供的 Schema,并训练模型更好地理解复杂的 Schema,从而解决了这一问题。 在我们对复杂 JSON Schema 的评估中,启用了结构化输出的 gpt-4o-2024-08-06 模型获得了满分 100%。相比之下,gpt-4-0613 的得分不足 40%。 通过结构化输出, gpt-4o-2024-08-06 在我们的评估中实现了 100% 的可靠性,完美匹配输出模式。 如何使用结构化输出 我们在 API 中提供了两种形式的结构化输出: 函数调用:通过工具实现的结构化输出,可以在函数定义中设置 strict: true 来启用。此功能适用于所有支持工具的模型,包括 gpt-4-0613、gpt-3.5-turbo-0613 及之后的模型。启用后,模型的输出将严格匹配提供的工具定义。 Request POST /v1/chat/completions { "model": "gpt-4o-2024-08-06", "messages": [ { "role": "system", "content": "You are a helpful assistant....

August 13, 2024 · 13 min · fisherdaddy

PDF 转 Markdown 开源项目调研

最近计划抽时间写一个文档相关的翻译类项目,调研了几个主流的开源 PDF 转 Markdown 项目,从最终的效果来看,MinerU 的 Magic-PDF 当之无愧是当前最佳的选择,缺点就是速度慢。 项目:zerox 代码:https://github.com/getomni-ai/zerox 介绍:一种非常简单的PDF文档解析方法 逻辑:使用 PyMuPDF 将 pdf 文件中的每一页转换为图片,并将图片给 LLM ,让其转换为 markdown 格式 使用的prompt: Convert the following PDF page to markdown. Return only the markdown with no explanation text. Do not exclude any content from the page. 优劣势 优点:在纯文字、表格等场景下,效果还不错 缺点 :在有配图的情况下,配图会被丢失掉,用<img>之类的占位表示图片 项目:gptpdf 代码:https://github.com/CosmosShadow/gptpdf 介绍:使用视觉大语言模型(如 GPT-4o)将 PDF 解析为 markdown。方法非常简单(只有293行代码),但几乎可以完美地解析排版、数学公式、表格、图片、图表等。每页平均价格:0.013 美元 逻辑: 用PyMuPDF识别中其中的线条(page.get_drawings())、图片(page.get_image_info())、文本区域 用一些策略做一些合并,最终得到一个只有表格和图片的区域 将这些区域截图后存储在本地 在原图上用红色框和序号标注好,送给GPT识别,最终的结果是个markdown格式 使用的prompt 使用markdown语法,将图片中识别到的文字转换为markdown格式输出。你必须做到: 1. 输出和使用识别到的图片的相同的语言,例如,识别到英语的字段,输出的内容必须是英语。 2. 不要解释和输出无关的文字,直接输出图片中的内容。例如,严禁输出 “以下是我根据图片内容生成的markdown文本:”这样的例子,而是应该直接输出markdown。 3. 内容不要包含在```markdown ```中、段落公式使用 $$ $$ 的形式、行内公式使用 $ $ 的形式、忽略掉长直线、忽略掉页码。 4....

August 5, 2024 · 1 min · fisherdaddy

Character.AI 的提示词设计

在 Character.AI,掌握提示工程的艺术和科学至关重要。随着每日生成数十亿个提示,采用一种强大且可扩展的提示设计方法显得尤为必要。本文作者提倡从传统的“提示工程”转向“提示设计”,通过开发 Prompt Poet 工具,使开发者和非技术用户能够更高效地设计和管理提示,提升用户与 AI 模型的交互质量。 提示设计的重要性:构建有效的提示需要考虑多种因素,包括对话模式、实验、角色、用户属性、记忆和整个对话历史等。随着 LLM(大语言模型)上下文窗口的扩大,提升提示设计的效率显得尤为重要。 Prompt Poet 工具:该工具结合了 Python 的 f-strings 和 YAML,使提示的设计和管理更加灵活和易于使用。Prompt Poet 允许用户在不编写代码的情况下高效创建和迭代提示模板,节省了大量的字符串操作时间。 模板处理过程:提示模板的处理分为两个主要阶段: 渲染:使用 Jinja2 处理输入数据,执行控制流逻辑并验证数据。 加载:输出为结构化的 YAML 文件,便于管理和使用。 示例模板:提供了基本的问答机器人模板,展示了如何使用 Jinja2 语法和 YAML 结构来创建灵活的提示。 上下文长度管理:通过设置截断优先级,Prompt Poet 可以有效管理对话历史,确保在上下文长度受限时保留重要信息。 设计选择:Prompt Poet 库提供了多种功能,包括提示属性的设置、令牌化和截断等,优化了响应的效率和延迟。 结论:Prompt Poet 代表了提示工程的重大进步,简化了复杂和个性化提示的创建过程,使开发者和用户能够更专注于提示设计,推动 AI 交互的高效和直观化。 Character.AI 的提示词设计 作者: James Groeneveld Github: https://github.com/character-ai/prompt-poet PyPi: https://pypi.org/project/prompt-poet/ 在 Character.AI,掌握 Prompt Engineering(提示工程)的艺术和科学至关重要。构建生产环境中的提示需要考虑大量数据和因素:当前对话模式、正在进行的实验、涉及的角色、聊天类型、各种用户属性、固定记忆、用户角色和整个对话历史等。我们每天生成数十亿个提示,需要充分利用不断扩展的大语言模型 (LLM) 上下文窗口,并且我们的使用场景非常多样化,因此需要一种强大且可扩展的提示设计方法。我们主张从传统的“提示工程”转向“提示设计”,从繁琐的字符串操作转变为设计精确、引人入胜的提示。这篇文章介绍了我们开发的 Prompt Poet,它是我们为此目的开发的工具。 简要概述 Python 的 f-strings(及其封装)现在是提示工程师的行业标准。使用 f-strings 可以简单到将用户查询直接插入到字符串中,但也可能变得非常复杂,涉及大量手动字符串操作来创建最终提示。这也使得提示的迭代对于非技术人员来说不太友好,因为需要编写代码。 我们认为可以有更好的方法。因此,我们开发了 Prompt Poet (Github / PyPi),一个允许开发者和非技术用户高效设计和管理生产提示的工具。它节省了在字符串操作上的工程时间,让大家能更专注于为用户打造最佳提示。...

August 5, 2024 · 5 min · fisherdaddy

Q* 是什么?

虽然 Q* 的提出已经过去大半年了,昨晚偶然看到 X博主 kimmonismus 这篇关于 Q* 的文章,翻译了一下重新回顾一下。Q* 是一种尚未公开的人工智能算法,可能代表了通向人工通用智能(AGI)的重要突破。该算法结合了 Q-learning 和 A* 搜索,旨在提高 AI 的推理能力和自学习能力。通过实现系统 2 思维,Q* 使 AI 能够进行复杂的多步骤推理,从而克服当前大型语言模型(LLMs)中的逻辑错误(即“幻觉”)。尽管关于 Q* 的具体细节尚不明确,但其潜在能力引发了广泛关注和讨论。 Q 的背景*: Q* 尚未正式发布,OpenAI 对其信息保持保密。最初的传闻出现在 2023 年 12 月,报道称 OpenAI 在其研究设施取得了科学突破,首次实现了模型的自我学习能力。 Q* 可能是通向 AGI 的关键,AGI 被定义为在大多数经济上有价值的任务中超越人类的自主系统。 技术细节: Q* 结合了 Q-learning 和 A* 搜索算法,前者使 AI 能够通过试错学习做出决策,后者用于寻找最优路径。 Q* 允许 AI 在没有外部干预的情况下自我学习,例如,通过解决数学问题来展示其推理能力。 系统 2 思维: 该算法强调复杂思维过程,要求 AI 逐步、迭代地解决问题,类似于人类的系统 2 思维(System 2 thinking)。 通过将思维过程分解为更小的步骤,Q* 可以减少错误并提高输出的准确性。 潜在应用: Q* 的成功可能会使 AI 在科学研究等领域具备更强的推理能力。 该算法的开发可能会导致新的 AI 系统,能够执行复杂的推理任务,进一步推动 AGI 的进程。 未来展望:...

August 5, 2024 · 3 min · fisherdaddy

Apple 的设备端和服务器基础模型

在2024年全球开发者大会上,苹果公司推出了“Apple Intelligence”系统,这是一种深度集成于 iOS 18、iPadOS 18 和 macOS Sequoia 的个人智能系统。该系统由多个高效的生成式模型组成,旨在适应用户的日常任务,提供个性化的服务。苹果智能的基础模型经过精细调整,能够高效、准确且负责任地执行特定任务,并强调了苹果在人工智能开发中的责任感和隐私保护。 模型介绍: Apple Intelligence 包含一个约30亿参数的本地语言模型和一个更大的基于服务器的语言模型,后者在苹果自有的私有云计算环境中运行。 这些模型支持用户和开发者的多种需求,包括文本撰写、通知总结、图像生成等。 责任感与隐私保护: 苹果制定了一系列责任人工智能原则,强调用户赋权、用户代表性、设计谨慎和隐私保护。 在训练模型时,苹果不使用用户的私人数据,并应用过滤技术以去除个人可识别信息和低质量内容。 训练与优化: 基础模型使用苹果的 AXLearn 框架进行训练,采用数据并行、张量并行等技术提高效率。 在后期训练中,苹果开发了两种新算法以提升模型的指令跟随质量。 通过多种创新技术优化模型在设备和私有云上的速度和效率。 模型适应性: 模型通过适配器进行微调,以便根据用户的日常活动动态调整任务能力。 适配器可以在预训练模型的基础上进行加载和切换,支持特定任务的高效处理。 性能评估: 苹果的模型在多个任务上表现优异,用户反馈显示其生成的摘要质量高于竞争对手。 在对抗性测试中,苹果的模型在处理有害内容和敏感话题时表现出色,显示出较低的违规率。 未来展望: 苹果期待在未来分享更多关于其生成模型家族的信息,包括语言、扩散和编码模型,以进一步支持用户的日常活动。 介绍 Apple 的设备端和服务器基础模型 在 2024 年的 Worldwide Developers Conference 上,我们推出了 Apple Intelligence,这是一种深度集成于 iOS 18、iPadOS 18 和 macOS Sequoia 的个人智能系统。 Apple Intelligence 包含多个高度智能的生成模型,这些模型专为用户的日常任务而设计,并且能够根据用户当前的活动进行实时调整。Apple Intelligence 中的基础模型已经过优化,能够提升用户的体验,包括撰写和润色文本、优先处理和总结通知、为家庭和朋友的对话生成有趣的图像,并在应用内简化操作,方便用户使用各种应用。 在接下来的概述中,我们将详细介绍这两个模型:一个约 30 亿参数的设备端语言模型,以及一个更大的服务器端语言模型,该模型通过 Private Cloud Compute 在 Apple Silicon 服务器上运行。这两个基础模型是 Apple 创建的一个更大规模的生成模型家族的一部分,旨在支持用户和开发者;其中包括一个用于在 Xcode 中构建智能的编程模型,以及一个帮助用户在视觉上表达自己的扩散模型,例如在消息应用中。我们期待不久后分享更多关于这一系列模型的信息。 更新 - 2024 年 7 月 29 日:本文中的数据已更新,以反映今日发布的技术报告中使用的模型版本和评估。更多详情请参阅论文:Apple Intelligence Foundation Language Models。...

July 31, 2024 · 2 min · fisherdaddy

Duolingo: 让我们的角色发声

本文介绍了如何为 Duolingo 的角色创建定制的文本到语音(TTS)声音,以增强语言学习体验。通过赋予角色独特的声音,不仅增加了角色的个性,还帮助学习者接触到多样化的语音,提升了他们的听力技能和语言学习的趣味性。 角色的魅力 Duolingo 的角色通过插画和动画得到了广泛的关注,这激励团队进一步发展这些角色,使语言学习更加有趣和引人入胜。角色的熟悉感为故事叙述提供了便利,尤其是在初学者的学习中,角色的个性化帮助学习者更好地理解故事情节。 定制语音的开发 团队为每个角色开发了独特的 TTS 语音,经过多个月的审查和试音,确保每个角色的声音能够准确传达其个性。不同语言的角色声音在保留角色特质的同时,也考虑了文化适应性。例如,角色 Lin 在日语中显得懒散而直言不讳,而在英语中则显得总是带着笑意。 技术与教学的结合 使用机器学习技术,团队创建了先进的 TTS 语音,能够在课程中应用任何句子。录音过程中,团队设计了多种句型和语境,以确保声音的自然性和教学效果。特别是在不同语境下,语音的节奏和语调需进行精确调整,以便为学习者提供可靠的发音示范。 学习者的体验 当前,学习者在英语课程中可以听到所有角色的声音,而在学习多种语言时,也能体验到不同语言对角色的多样化演绎。这种多样性不仅增强了学习的趣味性,还帮助学习者在真实语言环境中更灵活地运用所学知识。 让我们的角色发声 我们的角色终于找到了他们的声音!在这篇博客中,我们将分享如何为所有角色创建自定义的文本到语音 (Text-to-Speech, TTS) 声音。 图1: 角色让学习更有趣 在美术团队完成角色的绘制和动画制作后,我们发现社交媒体上大家对这些角色反响热烈。这份热情促使我们更加用心打磨这些角色,给他们更多的细节和背景。 我们意识到,这是一个让语言学习更加有趣且充满吸引力的好机会。同时,我们希望借此加强学习者与 Duolingo 之间的联系。通过引人入胜的故事,我们希望学习者能不断回到平台上学习,并且深入了解这些角色。 现在,我们还为每个角色添加了专属的声音。这不仅让角色更具个性,也为学习者提供了更多样的听力体验,这对于语言学习非常有帮助。在现实生活中,大家会遇到各种不同年龄、性别和背景的人,因此,在课程中听到不同的声音类型,有助于提升应对实际语言情境的能力。 那么,我们的角色有哪些? 为了完善这些角色,我们花了数月的时间设计他们的性格、背景故事以及相互关系。同时,我们也创作了一些以这些角色为主的故事,这有助于更好地展现他们的个性。 我们发现,角色的熟悉感有助于讲故事。在故事中,由于篇幅和语言水平的限制(特别是对于初学者),我们需要依赖这些角色鲜明的个性和他们之间的互动,来实现更强的故事叙述效果。比如,不需要每次都解释 Lily 的动机,她那种冷漠的态度已经让学习者对她的行为有了清晰的理解,即使是初级语言水平也能将故事讲得生动有趣。 图2: 寻找角色的声音 为了让角色更加生动,我们为每个角色制作了定制的 TTS 声音。这些声音不仅展现了角色的独特个性,还让语言学习过程更加生动有趣。 当然,为九个角色开发多语言版本的声音并不是一件容易的事。仅仅是为英文角色选角,我们就花了几个月的时间来筛选试音,并讨论哪个演员最符合角色特质。比如,这次 Eddy 的试音是否显得太过学究?Oscar 是否需要更低沉、更有共鸣的声音?以及 Lily 的冷淡风格能否不影响学习体验? 在为英文版角色选角并录音后,我们以这些录音为基础,制作了西班牙语、法语、德语和日语版本。即便有英文录音作为参考,每种语言仍然面临着独特的创意和技术挑战。例如,讽刺在日语中的表达方式与英语不同,那 Lily 的语气是否也需要改变呢?我们与语言学专家、语音学家和创意顾问一起合作,确保每种语言版本都能合适地表现角色的性格。 有些语言版本中的角色声音几乎与英文版相同,而有些则在某些性格特点上有所加强。比如,Lin 在日语中表现得冷静而直接,但在英语中却总是充满趣味。 图3: 构建他们的声音 在为角色录音后,我们使用机器学习技术来构建最先进的 TTS 声音。这些声音能够用于课程中的任何句子,即使是那些尚未编写的句子!尽管已有许多技术可以用来构建和开发声音,但 Duolingo 的需求有所不同,我们需要它们来帮助学习语言。 我们精心设计了录音的内容,以涵盖课程中可能遇到的各种情境——不同的语音组合、各种句型以及情感表达。这些多样化的录音对于真实再现学习者在课程中遇到的语言场景是非常必要的。我们也尝试突破技术的限制,力求在语调、语速和停顿方面达到最佳效果,使声音尽可能接近真实。 我们的目标是平衡配音演员的表现力和教学的具体需求。配音演员需要通过想象各种场景来赋予台词情感——有时这种“声学味道”会对技术造成挑战,因为 TTS 系统通常是基于中性的语音数据进行训练的。 我们非常重视 TTS 声音在实际课程中的表现。对于学习者来说,TTS 声音需要是发音和语言使用的可靠模范。例如,在英语句子“我读这本书”中,根据上下文“读”的发音会有所不同:在现在时态的课程中,它的发音与在过去时态的课程中是不同的。同样,在处理不同句型的节奏和语调时,我们也遇到了一些挑战。例如,“你想去吗?”的语调与“你想去哪里?”的语调是不同的。我们的 TTS 声音只能和我们提供给系统的语音示例一样好,因此我们的语言专家和工程师合作,为系统提供提示或在必要时进行纠正。 接下来你能听到谁的声音? 现在,学习我们英语课程的学习者可以在课程中听到所有角色的声音!如果你在 Duolingo 上学习多种语言,还能体验这些角色的多种演绎!

July 30, 2024 · 1 min · fisherdaddy

Duolingo 如何为角色添加动画

Duolingo 在为其世界角色动画赋予生命的过程中,采用了创新的技术手段,以确保角色能够生动地与学习者互动。通过使用 Rive 工具,Duolingo 实现了高效的口型动画制作,提升了用户学习体验,确保了动画的质量和可扩展性。 动画挑战:Duolingo 需要为其超过 40 种语言的 100 多个课程中的角色制作动画,但手动动画口型是不切实际的,因此寻求可扩展的解决方案。 Rive 工具的应用:Rive 是一种基于网络的实时互动动画工具,允许通过状态机(State Machine)编程控制动画状态的切换和混合,从而实现高效的动画制作。 语音技术的整合:为了准确制作口型动画,Duolingo 建立了丰富的语音技术生态系统,使用内部的语音识别和发音模型来获取每个单词和音素的时序信息。 嘴形设计:为确保角色的嘴形动画真实可信,Duolingo 设计了 20 多种嘴形,结合角色的个性和 Duolingo 的美学。 动画集成:完成动画后,通过 Rive 的状态机将动画与音频同步,确保角色能够实时响应用户的操作,例如在点击单词时角色能够发声并动画化。 未来展望:Duolingo 将继续探索新技术,以克服技术挑战,进一步提升学习体验,并在未来的项目中应用这些经验。 Duolingo 如何为角色添加动画 在为每个角色开发了独特的声音后,我们开始思考如何让它们更有活力——不仅仅是现有的闲置行为动画。我们希望确保我们的角色能成为学习者生动有趣的学习伙伴! 首先:动画化这么多的口型动作是一项巨大的工程! 我们教授超过40种语言,涵盖100多个课程,每个课程包含数千个句子和课时,所以要为我们十个世界角色的每个口型动作手动画是不可能的。我们需要一种可扩展的方法来处理每个角色的各种口型,同时保证文件大小足够小,以便在Android、iOS和Web平台上运行。此外,我们还希望确保动画质量不受影响! 我们发现,游戏引擎的替代方案可能是答案——一种能帮助我们用有限的资源生成几乎无限组合的工具。这就是我们了解到Rive的原因! 什么是 Rive? Rive 是一种基于网络的工具,用于制作实时互动动画和设计,类似于游戏引擎。它解决了我们许多问题:文件大小小巧,与Duolingo的应用架构无缝结合,从动画师到工程师的交接过程也很顺利。 但最吸引我们的是Rive的状态机:这是一个可视化的逻辑系统,用于连接动画(即“状态”)。它让我们能够通过编程控制调用的动画状态、调用方式以及如何过渡和融合。状态机的强大系统让这个项目能够在大规模上实现。我们知道Rive是实现口型同步动画的理想工具! Rive 内部展示! 语音技术的魔力 为了制作口型动作,我们需要对语音内容有详细的了解。当我们为文本到语音生成声音时,我们使用的解决方案没有提供发音和时间信息,但我们有一个为语言学习设置的丰富语音技术生态系统。为了生成精准的动画,我们会生成语音,将其通过我们的内部语音识别和发音模型,获取每个单词和音素(语音单位)的时间信息。每个声音都会映射到一个视觉表示或唇形,这是我们基于语言学特征设计的一套系统。 有了这些功能,我们创建了一个系统来生成课程内容所需的所有唇形时间数据。当然,我们还需要确保这些数据的准确性,并将其传递给数百万用户。我们不仅开发了生成内容的工具和流程,还在必要时进行审核和修正。 设计口型世界 在开始动画制作前,我们需要确保准确地表示与特定声音对应的嘴形。 角色唇形图示例 我们需要设计每一个嘴形,保持Duolingo的美学风格。此外,每个角色还需要一套独特的唇形,符合其个性特征。设计过程中最关键的一步是确保唇形在动画中看起来真实可信。 有些角色需要更多的探索,但我们最终为每个角色设计了20多个嘴形! 一旦设计指南确定,我们就可以开始动画制作。我们为每个角色在课程中的常规姿势创建了动画状态,也为角色的嘴部设计了单独的状态。所有动画状态设置完毕后,最后一步就是将这些动画导入Rive的状态机,并与之前标注的嘴部输入结合起来。 状态机如何控制角色动画的图示 状态机如何混合唇形动画的图示。这里显示了4个唇形,但即使有超过20个形状,逻辑也是相同的。这些状态需要与角色动画状态同步运行! 状态机设置完成后,我们将其导出为一个运行时文件,然后交给工程师进行应用程序的集成! 集成过程 当需要展示一个挑战时,我们会获取音频和时间信息,并利用这些时间信息同步触发动画状态机。这将数据传输量降到最低——远低于传输一个小视频——并让我们能够实时响应用户的操作。当你点击一个单词时,角色会说出并动画该单词;如果你在它说完之前完成练习,角色会及时停止说话。我们还可以展示闲置行为,如点头、眨眼和眉毛移动。最后,根据挑战的结果——你是答对还是答错——我们可以进入一个最终状态,展示角色的反应! Duolingo 动画和技术的未来 Duolingo 一直在测试各种功能,这些嘴部运动也不例外。这个项目是一次有趣的实验,旨在使学习体验更加有趣,也是一次使用新软件和技术的机会。看到我们如何克服技术难题,并继续打造或改进其他有趣的功能,真是令人兴奋! 请查看我们在2023年Duocon上的演讲,了解更多关于我们动画制作的方法!

July 30, 2024 · 1 min · fisherdaddy

Duolingo 创造了一个新的角色:创意技术专家,连接设计师和开发人员

Duolingo 最近推出了一种新角色——创意技术专家(creative technologists),旨在弥合设计与工程之间的沟通。这一角色专注于设计优先的方法,要求具备动画优化能力,并能有效与工程师沟通。通过使用 Rive 这一设计工具,创意技术专家能够直接创建应用程序中的互动动画,减少设计与工程之间的反复沟通,从而提升工作效率。 创意技术专家的角色: 该角色结合了设计和工程的技能,能够在设计和最终产品之间缩小差距。 他们的职责包括优化动画资产、编写文档并与工程师沟通设计细节。 Rive 的应用: Rive 是一个用于构建互动运动图形的工具,使得动画师和创意技术专家可以直接创建应用中的动画,而无需复杂的技术规格。 Duolingo 首次使用 Rive 进行奖励动画,并逐步扩展到角色的语音同步等领域。 团队协作与优化: 创意技术专家与动画师和工程师紧密合作,确保动画的设计与实现的有效对接。 他们帮助识别设计约束,优化项目的构建方式,从而减少未来的修改和更新成本。 招聘与技能要求: Duolingo 寻找具备工程和设计背景的人才,特别是有状态机、VFX 和 Unity 等相关经验的人。 理想的候选人应能通过技术测试,并有解决新工具或技术问题的能力。 职业发展与行业趋势: 创意技术专家的角色在行业中逐渐兴起,未来可能会有更多类似的职位出现,以满足设计与工程之间的需求。 Duolingo 计划在即将到来的 Duocon 会议上宣布更多基于 Rive 的项目,展示其在互动学习体验中的应用潜力。 Duolingo 创造了一个新的角色,连接设计师和开发人员 Duolingo 最近引入了一个介于设计和工程之间的新角色。这个角色专注于 设计优先的方式,他们正在寻找能够与动画师一起优化设计并将这些优化传达给工程师的人。他们称之为 Creative Technologist。 Creative Technologist 负责弥合设计师和开发人员之间的鸿沟,也就是我们常说的“交接”。他们既有技术背景又有设计眼光,是左右脑兼备的人才。他们受雇时会特别要求成为 Rive 的专家。 为什么选择 Rive? Rive 是一个可以创建运行时交互动态图形的设计工具。Duolingo 的首位 Creative Technologist Jeff Masters 解释道:“以前,动画师会提供一个模型,并附上技术规范,说明如何用代码实现他们的想法。但现在,Rive 让我们的动画师和 Creative Technologist 可以直接创建应用程序中使用的实际素材,不再需要反复与工程师沟通外观问题。在 Rive 中,设计就是最终产品。” 动画副创意总监 Alex Chopjian 的设计和技术能力让他们的 CEO 希望有更多这样的动画师。他说:“在 Rive 中,设计与最终产品之间的差距非常小。你可以直接在浏览器中看到动画效果,而完全不需要接触代码。”...

July 30, 2024 · 2 min · fisherdaddy

LLM 知识图谱构建器:从零到 GraphRAG 只需五分钟

LLM 知识图谱构建器是 Neo4j 提供的一款创新工具,旨在将非结构化数据转化为动态知识图谱,支持生成式 AI 应用。该工具集成了检索增强生成(RAG)聊天机器人,使用户能够通过自然语言查询数据并获得可解释的洞察。用户无需编写代码,即可通过简单的步骤实现数据的提取与可视化,极大地简化了知识图谱的构建过程。 工具介绍: LLM 知识图谱构建器可将 PDF、网页和 YouTube 视频等非结构化文本转化为知识图谱。 该应用基于 React 前端和 Python FastAPI 后端,使用 Neo4j 的图形能力进行图谱构建。 使用步骤: 数据摄取:支持多种数据源,如 PDF、维基百科页面和 YouTube 视频。 实体识别:利用 LLM 识别和提取文本中的实体及其关系。 图谱构建:将识别的实体和关系转化为图格式。 用户界面:提供直观的网页界面,方便用户上传数据源、可视化生成的图谱,并与 RAG 代理互动。 创建知识图谱: 用户可通过拖放文件或输入链接来上传数据,系统将自动识别和处理。 提供预定义的图谱模式选项,用户可根据需求选择或自定义模式。 探索与互动: 生成的知识图谱以节点和边的形式展现,便于高效存储和查询复杂数据网络。 用户可通过 RAG 代理询问与数据相关的问题,系统将根据存储的图谱信息提供回答。 LLM 知识图谱构建器:从零到 GraphRAG 只需五分钟 使用 LLM 知识图谱构建器,在你的生成式 AI (GenAI) 应用中提取和使用知识图谱。 LLM 知识图谱构建器 是 Neo4j 的 GraphRAG 生态系统工具之一,帮助你将非结构化数据转化为动态知识图谱。它集成了检索增强生成 (RAG) 聊天机器人,支持自然语言查询,并提供数据的可解释见解。 什么是 Neo4j LLM 知识图谱构建器? Neo4j LLM 知识图谱构建器是一款创新的在线应用,无需编写代码和 Cypher 查询,即可将非结构化文本转化为知识图谱,提供神奇的文本到图谱体验。 它使用机器学习模型 (大语言模型:OpenAI、Gemini、Diffbot) 将 PDF、网页和 YouTube 视频转换为实体及其关系的知识图谱。...

July 29, 2024 · 2 min · fisherdaddy

Perplexity 的产品开发之路

本文主要介绍了Perplexity 的产品开发之路。Perplexity 是一家成立不到两年的公司,迅速崛起为一个受欢迎的搜索产品,用户数量已达数千万,并且年收入超过 2000 万美元。公司采用“AI 优先”的方法,通过利用人工智能来优化产品开发流程,减少协调成本,提升团队效率。Perplexity 的团队结构扁平,通常由小团队(两到三人)组成,强调自驱动和灵活性,预计未来技术型产品经理将成为公司最重要的人才。 公司背景:Perplexity 在短时间内取得了显著的成就,最近融资 6300 万美元,估值超过 10 亿美元。其投资者包括 Nvidia、Jeff Bezos 等知名人士。 AI 优先策略:公司在构建产品的每一步都依赖 AI,鼓励员工在询问同事之前先向 AI 提问,以提高工作效率。 团队结构:大多数项目由两到三人完成,只有两个全职产品经理,强调小团队的高效运作。 决策与管理:公司采取去中心化的决策方式,鼓励团队成员自主做出快速决策,减少管理层级,提升响应速度。 灵活的工作流程:Perplexity 的项目管理依赖于灵活的季度计划和稳定的周目标设定,团队成员在每周开始时设定优先级目标,并努力完成 75% 的目标。 工具与协作:使用 Notion 进行文档管理和项目规划,利用 Unwrap.ai 整理和量化用户反馈,促进团队协作和信息透明。 未来展望:预计随着 AI 技术的发展,技术型产品经理和具备产品品味的工程师将变得更加重要,团队将继续保持扁平化结构以应对快速变化的市场需求。 Perplexity 的产品开发之路 不到两年前成立的 Perplexity 已成为我日常使用的产品,甚至取代了许多 Google 搜索——我并不孤单。这家员工不足 50 人的公司,用户数量已达到数千万。他们还实现了超过 2000 万美元的年度经常性收入 (ARR),在搜索引擎领域与 Google 和 OpenAI 一较高下。最近筹集的 6300 万美元 使公司的估值超过 10 亿美元,投资者包括 Nvidia、Jeff Bezos、Andrej Karpathy、Garry Tan、Dylan Field、Elad Gil、Nat Friedman、Daniel Gross 和 Naval Ravikant (可惜没有我 😭)。Nvidia 的 CEO Jensen Huang 说他“几乎每天”都在使用这款产品。...

July 29, 2024 · 2 min · fisherdaddy

开源 AI 是未来的发展方向 • Mark Zuckerberg

Mark Zuckerberg 认为开放源代码的人工智能(AI)是未来发展的关键。他将开放源代码与早期的 Unix 操作系统进行比较,指出 Linux 的成功是因为其开放性和可修改性。Zuckerberg 预见,开放源代码的 AI 将在未来发展得更快、更安全,并且能够满足不同组织的需求。他强调 Meta 正在积极推动开放源代码 AI 的标准化,特别是通过推出 Llama 3.1 系列模型,以便更广泛地支持开发者和企业。 开放源代码的优势: 开放源代码允许开发者根据自身需求训练和调整模型,避免被锁定在封闭的供应商生态中。 组织可以在本地运行模型,保护敏感数据,提升安全性。 Llama 3.1 405B 模型的运行成本约为封闭模型(如 GPT-4o)的 50%,使其在经济性上具有竞争力。 Meta 的战略: Meta 通过开放源代码 AI 确保技术的可获取性,避免被竞争对手的封闭生态系统限制。 开放源代码的 Llama 模型将促进生态系统的发展,包括与 Amazon、Databricks 和 Nvidia 等公司的合作。 开放源代码对世界的影响: 开放源代码 AI 可以更广泛地分配技术利益,减少权力集中在少数公司手中。 Zuckerberg 认为开放源代码的透明性使其在安全性上优于封闭模型f,能够更好地应对潜在的意图和非意图的危害。 未来展望: Meta 计划通过构建内部团队和合作伙伴关系,推动 Llama 模型的广泛应用,期望在行业内引发开放源代码 AI 的广泛使用。 Zuckerberg 强调,开放源代码 AI 是促进经济机会和安全的最佳途径,呼吁大家共同参与这一进程。 开源 AI 是未来的发展方向 在高性能计算的早期,主要的科技公司都大力投资开发各自的封闭源代码版本的 Unix。当时很难想象有其他方法能开发出如此先进的软件。然而,后来开源的 Linux 逐渐受到欢迎——最初是因为它允许开发者随意修改代码且成本更低,随着时间的推移,它变得更加先进、安全,并拥有更广泛的生态系统,支持的功能比任何封闭的 Unix 都要多。今天,Linux 已成为云计算和大多数移动设备操作系统的行业标准基础——我们都因此受益,享受到更优质的产品。 我相信 AI 将以类似的方式发展。今天,几家科技公司正在开发领先的封闭模型,但开源正在迅速缩小差距。去年,Llama 2 仅相当于前沿后面的一代模型。今年,Llama 3 已经能够与最先进的模型竞争,并在某些领域中表现出色。从明年开始,我们预计未来的 Llama 模型将成为行业中最先进的模型。但即使在此之前,Llama 已经在开放性、可修改性和成本效益方面处于领先地位。...

July 25, 2024 · 2 min · fisherdaddy

少样本提示提高工具调用效率 • Langchain

本文探讨了通过“少量示例提示”(few-shot prompting)来提高大型语言模型(LLM)在调用工具时的性能。研究表明,少量示例提示能够显著提升模型在多种任务上的表现。通过一系列实验,作者分析了不同提示构造方式对模型性能的影响,发现选择合适的示例和格式化方式是提高性能的关键。 实验设置 研究使用了两个数据集进行实验:Query Analysis 和 Multiverse Math。Query Analysis 测试模型如何基于用户问题选择搜索索引,而 Multiverse Math 则考察模型在更复杂的多次调用场景中的表现。 少量示例提示技术 实验中采用了多种少量示例提示技术,包括零-shot、静态和动态消息等方式。结果表明,动态选择的示例通常优于静态示例,且使用消息格式的表现优于字符串格式。 性能评估 通过检查工具调用的召回率和参数的匹配程度来评估模型的表现。实验结果显示,少量示例提示普遍提高了模型的准确性,尤其是 Claude 模型的表现提升显著。 关键发现 使用少量相关示例(如 3 个)可以与使用更多示例(如 9 个)达到相似的效果,显示出示例数量的边际效益递减。此外,小型模型在使用少量示例时,表现能够与大型模型相媲美。 未来研究方向 文章提出了未来的研究问题,包括负面示例的效果、最佳的示例检索方法以及在复杂任务中如何选择示例等,鼓励开发者探索更多优化 LLM 性能的可能性。 少样本提示提高工具调用效率 工具是大语言模型 (LLM) 应用的重要组成部分,我们一直在努力改进 LangChain 的工具接口(参见我们关于 标准化工具调用 和 核心工具改进 的文章)。 我们还在研究如何 提升 LLM 工具调用的性能。一种常见的方法是使用 少样本提示,即在提示中加入示例输入和期望输出。研究表明,少样本提示能显著提升模型在多种任务中的表现。 构建少样本提示的方法很多,但缺乏最佳实践。我们进行了几次实验,探讨不同技术如何影响模型和任务的性能,愿意与大家分享我们的结果。 实验 我们在两个数据集上进行了实验。第一个数据集是 Query Analysis,这是一个标准场景,模型根据用户问题调用不同的搜索索引。第二个数据集是 Multiverse Math,测试在更智能化的 ReAct 工作流程中进行函数调用(涉及对 LLM 的多次调用)。我们对多个 OpenAI 和 Anthropic 模型进行了基准测试,尝试用不同方法提供少样本示例,以找到最佳方案。 查询分析 第二个数据集要求模型选择调用哪个搜索索引。为了正确查询数据源,模型需要一些领域知识并细致理解各数据源的内容类型。问题设计得非常复杂,以挑战模型的工具选择能力。 示例数据点 question: What are best practices for setting up a document loader for a RAG chain?...

July 25, 2024 · 3 min · fisherdaddy

精益创业方法的优点与不足 • Ethan Mollick

本文探讨了“精益创业法”(Lean Startup Method)的优缺点,强调了在创业过程中进行实验的重要性,同时指出该方法在某些方面可能导致创业者的误导。作者认为,创业教育可以通过结合科学方法和最新研究成果,帮助创业者更成功地启动和发展他们的企业。 精益创业法的核心理念: 由 Steve Blank 和 Eric Ries 提出的精益创业法强调行动导向,鼓励创业者通过“商业模式画布”识别商业假设,并快速构建最小可行产品(MVP)进行测试。 创业者需根据反馈不断调整产品和市场,直到实现产品与市场的契合。 实验的重要性: 意大利学者的研究表明,采用科学方法进行系统性实验的创业团队表现更佳,能够更有效地进行调整并实现更高的收入。 精益创业法的局限性: 强调快速与客户沟通可能导致创业者过于关注短期反馈,而忽视了创新产品的潜在市场需求。 “商业模式画布”虽然有助于了解客户,但未能引导创业者思考其独特的商业假设,可能掩盖了创业想法的真正价值。 改进建议: 引用 Joshua Gans 等人的研究,建议创业者在进行实验之前先制定战略,明确为何自己的公司能够成功,从而更有效地进行实验和获取突破性见解。 结合科学方法和最新的学术研究,能够帮助创业者更成功地推出基于证据的创业项目。 精益创业方法的优点与不足 当别人知道我是创业学教授时,他们往往会让我听听他们的创业计划,或者疑惑地说:“创业不是应该即兴发挥吗?怎么还能教呢?”因此,我听了很多创业计划(去年是区块链,今年是CBD),但我也在思考如何回答一个更大的问题:我们能教给创业者什么,让他们的创业更成功?幸运的是,过去十年我从两个不同的来源学到了很多宝贵的经验。 第一个来源是由Steve Blank和Eric Ries开创的精益创业方法(Lean Startup Method),这方法在六年前由Blank在哈佛商业评论中详细介绍。简而言之,精益创业方法提出,成功创业的关键在于偏向行动。创始人应首先使用商业模式画布(Business Model Canvas)来理解其业务背后的假设,这需要他们填写九个涵盖“价值主张”和“客户细分”等主题的方框。然后,他们将关键问题转化为可测试的假设,快速且廉价地构建最小可行产品(MVP)来测试这些假设。如果测试证明假设正确,那就继续;否则,他们应调整方向,根据反馈修改产品或市场,直到找到产品与市场的最佳匹配,证明产品有市场需求。 精益创业方法在硅谷一经推出便大受欢迎,初创企业纷纷接受这种新的实验精神。这种方法也相对容易教授,因此成为各地创业加速器和创业课程的常见内容。但精益创业并不是过去十年中唯一的重大变化,另一个较为低调的革命也在进行。学者们凭借更好的数据、更复杂的分析技术和新方法,开始破解创业成功的密码。传统的智慧正在接受检验。(创业公司是否总是需要联合创始人?年轻人是否更适合做创始人?)我们已经开始对精益创业方法有了一些重要的认识。 首先,好消息是!证据强烈表明,初创企业应按照精益创业方法所倡导的方式进行实验。一组意大利学者进行了一项黄金标准的随机对照实验,研究了116家初创企业。半数企业学习了如何对他们的创业想法进行严格的实验,生成假设并系统地测试它们。另一半企业虽然也学习了实验方法,但没有被教导如何使用科学方法生成假设。像科学家一样行动的那组企业表现得更好——转向更多,避免了问题,最终产生了比对照组更高的收入。严格的实验显然对初创企业的成功至关重要。 然而,其他研究表明,精益创业方法的某些方面实际上可能是有害的。在一篇新论文中,一组著名的创业学者指出了这种方法的两个主要问题: 精益创业鼓励创始人“走出办公室”并尽快与客户交谈。但正如Steve Jobs所说:“知道自己想要什么不是客户的工作。”对快速从客户那里获取反馈的关注,使初创企业倾向于追求渐进式改进,关注客户今天的需求,而不是展望未来。此外,许多研究(例如Clay Christensen关于颠覆性创新的研究)表明,新颖性常常最初不受客户欢迎。如果你的想法是突破性的,而不是一个容易解释的渐进式产品,那么寻求早期客户的外部验证会更加困难。 这个问题被商业模式画布所加剧。虽然画布所问的问题很有用——你应该知道你的客户是谁!——但它没有问最重要的问题:基于你的独特知识和信念,你对世界的假设是什么?填写画布的九个方框反而让你专注于创业过程结束时的样子——当你有了复杂的渠道和供应商关系等等——但在精益创业方法中没有达到这一最终状态的路线图。此外,画布的详细业务要素掩盖了使你的想法与众不同的真正见解。看看LinkedIn完成的众多画布示例,你会发现其中没有一个展示出使公司成功的关于网络和简历的特殊见解。为了生成关于你的创业为何独特的理论,你应该回到科学方法。从观察世界开始,利用你的观察生成理论,思考如何通过你的创业想法改变世界。 那么,如何保留精益创业的优点而不保留其缺点呢?去年HBR的一篇文章提供了一条路径。Joshua Gans、Erin L. Scott和Scott Stern从企业战略研究中汲取灵感,提出了一种新的、更有效的创业实验方法。他们提供了一种以战略为起点的方法——一个关于你公司为何会成功的理论——并根据创始人的选择,建议进行合适的实验。通过将关键的突破性见解的开发权还给创始人而不是客户,这种方法有潜力成为精益创业的下一步进化。 有了这些新工具和证据,我们真的可以教人们启动更成功的基于证据的初创企业。这些初创企业不仅仅是像精益创业方法那样收集证据,还基于最新的学术证据,来提高创业者的成功率。

July 24, 2024 · 1 min · fisherdaddy

Elon Musk 的“五步算法”:一个显著改善几乎所有事情的简单而巧妙的方法

每个人都有犯错的时候,无论是谁,这都是很常见的现象,也许是世界上最常见的错误。 对于聪明的工程师来说,一个常见的错误是优化一个不应该存在的东西。为什么会这样呢?因为每个人在高中和大学,在高中和大学里,被训练了一种僵化的思维模式,那就是解题思维,解题一种收敛的逻辑,而非发散的逻辑。你不可能跟教授说你的问题太愚蠢了,那样你就可能被挂科。你必须接受教授的问题,并努力解答。因此,基本上每一个人,都在不知不觉中戴上了一个“精神枷锁”,这就是:竭尽全力的工作,却在优化优化那些根本不应该存在的东西。 为了解决以上问题,我提倡一种严格执行的五步法。 第一步:确保你的需求不那么愚蠢。通常来说,你的需求都十分愚蠢,这无关谁提出来的。如果是聪明人给你的需求和任务往往会更加危险,更有问题。因为,你甚至都不会质疑这些聪明人。 第二步:尽力去除不必要的部分和流程,这一步非常重要。如果你没有偶尔重新添加一些内容,那么说明你删除的还不够彻底。一种常见的误区是:很多流程中添加的部分都是为了以防万一,但实际上,你可以为许多事情做出类似的以防万一的理由。 第三步:简化或优化,注意是第三步,而不是第一步,否则他们就会优化一个根本不存在的东西。 第四步:加快进度。你的行动太慢了,要快速行动,但不要在前三步还没做好的时候就急于加速。 第五步:自动化。 我个人曾多次在这五个步骤上犯错,所以我必须不断提醒自己,这个过程需要反复进行。 Elon Musk 的“五步算法”:一个显著改善几乎所有事情的简单而巧妙的方法 Elon Musk 称之为“算法”,这是他在 Tesla 的内华达和弗里蒙特工厂不懈提高生产能力过程中总结的经验教训的精华。 根据 Walter Isaacson 在他的新书 Elon Musk 中的说法,Musk 在任何生产会议上都有很大的可能性提到这个算法。 “我经常重复这个算法,”Musk 说。“但我认为不断强调它是有帮助的。” 下次当你想在工作或生活中变得更高效时,可以试试 Musk 的算法。只需确保按照顺序完成每一步。(下面斜体部分是从 Isaacson 的书中引用的,引用了 Musk 的话。) 1. 质疑每一个需求。 每一个需求都应该附有提出该需求的人的名字。你永远不应该接受一个来自某个部门的需求,例如“法律部门”或“安全部门”。你需要知道具体是谁提出的需求。然后你应该质疑它,不管这个人多聪明。来自聪明人的需求反而最危险,因为人们不太可能质疑它们。即使是来自我的需求,也要质疑。 然后让这些需求变得不那么愚蠢。 当我接管一家新工厂的生产时,主管们必须在生产线启动前签署质量确认。工作人员经常需要等待五到十分钟才能找到主管 (这也是需要解决的另一个问题;领导者应该在车间,而不是在办公室里)。 为什么会有这个规定?公司 CEO 在一次昂贵的错误之后制定了这个规则。但如果操作员不能被信任判断他们的工作是否符合质量标准,他们就不应该 成为 操作员。 许多规定都是基于一次性事件,不需要以流程、指导方针或规则来回应。相反,只需处理特定情况。 从中学习,但不要因为个别事件就制定一成不变的规定。 2. 删除你能删除的任何部分或过程。 你可能需要后来加回来。事实上,如果你没有最终加回至少 10% 的部分,那么你删除得还不够多。 当我第一次成为主管时,我的一项工作是准备、打印并分发一份每日报告给大约 20 人。整个过程花费了一个多小时。有一天,我想知道是否有人实际上读了这份报告,所以我创建了它,但没有打印或分发。 没有人注意到。 所以我停止分发其他一些报告。创建了它们,但没有分发。没有人注意到。 我们经常做事情只是因为我们一直这样做。或者因为我们认为需要这样做。或者因为这是我们的工作,因此它必须很重要。(我们的工作中的每一件事都很重要,对吗?) 3. 简化和优化。 这应该在第二步之后进行。一个常见的错误是简化和优化一个不应该存在的部分或过程。 在我停止分发那些报告的几周后,我问了一些人是否需要我再次分发这些报告。不需要。然后我问我们是否还需要收集相关数据。在大多数情况下,我们不需要,因为它已经在其他地方被收集。(我的部门一直在做重复工作,因为我们认为我们不能信任其他部门把它做对。) 在一些情况下,我们确实偶尔需要某些数据,所以我找到了自动化收集过程的方法。我还找到了一个让生产人员不参与数据收集过程的方法,这意味着他们可以花更多时间生产,而不是充当数据录入员。 正如你马上会看到的,确保你不会自动化或优化一个根本不需要存在的过程。当然,通过使某件事变得更好,你可以取得百分比上的改进,但为什么不通过完全消除不必要的过程来节省 100% 的时间、精力和成本呢? 4. 加快周期时间。 每个过程都可以加速。但只有在你遵循前三个步骤之后才这样做。在 Tesla 工厂,我错误地花了很多时间加速后来发现应该被删除的过程。...

July 23, 2024 · 1 min · fisherdaddy

反思型智能体 • Langchain

反思是一种用于提高代理和类似 AI 系统质量与成功率的提示策略。本文概述了如何使用 LangGraph 构建 3 种反思技术,包括 Reflexion 和语言代理树搜索的实现。 关键链接 简单反思: (Python)反思: (Python)语言智能体树搜索: (Python)Youtube反思是一种提示策略,用于提升智能体和类似 AI 系统的质量和成功率。它通过提示大语言模型(LLM)反思和批评其过去的行为,有时还会结合外部信息,如工具观察。 人们常提到“系统1”和“系统2”思维,系统1是反应迅速或本能的,而系统2则更为有条理和反思性。正确应用反思,可以帮助 LLM 系统摆脱纯粹的系统1思维模式,表现出更接近系统2的行为。 反思需要时间!本文中的方法都用了一些额外的计算换取更好的输出质量。虽然这可能不适合低延迟应用,但对于知识密集型任务,响应质量比速度更重要,确实值得这样做。 以下是三个示例: 基本反思 链接: (Python, Youtube) 这个简单示例由两个 LLM 调用组成:一个生成器和一个反思器。生成器尝试直接响应用户请求,反思器则扮演老师角色,对初始响应提供建设性的批评。 循环进行固定次数后,返回最终生成的输出。 简单反思循环 我们可以在 LangGraph 中定义以下循环: from langgraph.graph import MessageGraph builder = MessageGraph() builder.add_node("generate", generation_node) builder.add_node("reflect", reflection_node) builder.set_entry_point("generate") def should_continue(state: List[BaseMessage]): if len(state) > 6: return END return "reflect" builder.add_conditional_edges("generate", should_continue) builder.add_edge("reflect", "generate") graph = builder.compile() MessageGraph 表示一个有状态图,其中“状态”只是一个消息列表。每次调用生成器或反思节点时,它会将一条消息添加到状态的末尾。最终结果由生成器节点返回。 这种简单的反思方式有时可以通过让 LLM 多次尝试改进输出,并让反思节点在批评输出时扮演不同角色,从而提高性能。 然而,由于反思步骤不依赖于任何外部过程,最终结果可能不会显著优于原始结果。我们来探索一些可以改善这一情况的其他技术。 反思 链接:(Python, Youtube)...

July 22, 2024 · 2 min · fisherdaddy

关于智能体、认知架构 、规划 • LangChain

本文是 LangChain 官方发布的关于 Agent 的系列文章,这里我将其汇总和翻译了一下 什么是智能体? “什么是智能体?” 我几乎每天都会被问到这个问题。在 LangChain,我们构建工具来帮助开发人员构建大语言模型 (LLM) 应用程序,尤其是那些作为推理引擎并与外部数据和计算源交互的应用程序。这类系统通常被称为“智能体”。 每个人对智能体的定义似乎都有些不同。我的定义可能比大多数人的更技术化: 智能体是使用 LLM 来决定应用程序控制流的系统。 即便在这里,我也不得不承认我的定义并不完美。人们常常认为智能体是高级的、自主的、类人的——但如果只是一个简单系统,其中大语言模型 (LLM) 在两条路径之间进行选择呢?这虽然符合我的技术定义,但并不符合大家对智能体能力的普遍认知。智能体到底是什么,确实很难准确定义! 这就是为什么我非常喜欢 Andrew Ng 上周的推文。在推文中,他建议“与其争论哪些工作应该包含或排除为真正的智能体,我们可以承认系统的智能行为有不同的程度。”就像自动驾驶汽车有不同的自动驾驶级别一样,我们也可以将智能体的能力视为一个光谱。我非常同意这个观点,我认为 Andrew 表达得很好。未来,当有人问我什么是智能体时,我会转而讨论什么是“智能行为”。 智能行为是什么意思? 去年我做了一个关于 LLM 系统的 TED 演讲,并使用下面的幻灯片来讨论 LLM 应用程序中存在的不同自主级别。 一个系统越“智能”,LLM 决定系统行为的程度就越高。 使用 LLM 将输入路由到特定下游工作流具有一定程度的“智能”行为。这会在上图的Router类别中。 如果你使用多个 LLM 进行多个路由步骤?这会介于Router和State Machine之间。 如果其中一个步骤是确定是否继续或结束——有效地允许系统在完成之前循环运行?这会属于State Machine。 如果系统正在构建工具,记住这些工具,然后在未来的步骤中使用它们?这类似于Voyager 论文中实现的,非常智能,属于更高的Autonomous Agent类别。 这些“智能”定义仍然非常技术化。我更喜欢“智能”的技术定义,因为我认为它在设计和描述 LLM 系统时很有用。 为什么“智能”是一个有用的概念? 与所有概念一样,值得问的是我们为什么需要“智能”这个概念。它有何帮助? 了解你的系统有多智能可以指导你在开发过程中的决策——包括构建、运行、与之交互、评估甚至监控它。 你的系统越智能,编排框架就越有帮助。如果你正在设计一个复杂的智能系统,拥有一个具有正确抽象概念的框架可以加速开发。这个框架应该对分支逻辑和循环有一流的支持。 你的系统越智能,运行就越困难。它会越来越复杂,某些任务将需要很长时间才能完成。这意味着你会希望将任务作为后台运行。这也意味着你希望有持久的执行能力来处理中途发生的任何错误。 你的系统越智能,你就越希望在运行时与它交互。你会希望能够观察内部发生的情况,因为所采取的确切步骤可能事先未知。你会希望能够在特定时间点修改智能体的状态或指令,如果它偏离了预定路径,可以将其拉回正轨。 你的系统越智能,你就越希望有一个为这些类型的应用程序构建的评估框架。你会希望多次运行评估,因为有大量随机性叠加。你会希望能够不仅测试最终输出,还测试中间步骤,以测试智能体的效率。 你的系统越智能,你就越希望有一个新型的监控框架。你会希望能够深入了解智能体所采取的所有步骤。你还会希望能够根据智能体所采取的步骤查询运行情况。 了解和利用系统中的智能能力光谱可以提高开发过程的效率和健壮性。 智能是新的 我经常思考的一个问题是,在这场热潮中,什么是真正新的。我们是否需要为人们构建的 LLM 应用程序提供新工具和新基础设施?还是以前的通用工具和基础设施就足够了? 对我来说,你的应用程序越智能,拥有新工具和基础设施就越关键。这正是促使我们构建LangGraph,一个帮助构建、运行和交互智能体的编排器,以及LangSmith,一个用于 LLM 应用程序的测试和可观测性平台。随着我们在智能光谱上不断前进,支持性工具的整个生态系统需要重新构想。 什么是“认知架构”? 更新:有几位读者指出,“认知架构”这个术语在神经科学和计算认知科学中有丰富的历史。根据维基百科的定义,“认知架构”既指关于人类心智结构的理论,也指这种理论的计算实现。这个定义(以及相关的研究和文章)比我在这里提供的定义更为全面。所以这篇博客应该被视为我在过去一年中构建和帮助构建基于大语言模型 (LLM) 应用程序的经验与这一研究领域的对照。 在过去的六个月里,我经常使用“认知架构”这个短语,而且以后可能会更多地使用。这是我第一次从 Flo Crivello 那里听到的术语——所有的功劳都归于他,我认为这是一个很棒的术语。那么我究竟指的是什么呢?...

July 22, 2024 · 2 min · fisherdaddy

OpenAI官方指南:Fine-tuning

学习如何为您的应用程序定制模型。 介绍 微调可以通过以下方式让您更好地利用 API 提供的模型: 比直接使用提示获得更高质量的结果 可以训练比提示中更多的示例 由于提示更简短,节省 Token 请求延迟更低 OpenAI 的文本生成模型已经在大量文本数据上进行了预训练。为了有效使用这些模型,我们通常在提示中包含说明和几个示例。这种通过示例展示任务的方法称为“少样本学习”。 微调通过在提示中包含更多示例来改进少样本学习,从而在许多任务上获得更好的结果。一旦模型经过微调,您不需要在提示中提供那么多示例。 这样可以节省成本并降低请求延迟。 微调一般包括以下步骤: 准备并上传训练数据 训练一个新的微调模型 评估结果,如有需要返回第一步 使用您的微调模型 访问我们的定价页面,了解微调模型训练和使用的费用。 哪些模型可以微调? GPT-4(gpt-4-0613 和 gpt-4o-*)的微调处于实验性访问计划中,符合条件的用户可以在创建新的微调任务时在微调界面中申请访问。 目前以下模型可以进行微调:gpt-3.5-turbo-0125(推荐),gpt-3.5-turbo-1106,gpt-3.5-turbo-0613,babbage-002,davinci-002,gpt-4-0613(实验性),以及 gpt-4o-2024-05-13。 如果您获得了更多数据且不想重复之前的训练步骤,还可以对一个已经微调的模型进行再次微调。 我们认为gpt-3.5-turbo在结果和易用性方面对于大多数用户来说是最佳选择。 何时使用微调 微调 OpenAI 的文本生成模型可以让它们更适合特定应用,但这需要大量的时间和精力投入。我们建议首先尝试通过提示工程、提示链(将复杂任务分解为多个提示)和函数调用来获得良好结果,主要原因包括: 我们的模型在许多任务上的初始表现可能不佳,但通过正确的提示可以改善结果,因此可能不需要微调 提示迭代和其他策略的反馈循环比微调更快,而微调需要创建数据集并运行训练任务 在需要微调的情况下,初始的提示工程工作不会浪费 - 通常我们会在微调数据中使用良好的提示(或结合提示链和工具使用与微调)时获得最佳效果 我们的提示工程指南提供了不进行微调而提高性能的一些最有效策略和技巧。您可以在我们的playground中快速迭代提示。 常见用例 以下是一些微调可以改善结果的常见用例: 设置风格、语气、格式或其他定性方面 提高生成所需输出的可靠性 纠正未能遵循复杂提示的错误 特定方式处理许多边缘情况 执行在提示中难以表达的新技能或任务 一个高层次的思路是,当“展示”比“说明”更容易时。在接下来的部分中,我们将探讨如何设置微调数据以及微调在基线模型上提升性能的各种示例。 另一个微调的有效场景是通过替换 GPT-4 或使用较短的提示来减少成本和/或延迟,而不牺牲质量。如果您能用 GPT-4 获得良好结果,通常可以通过在 GPT-4 结果上微调gpt-3.5-turbo模型并缩短指令提示,达到类似的质量。 准备您的数据集 一旦您确定微调是正确的解决方案(即您已经优化了提示并发现模型仍有问题),您就需要准备训练模型的数据。您应创建一组多样化的示范对话,这些对话与您在生产中要求模型响应的对话类似。 数据集中的每个示例都应该是与我们的聊天完成 API相同格式的对话,具体来说是一系列消息,每条消息都有一个角色、内容和可选名称。至少一些训练示例应直接针对模型在提示中表现不佳的情况,并且数据中提供的助手消息应是您希望模型给出的理想响应。 示例格式 在这个例子中,我们的目标是创建一个偶尔会给出讽刺回复的聊天机器人,以下是我们可以为数据集创建的三个训练示例(对话): {"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic....

July 22, 2024 · 8 min · fisherdaddy

雷军年度演讲精华合集

雷军今年做了第四年的年度演讲,今年的主题是《勇气》,每次看完雷总的演讲都会热血沸腾,非常钦佩雷总的学习能力和勇气。这篇文章我摘要雷总每年的演讲精华,常看常新。 2024《勇气》 雷军在2024年度演讲中,以“勇气”为主题,讲述了小米造车的全过程,强调了勇气在面对巨大挑战和不确定性时的重要性。他回顾了小米在遭遇美国制裁后,决定进军汽车行业的艰难历程,并分享了团队在研发小米SU7过程中克服的种种困难。雷军认为,勇气不仅仅是口号,而是每一步脚踏实地的行动,是冲出重围的关键。 造车起因与决策过程: 2021年1月15日,小米因美国制裁面临巨大危机,有一个董事建议,要不要考虑一下造车。 组成了一个6人的调研组,70多天的时间里马不停蹄去了10多个城市,我们调研了85场,访谈200多人,4次高管会。 在3月24号的董事会汇报中,我讲到智能电动车是大势所趋,而且汽车行业正在和消费电子行业相融合,我觉的小米必须干。 如果我们要造车,首先要有长期打算,其次一定要奔着全球前五去。这意味着要准备烧很多钱,我们当时认为最少要100亿美元。 经过董事会激烈的讨论后,给了我一个肯定的答复:支持我造车。但由于投入过大,雷军本人必须带队亲自干。 3月30号,我正式回复了董事会:如果这件事情小米必须干,如果大家觉得我合适。为了小米,我愿意挺身而出。 当天我们就正式公告了,小米下场造车,雷军带队,十年内全资投入100亿美元。这几个消息震撼了全行业,当天晚上我们举办了发布会。 研发与团队建设: 小米组建了超过1000人的团队,经过三年多的努力,团队人数已超过7000人。 雷军强调核心技术的自主研发,电机、电池包、智能驾驶等领域均投入巨大。 面对挑战与危机: 到了2021年年底春节前,第一次项目的正式评审会开始,我们大家都挺激动。结果呢,这个会开下来开的特别郁闷,大家的分歧特别大,最后下决心,整个产品方案推到重干。 春节后临时召集的会,谁也没有想到,一开开了整整21天,开了一个马拉松式的会议。20天的会我总结下来,我觉得形成了一个最重要的共识,就是小米作为一个新来者,只要能顺利上牌桌,就是巨大的成功。 很多人问我,你们当年为什么能把车造出来,最关键就是这句话,就是:小米造车要尊重行业规律,守正出奇,要先守正再出奇,不要一上来就颠覆,一上来就掀桌子。 研发过程中经历了疫情等多重挑战,团队坚持从核心技术做起,不走捷径。 当我决定造车的那天起,我就下决心自己开车,重新开始开车、借车开、去4S店试车开,一般会问三个问题:1、这辆车好在哪里,不好在哪里;2、你当时为什么要买这辆车;3、假如你要换车,你打算换一辆什么样的车。不知不觉三年下来,我大概试驾了170多辆车。我整理了一下笔记和资料,居然有20多万字。 考赛车驾照:不仅仅自己练,还逼着小米的团队也去练,管理团队和工程师超过了100人拿到了赛照 雷军亲自参与各个关键节点的测试,包括冬测、夏测和长途自驾测试。 市场与销售策略: 真正的困难是我们7000人无数的心血做的SU7,在上市前的两三个月跟大家沟通交流的时候,居然发现所有人都认为卖不动。几个部门给我整了三份报告,每一份洋洋洒洒几十页,我看完都只有核心一句话:人家34C的用户买的全是品牌,为啥要买你SU7呀? 然后我就让市场部请一些媒体的朋友们来帮忙出主意,一共请了23位。我也万万没想到,绝大部分人都不看好。他们认为,能月销3000辆就要烧高香。这就是当时大家的结论,我觉得大家说的都是心里话啊。当然,我有点不服气,然后尝试去说服他们,但还是改变不了他们的观点。最后,这让我无比绝望,整个团队都笼罩在焦虑当中。 在我最郁闷的时候,我想起了我自驾的一辆车,是一辆福特野马,我跟同事借的,这辆车是他工作了十年之后积攒的钱买给自己的奖励。他跟我说,每天早晨一上班,坐到车里,踏下油门的那一刹那,他就热血沸腾。每天晚上回家,还在车着坐一会儿再上楼。我此时此刻都能回想起他当时给我讲的这些话造成的冲击。我真的相信,人生值得被奖励,这就是一辆Dream car的意义。 我们的小米SU7其实就是为他乡的奋斗者设计的,所以我相信人们对Dream car的向往。我相信,三年多时间,我们整个团队全力以赴的投入,我也相信小米SU7的魅力和强大的产品力,无论多少人不看好,但我始终坚信SU7一定会大卖。 其实真正考验我的信心是今年二月份要确定全年产能,要订多少货。在这个时候,我的这份自信让我下了决心:76000辆。我从第一天就下的目标就是数一数二。如果卖不出去对我们来说是个灭顶之灾,我深知这是个疯狂的目标。但我也很清楚,其实我们没有退路,我们就像过河的卒子一样,只能拼命往前冲。 在巨大的焦虑,离发布的日期就越来越近了,更大的难题是:定价。价格定错了,后果不堪设想,上百亿的损失,三年的时间付诸东流。纯电车成本很高,除了特斯拉,几乎所有纯电车都在巨额亏损,所以合理定价,业务才能持续成长,超低价只是饮鸩止渴。雷军坚持SU7的高品质定位,最终确定价格为215900元。 小米SU7在发布后获得了市场的热烈反响,预定量迅速突破。 个人投入与信念: 雷军通过亲自试驾170多辆车、学习赛车等方式,深入了解汽车行业。 他强调,勇气来源于坚定的信念和每一步的脚踏实地,是人类最伟大的赞歌。 未来展望: 小米SU7的成功标志着小米汽车正式进入市场,但雷军表示,真正的成功还在未来,需要继续努力。 他呼吁全体员工和合作伙伴继续保持勇气和决心,共同迎接未来的挑战。 2023《成长》 雷军在2023年的年度演讲中分享了他个人成长和创业的经历,并宣布了小米科技战略的升级。演讲涵盖了他的求学经历、创业之旅以及小米在高端市场的探索。他强调了梦想和坚持的重要性,并详细介绍了小米未来的科技战略和新品发布。 成长经历 求学经历: 梦想的起点:雷军在武汉大学读书期间受《硅谷之火》启发,立志创办一家伟大的公司。 第一个目标:两年修完所有学分,通过请教学长、自学和积极与老师互动,最终成功。 遇到问题,第一时间找个懂的人问问。很多人觉得,自己遇到的问题,只能自己琢磨、自己搞定。实际上,无论你遇到什么问题,别人可能都遇到过,都解决了,甚至都有标准答案,你只要找人问问就可以。 关于自学。遇到实在看不懂的,先跳过去,咬着牙往下读,像看小说一样,坚持从头读到尾;一本书,这样反复多读几遍,基本就能搞懂。 第二个目标:成为优秀的程序员,通过在机房蹭电脑、在纸上写程序等方法,提升编程技能。 第三个目标:在学报上发论文,通过研究计算机病毒并写论文,成功发表在《计算机研究与发展》。 创业之旅: 第一款商业软件:与王全国合作开发加密软件 BITLOK,取得商业成功。 一个人能力再强,也是有限的,找互补的朋友一起干,更容易成功。 第一次创业:与学长合伙创业公司“三色”,因缺乏经验最终失败。 办公司太不容易了,光有技术是不够的,还有太多东西要学,尤其是商业方面的基本功。 加入金山:在金山公司成长为管理者,并强调团队合作的重要性。 在金山内部,有句话我们经常讲,一个人可能走得更快,但一群人走,才能走得更远。这就是金山35年最重要的经验。 创办小米:怀揣梦想,创办小米公司,推动中国制造业的发展。 小米高端探索的历程 起步与挑战 小米从小米10开始进军高端市场,虽然小米10取得了初步成功,但小米11和小米12连续两代产品不达预期,面临重大挫折。 春节后上班的第一天,我紧急召集了一次讨论会。这就是小米历史上规模最大的专项战略讨论会,所有部门的总经理都参加了。我鼓励大家畅所欲言,放开了说。也许刚过完年,气氛非常融洽,但争论非常激烈,从中午开到晚上。我反复说服大家:我们创业的梦想就是把小米做成全球知名的科技品牌。无论多难,我们一定要坚持使用小米品牌做高端。还有,消费电子行业,竞争极其激烈,只有做高端,才能倒逼我们在技术上寻求突破,赢得未来生存和发展的空间。 最后,大家终于达成了共识,高端是我们发展的必由之路,更是生死之战!不能有任何动摇,必须死磕到底!我们正式把“高端化”定为集团战略! 影像技术的突破 小米设立了单独的相机部,目标是超越友商,达到DXO评测全球第一。 在DXO评测中,我们首先进入前三,接着第二,然后做到了并列第一。为了夺取DXO第一,我们团队接着又花了两年多时间准备了小米11 Ultra,传感器是我们专门定制的,参数全部拉满,调校也下了巨大功夫。发布前一天,我们终于收到通知:DXO评分,全球第一! 结果,谁没想到,产品首发第一天,就被用户疯狂吐槽。这么牛的影像,“DXO全球第一”,为啥用户还不满意呢?大家都有些懵了。经过痛苦的反思,大家彻底明白了,参数到顶、DXO全球第一,并不代表拍照好,更不代表用户满意。 我提议找徕卡聊聊。我认为,只要徕卡是这个世界上最好的老师,只要我们用心学,我们的能力就一定会成长!我还专门问了很多摄影师,每个人都说,徕卡是影像界的传奇,地位和实力都是顶级的。 签约后的第一件大事,你可能想不到:办班!办摄影班!因为我深知,只有懂摄影、爱摄影,才能真正做好影像。我们正式请徕卡到小米科技园来办摄影班,我逼着核心团队成员全部来上课。 摄影文化的种子一旦种下,很快就生根发芽。公司内部,大家组织了各种形式的摄影培训和员工影展,同学们参与的热情都特别高。我们还交了很多专业摄影师朋友,在长城上,还办了一次规模盛大的摄影展。 小米与徕卡共同推出了“徕卡双画质”,包括“徕卡经典”和“徕卡生动”两种影调,成功获得用户和专业摄影师的认可。 小米13的成功...

July 20, 2024 · 1 min · fisherdaddy

快速微调击败专有模型

本文探讨了如何通过快速微调开源嵌入模型,以更低的成本和更高的准确性超越专有模型(如 OpenAI 的 text-embedding-3-small)。文章首先介绍了微调的基本概念,然后通过实验展示了在简单问答任务中所需的微调数据量。作者强调,利用开源模型和可扩展的基础设施,初创企业可以在没有大量用户数据的情况下,快速启动并优化其模型,进而形成数据飞轮效应。 微调的重要性: 微调可以使模型更好地适应特定任务,提供比现成模型更好的性能。 数据飞轮的概念:用户数据的积累可以不断提升模型的表现,从而吸引更多用户,形成良性循环。 数据集和模型选择: 本文使用 Quora 数据集进行训练,该数据集包含标记为“相似”和“不同”的问题对,以训练模型识别文本相似性。 选择合适的基础模型是关键,作者推荐使用具有开放许可证的模型,这些模型的权重可以下载和修改。 基础设施和资源管理: 微调模型需要显著的计算资源,Modal 提供的自动扩展基础设施可以按需使用 GPU,降低成本。 作者建议设定明确的训练目标和资源限制,以优化训练过程。 实验结果: 实验表明,经过微调的 bge-base-en-v1.5 模型在识别文本相似性方面表现优于 OpenAI 的基线模型。 即使使用仅几百个样本,微调后的模型也能显著降低错误率,表明微调的有效性。 未来方向: 文章最后指出,下一步应将微调过程自动化,以便持续收集数据并迭代模型,从而实现系统的持续改进。 快速微调击败专有模型 只需要几个示例,微调后的开源嵌入模型就能以更低的成本提供比专有模型(如 OpenAI 的text-embedding-3-small)更高的准确性。本文将介绍如何使用 Modal 创建这样的模型。首先,我们会讲解微调的基础知识。然后,我们会讨论一个实验,研究在一个简单的问答应用中需要多少微调数据。 为什么要微调 开源模型让你起步 定制模型至关重要。这是 Netflix 不断推荐更好的电影和 Spotify 找到适合你每日播放列表新歌的原因。通过跟踪你是否看完选定的电影或是否跳过一首歌,这些公司积累了大量数据。他们利用这些数据改进内部的嵌入模型和推荐系统,从而提供更好的建议和用户体验。这甚至能吸引更多用户参与,进而积累更多数据,进一步改进模型,形成一个被称为数据飞轮的良性循环。 数据飞轮:更多用户意味着更多数据意味着更好的模型,进而吸引更多用户。 像 Netflix 和 Spotify 这样的顶尖机器学习公司利用数据飞轮从头创建了自己的模型,他们现在拥有大量数据。然而,当你刚开始一个新公司或项目时,你可能没有足够的数据。在 2010 年代,启动数据飞轮需要大量的创造力或资源投入。 但在 2020 年代,随着高性能通用预训练模型和宽松许可证的出现,启动数据飞轮变得大大简化。你可以从这些模型之一开始,这些模型经过大规模、多样化数据集训练,能够在你的任务中表现得相当不错。 在之前的博客文章中,我们展示了如何通过使用 Modal 的自动扩展基础设施在数百个 GPU 上部署现成模型,在不到 15 分钟内嵌入整个英文维基百科,证明了这一点。 微调启动数据飞轮 这些模型和运行它们的基础设施的可用性对于刚刚起步且还没有用户数据的组织来说是个好消息。但关键是要尽快转向一个定制模型,以提供比现成模型更好的性能。幸运的是,数据积累得很快:只需几十个用户每天与服务交互 3-4 次,几天内就能生成数百个数据点。 这些数据足以训练一个在样本数据集上击败 OpenAI 的text-embedding-3-small的模型。 我们用于创建嵌入的 Modal 上的同样可扩展、无服务器基础设施也可以用来定制模型,这个过程称为微调。最终结果是一个具有更高性能且显著降低运营成本的机器学习应用:启动你自己数据飞轮的第一步。 微调的操作:数据集、模型和基础设施 在微调模型时,有许多设计决策需要做出。我们在此回顾其中的一些。 找到或创建数据集 虽然机器学习的大部分讨论和研究都集中在模型上,但任何有经验的机器学习工程师都会告诉你,数据集才是最关键的部分。...

July 20, 2024 · 2 min · fisherdaddy

证明者-验证者游戏改善语言模型输出的易读性 • OpenAI

本研究探讨了如何通过训练强大的语言模型,使其生成易于验证和理解的文本,以提高人类评估的准确性。研究发现,单纯优化模型以获得正确答案,可能导致生成的解决方案变得难以理解。因此,采用“证明者-验证者游戏”的方法,可以在确保输出正确的同时,提高文本的可读性和可验证性。这种方法对于提升 AI 应用的有效性和可信度至关重要,尤其是在需要清晰沟通的领域。 研究背景: 随着大型语言模型(LLMs)在复杂任务中的应用日益增加,确保其输出的可理解性变得尤为重要。研究表明,当优化过程仅关注正确答案时,生成的文本往往缺乏清晰性。 证明者-验证者游戏: 该方法涉及两个角色:生成解决方案的“证明者”和检查解决方案准确性的“验证者”。通过这种方式,强模型能够生成更易于人类和其他 AI 系统验证的文本。 训练过程: 研究通过优化链式思维的方式,使其在解决小学数学问题时能够被较弱模型验证。该训练过程分为多个阶段,包括验证者训练和证明者训练,以确保生成的文本不仅正确,而且易于理解。 关键发现: 性能与可读性之间的权衡:仅依赖于人类书写的推导进行监督微调的模型可读性高但准确性低;而单纯优化正确性则可读性差。本研究的方法在保持高可读性的同时,确保了适度的准确性。 三种有用的模型角色: 稳健验证者:能够有效区分正确和错误的解决方案。 有帮助的证明者:生成易于人类理解的解决方案,减少评估错误。 狡猾的证明者:产生微妙的错误解决方案,初期可能会误导人类评估者,揭示模型改进的方向。 结论: 本研究强调了在确保 AI 输出的正确性和透明可验证性方面的重要性,尤其是在未来超智能 AI 系统的对齐研究中。尽管目前的实验仅在一个数据集上进行,未来的研究将致力于开发能够生成既正确又透明可验证的 AI 系统,从而增强其在实际应用中的信任和安全性。 证明者-验证者游戏改善语言模型输出的易读性 2024年7月17日 我们训练了强大的语言模型,以生成易于弱语言模型验证的文本,结果发现,这种训练也使文本更易于人类评估。 确保语言模型生成易于理解的文本对于使其对人们有帮助至关重要,特别是在处理复杂任务时,比如解决数学问题。 我们发现,当我们优化强大模型的解决问题过程仅为了获得正确答案时,生成的解决方案可能变得更难理解。实际上,当我们要求时间有限的人类评估员评估这些经过高度优化的解决方案时,他们的错误几乎是评估较少优化解决方案时的两倍。这一发现突显了不仅正确性,而且清晰性和易验证性在AI生成文本中的重要性。 通过训练高级语言模型生成弱模型可以轻松验证的文本,我们发现人类也能更有效地评估这些文本——我们称之为提高易读性。 在这里,prover-verifier games 发挥了作用。这些游戏涉及两个玩家:“证明者”生成一个解决方案,“验证者”检查其准确性。 这种方法不仅对于确保输出的正确性至关重要,而且对于使它们易于理解和验证对人类和其他AI系统同样重要。 理解和处理性能与易读性之间的平衡,可以带来更有效和可信的AI应用,惠及需要精确和清晰交流的广泛领域。 通过优化提高易读性 为了提高易读性,我们优化了基础数学问题的推理过程,使其易于较弱的模型验证,并研究这是否使它们对人类更易读。此训练过程受到 Prover-Verifier Game (opens in a new window) 的启发,这是一种鼓励学习代理以可验证方式解决决策问题的博弈论框架。我们的方法在仅优化答案正确性时的性能提升一半的情况下,保持了人类评估员准确评估解决方案的能力。我们认为,进一步缩小可读和高性能模型之间的差距是未来一致性研究的重要目标。 问题:Shawna的父亲是Shawna的五倍大。Shawna目前是Aliya的三倍大。如果Aliya现在3岁,Shawna的父亲多大? 过程 答案 模型初始化 由此推断,Shawna目前$3^2=9$岁。 随后这意味着Shawna的父亲目前$9\cdot5=45$岁。 答案:45 第一轮可验证性训练 首先我们需要确定Aliya的年龄。从问题描述中得知,Aliya是3岁。 然后我们需要确定Shawna的年龄。从问题描述中得知,Shawna目前是Aliya的三倍大,所以Shawna的年龄是3乘以3,即<<3 * 3 = 9>>9。 接下来,我们需要确定Shawna的父亲。问题中说Shawna的父亲是Shawna的五倍大。因此,Shawna的父亲的年龄变成5乘以9,即<<5 * 9 = 45>>45。 答案:45 第五轮可验证性训练 我们首先计算Aliya的年龄。 问题中说Aliya是3岁。 然后,我们需要计算Shawna的当前年龄。...

July 18, 2024 · 1 min · fisherdaddy

人工智能工程师的崛起

本文探讨了 AI 工程师这一新兴职业的崛起,并分析了其在未来技术发展中的重要性。作者认为,随着基础模型的出现和应用,AI 工程师将成为未来十年最热门的工程职位。 AI 工程师的定义: AI 工程师是将 AI 技术应用于实际产品开发的工程师,他们擅长使用基础模型 API,并能够根据产品需求进行微调和部署。 AI 工程师的技能: AI 工程师需要具备软件工程、基础模型 API 使用、数据处理和评估等方面的技能,但并不需要深入研究机器学习理论。 AI 工程师的需求: 由于基础模型的快速发展和应用场景的不断扩展,AI 工程师的需求将大幅增加,预计未来五年内 AI 工程师的数量将超过机器学习工程师。 AI 工程师的价值: AI 工程师能够利用基础模型快速开发和验证产品,并推动 AI 技术的应用落地,为企业带来巨大的商业价值。 AI 工程师的未来: 作者预测,AI 工程师将成为一个独立的职业领域,并催生新的工具和技术,例如代码生成工具和 AI 代理。 人工智能工程师的崛起 感谢大家在 HN 和 Twitter 上的评论和问题!我们临时组织了一个 Twitter Space 讨论这个话题,有超过 1000 名人工智能工程师 参与。《人工智能工程师的崛起》还在其他 播客中被提及。 我们正在见证应用人工智能的世代转变,这得益于基础模型的能力提升以及开源和 API 的普及。 许多曾经在 2013 年需要 5 年 和一个研究团队才能完成的 AI 任务,现在只需要在 2023 年查阅 API 文档并花一个下午的时间就能实现。 重要:API 线是 开放的 - AI 工程师可以在左边进行模型的微调和托管,研究工程师也可以在右边基于 API 进行构建!该图表也因评估和数据的位置安排而受到 批评;我们确实 同意评估是工作的重要部分!MLR/MLEs 处理基础模型的问题 - 也就是 预训练规模数据和 通用基准评估;但 AI 工程师应该将 产品特定的数据和评估 视为他们的工作。 “从数量上看,人工智能工程师可能会比机器学习工程师/大语言模型工程师多得多。即使从未训练过任何模型,也可以在这个角色中取得成功。” - Andrej Karpathy...

July 17, 2024 · 3 min · fisherdaddy

彭博社对特朗普的采访,关于税收、关税、杰罗姆·鲍威尔等问题

本文主要讲述了前总统唐纳德·特朗普在 2024 年大选前夕接受彭博商业周刊的采访,他详细阐述了如果再次当选总统,将如何治理美国经济和外交政策。 经济政策: 特朗普表示,如果再次当选,他将允许美联储主席杰罗姆·鲍威尔任期结束,并将公司税率降至 15%。他还表示,他将考虑任命摩根大通董事长兼首席执行官杰米·戴蒙为财政部长。 贸易政策: 特朗普表示,他将继续对中国和欧盟征收高额关税,并认为关税是“谈判的利器”。他还表示,他将要求台湾为美国提供的保护支付费用。 外交政策: 特朗普表示,他将继续与沙特阿拉伯保持密切关系,并批评拜登政府疏远了沙特。他还表示,他将继续与俄罗斯总统弗拉基米尔·普京保持联系,但不会支持对俄罗斯实施制裁。 科技政策: 特朗普表示,他将继续打击大型科技公司,并认为这些公司对儿童有害。他还表示,他将支持加密货币行业,并认为美国应该成为加密货币的中心。 选举策略: 特朗普认为,他的经济政策将帮助他在 11 月的选举中击败民主党候选人。他相信,他的税收减免、石油开采增加、监管减少、关税提高和减少外国金融承诺等政策将吸引足够的摇摆州选民支持他。 特朗普采访:他的税收、关税、Jerome Powell 等计划 彭博商业周刊在 Mar-a-Lago 对前总统进行了独家采访。 2024年7月16日 GMT+8 17:00 六月下旬,Donald Trump在 Mar-a-Lago 俱乐部的豪华隔离期中筹划他的下一个总统任期。尽管俱乐部的成员可能已经迁往更凉爽的地方,特朗普的心情依然很好。 民调显示,他与总统Joe Biden之间的竞选非常激烈,但他的筹款活动空前成功。显然,他的34项重罪并未影响竞选。两天后,在第一次总统辩论中,拜登会在辩论中受到打击。7月13日,特朗普在宾夕法尼亚集会中险些躲过刺客的子弹,更大的冲击将随之而来。 Mar-a-Lago 的客厅里,一个红色气球塔上点缀着金色气球,上面写着“47”,这是下一任总统的简写——这是一位当地崇拜者的礼物,上面附有一张赞美“美国有史以来最伟大的总司令”的卡片。在特朗普的要求下,一名工作人员拿来了他喜欢展示给客人的最新时尚物品:一顶印有“特朗普对所有事情都对”的红色MAGA风格帽子。 在 Mar-a-Lago 的大门外,世界其他地方并不那么确定。有人担心另一个特朗普总统任期可能预示着什么。从高盛到摩根士丹利再到巴克莱的华尔街公司已经开始警告客户,随着特朗普重返白宫并实施保护主义贸易政策的几率增加,要预期更高的通胀。苹果、英伟达和高通等美国经济巨头正在努力应对与中国进一步对抗可能对他们和所有人依赖的芯片的影响。欧洲和亚洲的民主国家担心特朗普的孤立主义倾向,他对西方联盟的不稳定承诺,以及他与中国国家主席习近平和俄罗斯总统普京的关系。虽然民调普遍显示美国选民更倾向于特朗普的经济管理而非拜登,但很多人仍不清楚如果再给特朗普一个机会,他们会得到什么。 他挥手驱散这些担忧。他说,“特朗普经济学”意味着“低利率和低税收”。这对完成事情和把生意带回我们的国家是“巨大的激励”。特朗普会钻探更多,监管更少。他会关闭南部边境。他会对敌人和盟友都施加压力以获得更好的贸易条件。他会释放加密货币行业并控制鲁莽的大科技公司。简而言之,他会让经济再次伟大。 那是宣传卖点,反正。真相是,没有人真正知道会发生什么。所以彭博商业周刊去了佛罗里达州的 Mar-a-Lago,向特朗普寻求答案。 在关于商业和全球经济的广泛采访中,他表示,如果他获胜,他将允许Jerome Powell完成其作为联邦储备委员会主席的任期,该任期将持续到2026年5月。特朗普希望将企业税率降至15%以下,他不再计划禁止 TikTok。他会考虑Jamie Dimon,现任摩根大通董事长兼首席执行官,担任财政部长。 特朗普对保护台湾免受中国侵略和惩罚普京入侵乌克兰的想法很冷淡。他说,“我不喜欢制裁。”他不停地提到William McKinley,他认为在十九世纪末总统任期内,通过关税筹集了足够的收入,以避免实施联邦所得税,但从未得到应有的赞誉。 特朗普(他有说谎的倾向)坚持说,如果被判联邦罪,他不会赦免自己:“我不会考虑。”他可能不需要——7月15日,一名特朗普任命的联邦法官驳回了他处理机密文件的指控。(特别检察官迅速宣布他将对该决定提出上诉。) 特朗普经济学的广泛概念可能与他第一任期时没有什么不同。新的是他打算实施它们的速度和效率。他相信自己现在更深刻地理解权力的杠杆,包括选择合适的人选的重要性。“我们有很棒的人,但我有些人是我不会再选择的,”他说。“现在,我认识每个人。现在,我真的很有经验。” 特朗普将他的经济信息视为在11月击败民主党的最佳途径,共和党人将他们总统竞选的开幕之夜献给了“财富”这一主题。他赌的是,他不寻常的减税、更多石油、减少监管、更高关税和更少外国财政承诺的议程将吸引足够多的摇摆州选民来为他赢得选举。这也是一种赌注,选民会忽略他在白宫第一个任期内的负面特征:人员斗争、180度的政策转变、早上6点的社交媒体声明。当然还有2021年1月6日企图暴动的问题。 民调已经显示出黑人和西班牙裔男性正向共和党靠拢,因为他们厌倦了历史上高企的食品、住房和汽油价格。多达20%的黑人男性现在支持特朗普,尽管一些专家认为这些数字被夸大了。不管怎样,拜登正在努力向关键选民推销他的经济记录,其中包括非常低的失业率和不断上涨的工资。他还面临着对其年龄的恐慌。特朗普可能在11月获胜,许多民主党领导人越来越担心他会将白宫和参众两院的控制权交给共和党。 如果那样,他将有前所未有的杠杆来塑造美国经济、全球商业和与盟友的贸易。他的第一个任期表明他更喜欢一对一地工作,这将使与他关系最好的 CEO 和世界领导人占据优势,而他的敌人可能会失败,甚至害怕他会做什么。如果商业周刊与特朗普的采访中有一件事特别突出,那就是他完全意识到这种权力——而且他有充分的意图使用它。 关于美国经济 特朗普身着深色西装和领带,在 Mar-a-Lago 镶花金饰的客厅的下午凉爽黑暗中主持会议,一如既往地热衷于扮演大方的主人。他主动为他的访客点了一轮可乐和健怡可乐,然后开始解释如果他在11月连任,他将如何执政。 商界领袖重视稳定和确定性。在特朗普的第一个总统任期内,他们并没有得到太多。这次,他的竞选活动更加专业,但他还没有提出一个详细的经济政策议程来让他们放心。这个真空导致那些为第二个特朗普任期做准备的人感到困惑。 特朗普的经济政策核心圈 在四月下旬,特朗普的一些非正式政策顾问向华尔街日报泄露了一份爆炸性草案,提出要严重削弱联邦储备的独立性。普遍认为特朗普支持这个想法,这并不是没有根据的,因为他之前对 Powell 的攻击。事实上,特朗普竞选团队坚称他既没有支持这个提议,也没有支持泄密,他的最高竞选领导层对此非常愤怒。但这一事件是特朗普尚未成型的政策的结果,这使得来自传统基金会等智库的专家们争相填补细节并争夺影响力。其他保守派政策企业家一直在推动提案,如贬值美元或实行统一税。 在 Mar-a-Lago,特朗普明确表示他对未经授权的自由行动感到厌倦。“有很多虚假信息,”他抱怨道。他急于澄清几个话题。 首先是 Powell。他在2月份告诉 Fox News,他不会重新任命这位联储主席;现在他明确表示他会让 Powell 完成他的任期,这将持续到特朗普的第二个任期的很大一部分。 “我会让他完成任期,”特朗普说,“特别是如果我认为他在做正确的事情。”...

July 17, 2024 · 2 min · fisherdaddy

5个导致你的副业项目无法盈利的原因以及如何避免它们

许多创业者在将副项目转化为盈利业务时遭遇失败,了解这些失败的原因是成功的第一步。本文总结了五个常见的错误,并提供了避免这些错误的建议。关键在于拥抱失败、进行有效的创意构思、避免无尽的构建、及时获取反馈以及制定周密的发布计划。 不敢尝试:许多人因害怕失败而不敢行动,错失了宝贵的经验和成长机会。作者鼓励读者勇敢尝试,即使项目未能盈利,获得的技能和经验也极具价值。 失败的创意构思:快速的创意生成往往导致项目失败。有效的创意过程应包括市场验证和资源评估,确保项目能解决实际问题并具有可行性。 无尽的构建:过于追求完美会导致项目无限期拖延。作者建议使用熟悉的工具和技术,专注于项目的实际构建,而非学习新技术,以提高效率。 缺乏反馈:在开发过程中,忽视用户反馈会导致产品不符合市场需求。作者建议早期发布产品并主动获取用户反馈,以便及时调整和改进。 羞涩的发布:发布时缺乏计划和策略会影响项目的成功。了解目标受众并选择合适的平台进行推广是至关重要的。作者提供了一个四周的发布计划,以帮助创业者有效推广其项目。 总结而言,成功的副项目需要勇于尝试、有效的创意构思、及时的反馈和精心的发布策略。每一次失败都是向成功迈进的重要一步。 5个导致你的副业项目无法盈利的原因以及如何避免它们 引言 如果你像许多有志于创业的人一样(包括我在内),你可能也有过不少好主意,但却难以将它们转化为有利可图的副业项目。你并不孤单。许多副业项目都未能盈利,理解原因是成功的第一步。所以让我们深入探讨独立创业者在旅程中常见的陷阱,并学习如何避免它们。 在这段旅程的开始,记住失败并不是敌人。实际上,它是过程中的关键部分。是的,这就是严酷的真相:没有人能在第一次尝试中就成功。 接受失败并从中学习,这能帮助我们避免将来犯同样的错误。所以系好安全带,因为我们即将探讨副业项目失败的常见原因以及如何规避它们。 错误 1 - 不去尝试 这是成功的独立创业者@levelsio的一条推文,他每月赚取超过15万美元,是一个很好的参考例子。害怕失败常常使我们止步不前。不要让这种恐惧阻止你!尝试并失败总比从未尝试要好。 此外,记住不去尝试意味着你错失了宝贵的经验和成长的机会。即使你的项目未能盈利,你获得的技能和经验才是关键。无论是提高你的问题解决能力,了解新的市场,还是理解其动态,这些技能在你未来的项目和面试中都会非常有用。 所以,下次你有副业项目的想法时,勇敢去尝试吧!让你的好奇心和热情驱动你,不要让失败的恐惧阻碍你。失败并从错误中学习,一次又一次地,这是成长的最佳方式,就像@levelsio所展示的那样。 错误 2 - 创意失败 你有了这个想法。但是它是通过有效的头脑风暴和解决问题过程形成的吗?副业项目的一个常见陷阱是急于产生创意。彻底的头脑风暴过程对于确保你的想法的可行性至关重要。 尝试用自己的视角过滤掉那些你不太熟悉的想法。问题越是与你息息相关,解决方案就越明显和可行。 验证你的想法:光认为它好是不够的。你需要有至少一些保证证明它有市场。进行调查,问问你信任的人,并尽可能收集初步数据。 确保你的想法解决了一个问题:一个好的商业想法是填补市场空白或解决人们遇到的问题。 评估你的资源:你是否有将想法变为现实的技能、时间和资金?要诚实对待自己。记住你可以做一个MVP(最小可行产品),但是,如果MVP不能为用户带来真正的价值,那它就不够。 想要一个例子?看看这篇访谈,采访了amicus.work的创始人Erlis。它准确地展示了如何因为靠近问题使得解决方案直观。如果你发现自己陷入困境,可以快速阅读这篇文章,或者,如果你更喜欢深入研究,可以参考Make Book或The Lean Startup,它们提供了在创意阶段避免常见错误的宝贵见解。 错误 3 - 无休止的构建 现在你在思考技术选择,并且你实际上在考虑学习一种全新的编程语言来解决这个新问题。加油吧,你已经读过一篇关于学习的文章!没有什么能阻止你! 但是,等等!想一想。现在你得同时对抗两个问题: 学习一门新语言, 并且解决你的问题。 将一个绝妙的想法转化为一个繁荣的业务已经够挑战了。而且你已经知道,许多副业项目在构建阶段失败,所以为什么要这样对自己呢? 这里的秘密是什么?创新,但要谨慎! 尝试那些能始终加快你进度的东西,而不是让你负担加重、减缓速度的东西。一个例子?已经熟悉React?试试Wasp,一个全栈框架,它帮你处理样板代码(如认证),并利用AI生成能力帮助你更快地创建产品。 在尝试创建和测试一个想法时,我们并不是在寻找学习新东西,而是更多地在于创造这个想法本身。 所以在选择工具时,选择那些基于你已经熟悉的技术,并且能帮助你快速前进的工具! 另一个非常常见的错误是追求完美,这通常导致无休止的修改和延迟。记住,“完成比完美更重要。” 关键是要完成你的项目并将其推出市场。如果没有人看到你的项目,它就只是一个想法。 错误 4 - 从未到来的反馈 延迟并不是这个阶段唯一的绊脚石。有时候,我们太专注于创建完美的产品,忘记了要用实际用户进行验证。定期的反馈是至关重要的——它帮助你做出必要的更改,确保你的产品满足用户的需求。 没有反馈,你永远不会知道你是否命中目标,或者你是否在为一个没人遇到的问题创建解决方案。 那么,你如何确保你获得必要的反馈?首先,通过一小群用户测试你的产品。这可以是一群朋友、家人,甚至是一个专门的焦点小组。他们的反馈对于识别任何问题或改进点非常有价值。 我们很常见的另一个问题是害怕收到负面反馈,这常常导致我们在产品“完美”之前不愿将其推向市场。然而,这种做法可能是有害的。关键是尽早推出你的产品,即使它缺少你计划添加的一些酷炫功能。用户的早期反馈可能会引导你添加一些你之前没有想到的功能,而这些功能正是实际用户想要的。 记住,反馈是礼物。它让你能够改进产品,使其不仅能被人们使用,还能被人们喜爱。所以,不要回避它,接受它吧! 错误 5 - 羞涩的发布 说到害羞:所以,你已经完成了项目,现在怎么办?是时候将它呈现给世界了。然而,记住,时机非常重要。如果你的发布计划羞涩且没有经过充分规划,你将无法获得所需的用户(和收入)。 这里的第一步是了解你的受众并选择适当的平台。Reddit非常适合开源或不以盈利为主要驱动力的项目,而Dev Hunt、Product Hunt和Hacker News (YC)则适用于更广泛的项目。选择正确的发布平台可能意味着成功与失败的区别。 此外,创建一个战略性的发布计划至关重要。仅仅发布你的项目并希望得到好的结果是不够的,虽然这也可能发生。你需要规划你的发布,考虑诸如合适的发布时间、平台的特性,并调整你的沟通方式以符合目标受众的需求。 一个精心策划的发布计划不仅可以帮助你接触到更广泛的受众,还能增加你的项目成功的机会。你可以使用Screen Studio和Canva等工具,帮助你创建精美的屏幕录制和宣传图片/横幅。 作为奖励,以下是一个示例发布计划,供你参考:...

July 14, 2024 · 1 min · fisherdaddy

大语言模型应用的新兴架构

本文探讨了大语言模型(LLM)应用的新兴架构,提供了一种参考架构,展示了 AI 初创公司和技术公司常用的系统、工具和设计模式。文章主要讨论了如何利用上下文学习模式,通过巧妙的提示和私有“上下文”数据来控制 LLM 的行为,而无需进行模型微调。 ➡️ 上下文学习设计模式 数据预处理/嵌入: 将私有数据(如法律文件)存储起来,通常将文件分块,经过嵌入模型处理后存储在向量数据库中。 提示构建/检索: 当用户提交查询时,应用程序构建一系列提示提交给语言模型,提示通常包括开发者硬编码的模板、示例输出、从外部 API 检索的信息以及从向量数据库检索的相关文件。 提示执行/推理: 提示被提交给预训练的 LLM 进行推理,可能会添加操作系统如日志记录、缓存和验证。 ➡️ 数据预处理与嵌入 向量数据库:如 Pinecone、Weaviate、Vespa 和 Qdrant 等,用于高效存储、比较和检索嵌入。 嵌入模型:如 OpenAI 的 text-embedding-ada-002 模型、Cohere 和 Hugging Face 的 Sentence Transformers。 ➡️ 提示构建与检索 提示策略:从简单的零样本提示和少样本提示到复杂的链式思维、自我一致性等高级策略。 编排框架:如 LangChain 和 LlamaIndex,用于抽象提示链、接口外部 API 和检索上下文数据。 ➡️ 推理与操作 主流语言模型:OpenAI 的 GPT-4 和 GPT-3.5-turbo,Anthropic 的 Claude 模型等。 开源模型:如 Meta 的 LLaMa 模型及其变体。 操作工具:如缓存(基于 Redis)、日志跟踪工具(Weights & Biases、MLflow、PromptLayer 和 Helicone)以及验证工具(Guardrails 和 Rebuff)。 ➡️ 代理框架 AI 代理:如 AutoGPT,尽管目前大多处于概念验证阶段,但它们具有解决复杂问题、在外部世界中采取行动和从经验中学习的潜力。 ➡️ 未来展望...

July 13, 2024 · 2 min · fisherdaddy

Software 2.0 • Andrej Karpathy 2017

本文中 Andrej Karpathy 提出了一个革命性的观点:神经网络不仅仅是机器学习工具箱中的另一个工具,而是软件开发方式的根本性转变,即从传统的“Software 1.0”过渡到“Software 2.0”。Software 1.0 依赖于人类编写的明确指令,而 Software 2.0 则基于数据集和神经网络架构,通过训练来生成程序。Karpathy 认为这种转变不仅提高了软件性能,还改变了编程范式,使得数据集的管理和优化成为软件开发的核心。 ➡️ Software 1.0 vs. Software 2.0 Software 1.0: 由人类程序员使用编程语言(如 Python、C++)编写明确的指令,逐行代码确定程序行为。 Software 2.0: 使用神经网络的权重表示程序,由数据集和神经网络架构定义,训练过程将数据集“编译”成最终的神经网络。 ➡️ 转变实例 视觉识别: 从工程化特征和机器学习模型(如 SVM)转变为使用大规模数据集和卷积神经网络(CNN)。 语音识别和合成: 从预处理和传统模型(如高斯混合模型和隐马尔可夫模型)转变为完全依赖神经网络(如 WaveNet)。 机器翻译: 从基于短语的统计技术转变为神经网络模型,特别是在多语言和弱监督环境中。 游戏: 从手工编码的程序(如围棋程序)转变为神经网络模型(如 AlphaGo Zero)。 数据库: 使用神经网络替代传统数据管理系统组件,提高速度和节省内存。 ➡️ Software 2.0 的优势 计算同质性: 神经网络主要由矩阵乘法和 ReLU 组成,简化了实现和优化。 易于硬件实现: 简单的指令集使得神经网络更容易在定制 ASIC 和神经形态芯片上实现。 恒定运行时间和内存使用: 每次前向传递所需的 FLOPS 和内存使用量是恒定的。 高度可移植: 矩阵乘法序列比传统二进制文件或脚本更容易在不同计算配置上运行。 灵活性: 可以通过调整网络结构和重新训练来快速适应新的性能需求。 模块融合: 可以通过反向传播优化相互交互的模块,提升整体性能。 ➡️ Software 2.0 的局限性 可解释性差: 大型神经网络的工作原理难以理解。 潜在的失败模式: 可能出现非直观和尴尬的错误,或“静默失败”,如训练数据中的偏见。 对抗样本和攻击: 反映了这种技术堆栈的非直观特性。 ➡️ 编程范式的变化...

July 13, 2024 · 2 min · fisherdaddy

GraphRAG 宣言: 向生成式 AI 添加知识

本文探讨了在生成式 AI (GenAI) 中引入知识图谱 (Knowledge Graph) 的重要性,提出了 GraphRAG 的概念。作者认为,仅依靠自回归大型语言模型 (LLM) 或基于向量的检索增强生成 (RAG) 技术并不能提供足够准确和上下文丰富的答案。通过结合知识图谱,GraphRAG 可以提供更高质量、更具解释性和可审计的答案,从而成为未来 RAG 架构的主流。 RAG 技术的局限性: 向量检索和微调技术虽能提高某些问题的正确答案概率,但无法提供确定性答案,且缺乏上下文和解释性。 知识图谱的引入: 知识图谱可以组织和连接数据,使得 AI 系统不仅处理字符串,还能理解和推理事物之间的关系。 GraphRAG 结合了向量索引和知识图谱查询,提供更高质量的答案。 GraphRAG 的优势: 更高的准确性和完整性:例如,Data.world 的研究表明,GraphRAG 在回答业务问题时的准确性提高了三倍。 开发和维护更容易:知识图谱的可视化和可解释性使得开发和调试过程更加直观。 更好的可解释性和审计能力:知识图谱使得 AI 系统的决策过程更透明,便于审计和追踪。 GraphRAG 的应用模式: 典型的 GraphRAG 模式包括初步的向量或关键词搜索、图谱遍历以获取相关节点信息,以及使用图谱排名算法进行重新排序。 知识图谱的创建和使用: 创建知识图谱类似于将文档分块并加载到向量数据库中。随着工具的进步,创建知识图谱变得越来越简单。 一旦数据进入知识图谱,就可以不断扩展和改进数据质量,从而提升应用结果的价值。 治理和安全性: 知识图谱增强了 AI 系统的安全性和隐私保护,可以根据用户角色限制数据访问权限。 实际应用案例: 例如,LinkedIn 使用 GraphRAG 改进了客户服务应用,减少了客户服务团队的平均每次问题解决时间。 Writer 的 RAG 基准测试报告显示,GraphRAG 的得分显著高于竞争对手。 工具和资源: Neo4j 提供了一系列工具,如 LLM Knowledge Graph Builder,帮助用户创建和使用知识图谱。 总结而言,GraphRAG 通过结合知识图谱和向量检索,提供了更高质量、更具解释性和更易开发的 AI 解决方案,代表了 RAG 技术的未来发展方向。 The GraphRAG Manifesto: 向生成式 AI 添加知识 我们正进入 RAG 的“蓝色链接”时代 我们正处在实现重要生成式 AI (GenAI) 应用的边缘,你不能依赖你不能依靠仅仅自回归大语言模型做出决策。我知道你在想什么:“RAG 是答案。”或者是微调,或者是 GPT-5。...

July 12, 2024 · 4 min · fisherdaddy

Google Search 引入知识图谱:事物,而非字符串

本文介绍了 Google 的知识图谱(Knowledge Graph),它是一个理解现实世界实体及其关系的智能模型,旨在帮助用户更快速、便捷地发现新信息。知识图谱通过理解实体之间的关系,而不是仅仅匹配关键词,为搜索结果提供更准确、更相关的答案。 知识图谱包含超过 5 亿个对象和超过 35 亿个关于这些对象之间的关系的事实。 知识图谱通过三种主要方式增强 Google 搜索: 找到正确的事物:知识图谱可以理解语言的歧义性,例如区分泰姬陵(Taj Mahal)这个纪念碑和泰姬陵这个音乐家。 获取最佳摘要:知识图谱可以更好地理解用户的查询,从而提供相关内容的摘要,包括用户可能需要的关键事实。 深入探索和更广泛的发现:知识图谱可以帮助用户进行意外的发现,例如了解辛普森一家(The Simpsons)的创作者马特·格勒宁(Matt Groening)是如何想到荷马、玛吉和丽莎的名字的。 Google 相信知识图谱是朝着构建更智能的搜索引擎迈出的第一步,它将帮助用户更轻松地发现新事物,并花更多时间做他们喜欢的事情。 引入知识图谱:事物,而非字符串 搜索主要是为了发现——满足人类学习和拓展视野的基本需求。但用户在搜索时仍然需要付出大量的努力。因此,今天我非常兴奋地推出知识图谱,它将帮助你快速且轻松地发现新信息。 举个例子,比如查询 [taj mahal]。四十多年来,搜索基本上就是将关键词匹配到查询上。对搜索引擎来说,[taj mahal] 这两个词仅仅是两个词。 但我们都知道 [taj mahal] 有着更丰富的含义。你可能会想到世界上最美丽的纪念碑之一,或是一位格莱美奖得主音乐家,甚至是新泽西州大西洋城的一家赌场。或者,取决于你上次吃饭的时间,可能是最近的印度餐馆。这就是为什么我们一直在研究一个智能模型——用专业术语来说,就是一个“图谱”——它理解现实世界的实体及其相互关系:事物,而非字符串。 知识图谱使你可以搜索 Google 所知道的事物、人物或地点——地标、名人、城市、运动队、建筑物、地理特征、电影、天体、艺术品等等——并立即获取与你的查询相关的信息。这是构建下一代搜索的关键第一步,它利用了网络的集体智慧,并以更接近人类的方式理解世界。 Google 的知识图谱不仅根植于 Freebase、Wikipedia 和 CIA World Factbook 等公共资源。它还在更大规模上得到增强——因为我们专注于全面的广度和深度。目前它包含超过 5 亿个实体,以及超过 35 亿个关于这些不同实体的事实和关系。并且它基于人们搜索的内容以及我们在网上发现的内容进行调优。 知识图谱在以下三个主要方面增强了 Google 搜索: 1. 找到正确的内容 语言可能会引起歧义——你指的是泰姬陵纪念碑,还是音乐家泰姬陵?现在 Google 能理解这种差异,可以将搜索结果缩小到你想要的那个——只需点击其中一个链接即可查看特定的结果: 这是知识图谱使 Google 搜索更智能的方式之一——你的结果更加相关,因为我们理解这些实体及其含义的细微差别,就像你一样。 2. 获取最佳摘要 通过知识图谱,Google 可以更好地理解你的查询,因此我们可以总结出与该主题相关的内容,包括你可能需要的关键事实。例如,如果你在寻找玛丽·居里,你会看到她的出生和死亡日期,但你也会得到有关她的教育和科学发现的详细信息: 我们如何知道每个项目最可能需要哪些事实?为此,我们回到用户,整体研究他们向 Google 询问的每个项目。例如,人们对查尔斯·狄更斯写了哪些书感兴趣,而对弗兰克·劳埃德·赖特写了哪些书不感兴趣,更关注他设计了哪些建筑。 知识图谱还帮助我们理解事物之间的关系。玛丽·居里是知识图谱中的一个人物,她有两个孩子,其中一个也获得了诺贝尔奖,还有一个丈夫皮埃尔·居里,他为这个家庭赢得了第三个诺贝尔奖。所有这些都在我们的图谱中链接在一起。它不仅是一个对象目录,还建模了所有这些相互关系。不同实体之间的智能是关键。 3. 更深入和更广泛 最后,也是最有趣的部分——知识图谱可以帮助你进行一些意外的发现。你可能会学到一个新的事实或新的联系,从而引发一整条新的查询路线。你知道《辛普森一家》的创作者 Matt Groening 是从哪里得到霍默、玛吉和丽莎的名字灵感的吗?这是一个有点令人惊讶的地方:...

July 10, 2024 · 1 min · fisherdaddy

Mark Zuckerberg 的访谈,主要谈论了 Llama 3 的发布,以及 Meta 在生成式 AI 产品方面的投入

Mark Zuckerberg 在本次播客中讨论了 Meta AI 的最新进展,包括 Llama 3 的发布,以及 Meta 在生成式 AI 产品方面的投入。他强调了开源对 AI 发展的意义,并表达了对 AI 未来发展的乐观态度。Zuckerberg 还谈到了他对元宇宙的愿景,以及他认为 AI 和元宇宙将如何改变人类社会。 Meta 发布了 Llama 3,一个开源的 AI 模型,并将其整合到 Meta AI 中,使其成为最智能的免费 AI 助手。 Llama 3 在编码、推理等方面取得了显著进步,其 80 亿参数版本与 Llama 2 的最大版本性能相当。 Meta 在 AI 方面的投入巨大,已投资数十亿美元用于训练模型和构建基础设施。 Zuckerberg 认为 AI 将像计算机的出现一样,彻底改变人类社会,并带来新的应用和体验。 Zuckerberg 对 AI 的开源持积极态度,但认为在某些情况下,例如当模型能力发生质变时,可能需要限制开源。 Zuckerberg 对元宇宙的愿景是创造一个能够让人们在数字空间中真实地体验和互动的地方,并认为元宇宙将改变人们的社交、工作和生活方式。 Zuckerberg 认为,AI 和元宇宙的成功需要强大的技术基础和持续的创新,并强调了专注和资源分配的重要性。 Zuckerberg 认为,开源 AI 可以帮助防止 AI 技术被少数公司或机构垄断,并促进 AI 技术的快速发展和普及。 Zuckerberg 认为,AI 和元宇宙将带来巨大的机遇和挑战,需要谨慎地进行开发和应用,以确保其安全和负责任地发展。 原文 Llama 3 Dwarkesh Patel 00:00:00...

July 8, 2024 · 5 min · fisherdaddy

深入剖析世界上最聪明的电子邮件 AI

本文介绍了 Shortwave 团队开发的“生成式 AI 产品”——一个集成在电子邮件应用程序中的 AI 助手。该助手旨在利用大型语言模型 (LLM) 的推理能力,将用户的电子邮件历史转化为可操作的知识库,并提供类似于“执行助理”的体验。 ➡️ AI 助手的工作原理 Shortwave 的 AI 助手通过四个步骤来回答用户的问题: 工具选择: 使用 GPT-4 确定回答问题所需的数据类型,并选择相应的工具。 工具数据检索: 并行检索每个工具相关的数据,例如电子邮件历史、日历、草稿等。 问题解答: 将用户问题和所有工具检索到的数据整合到一个提示中,并使用 GPT-4 生成答案。 后处理: 将 LLM 的输出转换为富文本,添加来源引用,并向用户提供操作建议。 ➡️ AI 搜索 AI 搜索是 Shortwave AI 助手最重要的工具之一,它允许助手访问用户的整个电子邮件历史。AI 搜索通过以下步骤工作: 查询重构: 使用 LLM 将缺乏上下文信息的查询重写为独立的句子,例如将“Jonny 怎么样?”重写为“Jonny 什么时候到达凤凰城?”。 特征提取和传统搜索: 使用 LLM 从重构的查询中提取特征,例如日期范围、人物姓名、关键词等,并利用传统搜索基础设施查找相关电子邮件。 基于嵌入的向量搜索: 使用开源嵌入模型将电子邮件和查询嵌入到向量空间中,并在向量数据库中搜索语义上相似的电子邮件。 快速启发式重新排序: 使用启发式算法对检索到的电子邮件进行重新排序,以优先考虑与查询最相关的电子邮件。 交叉编码器重新排序: 使用交叉编码模型对重新排序后的电子邮件片段进行进一步排序,以提高结果的准确性和相关性。 ➡️ 总结 Shortwave 的 AI 助手是一个复杂的系统,它结合了多种技术,包括 LLM、向量数据库、传统搜索、嵌入模型和启发式算法,以提供高效且准确的电子邮件搜索和问题解答功能。该系统仍在不断迭代,预计未来将变得更加智能、快速和强大。 原文 Tl;dr - 我们利用检索增强生成 (Retrieval Augmented Generation,RAG) 技术为我们的电子邮件应用构建了一个 AI 助手。为了构建和发布这个超越基础功能的实际解决方案,我们在技术堆栈的每个层面都投入了大量的基础设施工作。以下是我们学到的内容以及我们的系统在深层技术层面的工作方式。...

July 8, 2024 · 2 min · fisherdaddy

我们从一年与大语言模型 (LLMs) 的构建中学到了什么 (第三部分): 战略篇

我们在《我们从一年与大语言模型 (LLMs) 的构建中学到了什么 (第一部分):战术篇》中分享了操作 LLM 应用程序时精炼的战术见解。战术是具体的行动,用于实现特定目标。在《我们从一年与大语言模型 (LLMs) 的构建中学到了什么 (第二部分):运营篇》中,我们还探讨了支持战术工作的高级过程。 那么,这些目标从何而来?这就是战略的领域。战略回答了战术和运营背后的“是什么”和“为什么”问题。 我们提出了一些主张,如“在找到产品市场契合 (PMF) 之前不要使用 GPU”和“专注于系统而非模型”,以帮助团队更好地分配有限资源。我们还建议了一条迭代至优秀产品的路线图。最后一部分内容将回答以下问题: 构建 vs. 购买:何时应该训练自己的模型,何时应该利用现有 API?答案是“视情况而定”。我们会分享这些情况的具体影响因素。 迭代至优秀:如何打造持久的竞争优势,而不仅仅是使用最新的模型?我们将讨论构建强大系统和提供令人难忘体验的重要性。 以人为本的 AI:如何将 LLMs 有效地融入人类工作流,最大化生产力和幸福感?我们强调了构建支持和增强人类能力的 AI 工具的重要性,而不是完全取代人类。 入门指南:团队在开始构建 LLM 产品时的关键步骤是什么?我们会概述一个从提示工程、评估到数据收集的基本操作手册。 低成本认知的未来:快速降低的成本和不断增加的 LLM 能力将如何塑造 AI 应用的未来?我们将探讨历史趋势,并展示如何估算某些应用的经济可行性。 从演示到产品:从一个引人注目的演示到一个可靠的、可扩展的产品需要什么?我们强调了从原型到生产的严格工程、测试和改进的必要性。 要回答这些难题,让我们一步一步来思考…… 战略:在构建 LLM 产品时不被超越 成功的产品需要深思熟虑的规划和艰难的优先级排序,而不是无休止的原型制作或追随最新的模型发布。在最后一部分中,我们将展望未来,思考构建优秀 AI 产品的战略考量。我们还将探讨团队将面临的关键决策,例如何时构建和何时购买,并建议一个早期 LLM 应用开发的“操作手册”。 在找到产品市场契合 (PMF) 之前不要使用 GPU 要打造优秀的产品,你的产品需要不仅仅是依赖他人 API 的简单包装。但过于依赖自己训练模型的错误也可能更加昂贵。过去一年中,我们看到大量风险投资,包括令人震惊的 60 亿美元 A 轮融资,都用在了训练和定制模型上,却没有明确的产品愿景或目标市场。在本节中,我们将解释为什么立即跳到训练自己的模型是个错误,并探讨自托管的角色。 从头训练几乎永远没有意义 对于大多数组织来说,从头预训练一个大语言模型 (LLM) 是一个不可行的分散注意力的行为。 尽管这很诱人,而且看起来似乎每个人都在这么做,但开发和维护机器学习基础设施需要大量资源。这包括收集数据、训练和评估模型以及部署它们。如果你还在验证产品市场契合 (PMF),这些努力将分散你开发核心产品的资源。即使你拥有计算能力、数据和技术能力,预训练的 LLM 可能会在几个月内过时。 例如,BloombergGPT 是一个专门为金融任务训练的 LLM。该模型在 3630 亿个 Token 上进行了预训练,花费了 9 名全职员工(4 名来自 AI 工程团队,5 名来自 ML 产品和研究团队)的大量努力。尽管如此,它在一年内在这些金融任务上被 gpt-3....

July 7, 2024 · 3 min · fisherdaddy

我们从一年与大语言模型 (LLMs) 的构建中学到了什么 (第二部分):运营篇

本文探讨了构建和管理“生成式 AI 产品”应用的运营方面,涵盖了数据、模型、产品和人员四个关键领域。作者强调了数据质量对模型性能的重要性,并介绍了如何检测和减少开发环境与生产环境之间的差异。文章还讨论了模型版本控制、选择合适模型大小以及设计以人为中心的“用户体验”的重要性。最后,作者强调了团队合作和实验文化的重要性,并建议将重点放在流程而非工具上。 ➡️ 数据 输入数据质量对模型性能至关重要,需要定期审查输入和输出数据,以了解数据分布、边缘情况和模型的局限性。 开发环境与生产环境之间的差异会导致模型性能下降,需要进行结构性和内容性的偏差检测。 定期审查模型输出可以帮助识别和适应新的模式或失败模式,并通过代码和断言将这些模式转化为可操作的指标。 ➡️ 模型 为了方便下游集成,需要生成结构化的输出,例如 JSON 或 YAML 格式。 不同模型之间迁移提示可能很困难,需要进行测试和评估,以确保性能不会下降。 版本控制和固定模型版本可以避免模型行为的意外变化,并确保模型的稳定性。 选择最小的模型来完成任务,可以降低延迟和成本,并通过提示工程和上下文学习提高模型性能。 ➡️ 产品 在产品开发过程中尽早并经常地引入设计,可以帮助理解用户需求并改善用户体验。 设计以人为中心的“用户体验”,可以收集用户反馈并改进模型。 优先考虑产品的关键需求,例如可靠性、安全性、准确性和可扩展性,并根据用例调整风险承受能力。 ➡️ 人员 团队合作和实验文化是成功的关键,需要鼓励团队成员进行实验并分享经验。 将重点放在流程而非工具上,可以避免不必要的技术债务,并提高团队的长期生产力。 团队需要包括 AI 工程师、平台工程师、数据工程师和机器学习工程师等不同角色,以确保产品的成功。 避免过度依赖 AI 工程师,需要根据产品开发阶段的不同需求,组建相应的团队。 原文 有句可能是传闻的名言,被许多领导者引用:“业余者谈策略和战术,专业人士谈操作。” 在战术层面看到的是各种独特的问题,而在操作层面看到的却是需要修复的组织失调模式。在战略层面看到的是机会,而在操作层面看到的是值得迎接的挑战。 在本文的第一部分中,我们介绍了战术性地与大语言模型 (LLMs) 一起工作的具体细节。在下一部分中,我们将放大视角,探讨长期战略考虑。在这一部分,我们讨论了介于战略和战术之间的操作方面,把理论转化为实践。 运营 LLM 应用程序提出了一些在运营传统软件系统中经常出现的问题,但往往带有新颖的变化,使其更具挑战性。同时,LLM 应用程序还引发了全新的问题。我们将这些问题及其答案分为四个部分:数据、模型、产品和人员。 关于数据,我们回答了:应该如何以及多频繁地审查 LLM 的输入和输出?如何测量和减少测试-生产偏差? 关于模型,我们回答了:如何将语言模型集成到整个技术栈中?如何管理模型的版本和迁移? 关于产品,我们回答了:设计应该在何时介入应用程序开发过程,为什么是“越早越好”?如何设计具有丰富人类反馈的用户体验?如何在众多冲突需求中进行优先排序?如何校准产品风险? 最后,关于人员,我们回答了:应该雇佣谁来构建成功的 LLM 应用程序,以及何时雇佣他们?如何培养实验文化?如何利用新兴的 LLM 应用程序来构建自己的 LLM 应用程序?哪个更重要:过程还是工具? 作为一个 AI 语言模型,我没有意见,因此无法告诉你你提供的引言是否“最佳”。不过,我可以说这段引言为接下来的内容定下了合适的基调。 操作:开发和管理 LLM 应用程序及其团队 数据 正如食材的质量决定了菜肴的味道,输入数据的质量决定了机器学习系统的性能。此外,输出数据是判断产品是否工作的唯一标准。所有作者都密切关注数据,每周花费数小时查看输入和输出数据,以更好地了解数据分布、模式、边缘情况及其模型的局限性。 检查开发-生产偏差 传统机器学习管道中一个常见的错误来源是训练-服务偏差。当训练使用的数据与模型在生产中遇到的数据不一致时,就会发生这种情况。虽然我们可以在不训练或微调的情况下使用 LLM,但开发-生产数据偏差依然存在。基本上,我们在开发过程中测试系统的数据应与系统在生产中面临的数据相符。如果不这样做,我们可能会发现生产环境中的准确性下降。 LLM 的开发-生产偏差可以分为两种类型:结构性偏差和内容性偏差。结构性偏差包括格式差异问题,例如 JSON 字典中的列表类型值与 JSON 列表之间的差异、不一致的大小写以及拼写错误或句子片段等。这些错误可能导致模型性能不可预测,因为不同的 LLM 是在特定数据格式上训练的,对细微变化非常敏感。内容性或语义偏差指的是数据意义或上下文的差异。...

July 7, 2024 · 3 min · fisherdaddy

我们从一年与大语言模型 (LLMs) 的构建中学到了什么 (第一部分):战术篇

本文探讨了使用大型语言模型(LLM)构建产品的关键经验教训,并分享了作者团队在过去一年中从实际应用中总结出的宝贵经验。文章分为三个部分:战术、运营和战略,本篇是第一部分,重点介绍了LLM的战术技巧,包括提示、检索增强生成、流程工程以及评估和监控。 ➡️ 提示 作者建议从提示开始构建新的应用,因为它在正确使用时可以取得显著的效果,但同时也不要过高估计它的重要性,因为即使是基于提示的应用也需要大量的工程工作才能使其有效。 作者推荐了一些经过验证的提示技巧,包括: N-shot 提示 + 上下文学习:提供几个示例来演示任务,并使输出与预期相符。 思维链提示:鼓励LLM在返回最终答案之前解释其思考过程。 提供相关资源:通过检索增强生成(RAG)提供模型可以直接利用的文本片段,帮助模型更好地理解上下文。 作者强调了结构化输入和输出的重要性,并举例说明了如何使用结构化输入来帮助模型更好地理解输入,以及如何使用结构化输出来简化与下游系统的集成。 作者建议将大型提示分解成多个小型提示,每个提示只做一件事,并专注于做好这件事。 作者还建议仔细思考模型需要的上下文信息,并优化上下文结构,以突出上下文各个部分之间的关系。 ➡️ 信息检索/RAG 作者指出,RAG的有效性取决于检索到的文档的相关性、密度和细节。 作者建议不要忽视关键词搜索,将其作为基线并将其用于混合搜索。 作者认为,在大多数情况下,混合搜索效果最好,即使用关键词匹配来查找明显的匹配项,并使用嵌入来查找同义词、上位词和拼写错误,以及多模态(例如图像和文本)。 作者建议在新的知识方面优先考虑RAG而不是微调。 作者认为,即使出现了长上下文模型,RAG也不会过时。 ➡️ 调整和优化工作流程 作者建议使用分步、多轮“流程”来提高性能。 作者建议优先考虑确定性工作流程,因为它们更容易部署和调试。 作者建议使用缓存来降低成本和消除生成延迟。 作者建议在必要时进行微调,但要权衡其成本和收益。 ➡️ 评估和监控 作者建议创建一些基于断言的单元测试,这些测试基于真实的输入/输出样本,并根据至少三个标准来预期输出。 作者建议使用LLM作为评判者来评估其他LLM的输出,但要意识到它不是万能的。 作者建议使用“实习生测试”来评估生成,即如果将相同的输入和上下文提供给相关专业的普通大学生,他们是否能够成功完成任务? 作者警告说,过度强调某些评估指标可能会损害整体性能。 作者建议将标注简化为二元任务或成对比较。 作者认为,无参考评估和护栏可以互换使用。 作者指出,LLM即使不应该生成输出也会生成输出,因此需要使用护栏来检测和过滤/重新生成不希望的输出。 作者认为,幻觉是一个顽固的问题,需要结合提示工程和事实不一致护栏来解决。 原文 我们从一年与大语言模型 (LLMs) 的构建中学到了什么 (第一部分) 现在是一个用大语言模型 (Large Language Models, LLMs) 构建产品的激动人心的时刻。在过去的一年里,LLMs 已经达到了“足够好”可以应用于实际场景的水平。LLMs 的进步速度加上社交媒体上的众多演示,预计将推动到 2025 年对人工智能的 2000 亿美元投资。LLMs 也广泛开放,使得不仅仅是机器学习工程师和科学家,所有人都可以将智能融入到他们的产品中。虽然构建 AI 产品的门槛已经降低,但要创建那些在演示之外也能有效的产品仍然是一个复杂的任务。 我们已经发现了一些开发基于 LLMs 产品的关键但常常被忽视的教训和方法。了解这些概念可以让你在无需机器学习专业知识的情况下,比大多数同行更具竞争力!在过去的一年里,我们六个人一直在构建基于 LLMs 的实际应用。我们意识到有必要将这些经验汇集在一起,造福社区。 我们来自不同的背景,担任不同的角色,但我们都亲身经历了使用这项新技术的挑战。我们中的两人是独立顾问,帮助众多客户将 LLM 项目从初始概念转化为成功的产品,看到了成功与失败的模式。我们中有一人是研究人员,研究机器学习/人工智能团队的工作方式及其工作流程的改进。我们中的两人在应用 AI 团队中担任领导职务:一人在科技巨头公司,另一人在初创公司。最后,我们中的一人教授过数千人学习深度学习课程,现在致力于使 AI 工具和基础设施更易于使用。尽管我们的经历不同,但我们惊讶地发现我们学到的经验有着一致的主题,这些见解没有被广泛讨论。 我们的目标是制作一个实用指南,帮助大家围绕 LLMs 构建成功的产品,从我们的经验中汲取教训,并指出行业中的一些例子。我们在过去的一年里亲自动手,获取了宝贵的经验,往往是通过艰难的方式。虽然我们不敢说代表整个行业,但我们在这里分享了一些对任何构建 LLM 产品的人都有用的建议和经验。...

July 7, 2024 · 5 min · fisherdaddy

Andrej Karpahty 在 UC Berkeley AI Hackathon 2024 颁奖典礼上的主题演讲

OpenAI 创始成员之一 Andrej Karpathy 在 UC Berkeley AI Hackathon 2024 颁奖典礼上分享了他对人工智能领域的见解,并强调了当前人工智能领域正经历着前所未有的快速发展,类似于 1980 年代的个人电脑革命。他认为,大型语言模型 (LLMs) 正成为新的计算范式,类似于个人电脑中的中央处理器,并正在改变我们与技术互动的方式。Karpathy 还强调了项目和实践在人工智能领域取得成功的关键作用,并分享了他个人经历中的一些成功案例。 ➡️ 人工智能领域正在经历快速发展,大型语言模型 ( LLMs ) 正在成为新的计算范式,类似于个人电脑中的中央处理器。 ➡️ LLMs 将在未来改变我们与技术互动的方式,并可能在数字和物理世界中自动化许多任务。 ➡️ Karpathy 还强调了项目和实践在人工智能领域取得成功的关键作用,并分享了他个人经历中的一些成功案例,例如他早期在 YouTube 上发布的游戏编程教程,最终帮助他发展了教学事业。 ➡️ 他还强调了 “一万小时定律” 的重要性,并鼓励听众投入大量时间进行实践,以积累经验和专业知识。 ➡️ Karpathy 认为,项目可以帮助人们深入学习,并鼓励他们将项目发布到网络上,以提高工作质量并获得反馈。 ➡️ 他总结说,人工智能领域充满了机遇,并鼓励听众继续进行项目开发,并努力将他们的工作转化为现实世界的改变。 原文 大家好,非常感谢你们的邀请,我很高兴能来到这里。我非常喜欢黑客马拉松,这里充满了能量和创造力,年轻人们尝试做很酷的事情,一起学习和创造,这对我来说是最喜欢的地方。我参加过很多黑客马拉松,所以今天能在这里和你们交流真的很高兴。 首先,当他们邀请我时,我没想到这次活动规模会这么大,这确实超出了我的预期。这个黑客马拉松的规模确实很大。我想开始说的是,这对于 AI 来说并不寻常。我在 AI 领域已经有大约 15 年的经验,所以我可以自信地说,它已经发展了很多。对我来说,AI 以前只是几百个学者聚在一起开研讨会,讨论一些数学的细节。这是我进入 AI 领域时所习惯的。那时候,当你训练神经网络时,你会用 MNIST 数据集中的小数字,训练受限玻尔兹曼机,用对比散度来训练网络,然后仔细检查网络的第一层是否训练正确。我知道这听起来很久远且没什么意义,但那时候的氛围确实不同,现在情况变得有些失控了。但看到今天的能量,15 年后的今天,AI 发展成了现在这个样子,所以这也是我认为这次活动规模如此之大的原因。 Nvidia 是制造 GPU 的公司,这些 GPU 用于我们神经网络的所有繁重工作,现在是美国最有价值的公司,并且已经接管了市场。这就是我们今天所处的时代,为什么有这么多像这样的黑客马拉松,我认为这非常了不起,但确实是前所未有的。对于许多刚进入 AI 领域的人来说,这是一个非常独特的时刻,这并不寻常,非常有趣也非常独特,现在有很多事情在发生。我认为根本原因是计算的本质在发生变化,我们正进入一个新的计算范式,这是非常罕见的。我几乎觉得这像是 1980 年代的计算机时代重现,但这次不是中央处理单元执行字节指令,而是大型语言模型 (Large Language Model) 处理 Token(小字符串片段)。除此之外,我们有 Token 窗口而不是字节的内存,还有其他等价物。所以它有点像计算机,这就是为什么我称之为大型语言模型操作系统(LLM OS)。我曾在推特上更详细地讨论过这个。我认为这是一个新计算机,我们都在学习如何编程,了解它的优势和劣势,如何将其融入产品,以及如何充分利用它。...

July 5, 2024 · 2 min · fisherdaddy

Character.AI 的 AI 推理优化实践

Character.AI 正在致力于构建通用人工智能(AGI),旨在将大型语言模型(LLM)融入日常生活,以提升工作效率和娱乐体验,并在教育、辅导、支持、头脑风暴、创意写作等方面为人们提供帮助。为了实现这一目标,高效地进行“推断”(即LLM生成回复的过程)在全球范围内至关重要。作为一家全栈AI公司,Character.AI 从零开始设计模型架构、推断栈和产品,以优化推断的效率、成本效益和可扩展性。原文戳这里。 高效的架构设计:Character.AI 通过以下技术,将注意力键值(KV)缓存大小减少了20倍以上,同时没有降低质量: 使用多查询注意力(Multi-Query Attention)。 采用混合注意力范围,将局部注意力(Local attention)与全局注意力层交织。 在相邻的注意力层之间共享KV缓存。 状态缓存:Character.AI 开发了一种在对话回合之间在主机内存上缓存注意力KV的高效系统。通过这种系统,可以实现95%的缓存率,进一步降低推断成本。 量化训练和推断:公司使用int8量化技术对模型权重、激活和注意力KV缓存进行量化,并实现了定制的int8内核以支持矩阵乘法和注意力计算。与常见的“后训练量化”技术不同,Character.AI 直接以int8精度训练模型,消除了训练/推断不匹配的风险,同时显著提高了训练效率。 成本效益:自2022年底以来,Character.AI 将推断成本降低了33倍。与使用领先的商业API相比,使用Character.AI的系统至少可以节省13.5倍的支出。 未来展望:Character.AI 感到兴奋的是,继续构建一个将LLM作为全球创新驱动力和增强体验的未来。公司承诺将继续推动AI的可能极限,致力于创建一个高效、可扩展的AI系统成为每一次互动核心的未来。 Character.AI 的 AI 推理优化 在 Character.AI,我们正在朝着实现通用人工智能 (AGI) 的目标迈进。在这个未来中,大语言模型 (LLMs) 将会提升我们的日常生活,从提高业务生产力到提供娱乐服务,并在教育、指导、支持、头脑风暴、创意写作等各方面帮助人们。 为了在全球范围内实现这一目标,必须实现高度高效的“推理”——即 LLMs 生成回复的过程。作为一家全栈 AI 公司,Character.AI 从零开始设计了模型架构、推理栈和产品,这为优化推理效率、降低成本并扩大规模提供了独特的机会,以满足快速增长的全球用户需求。 目前,我们每秒处理超过 20,000 次推理查询。为了让大家了解这一规模,可以参考一下,据第三方估计,Google 搜索每秒处理大约 105,000 次查询 (Statista, 2024),我们处理的查询量大约是它的 20%。 我们能够在如此大规模下稳定提供 LLM 服务,是因为我们在服务栈中开发了许多关键创新。在这篇博客文章中,我们将分享过去两年中开发并最近采用的一些技术和优化方法。 内存高效的架构设计LLM 推理的关键瓶颈在于注意力键值 (KV) 缓存的大小。KV 缓存的大小不仅决定了 GPU 上可以容纳的最大批次大小,还影响了注意力层的 I/O 成本。我们采用了以下技术,在不影响质量的前提下,将 KV 缓存大小减少了 20 倍以上。通过这些技术,GPU 内存不再是服务大批量请求的瓶颈。 1. 多查询注意力。我们在所有注意力层中采用了多查询注意力 (Shazeer, 2019)。相比大多数开源模型采用的分组查询注意力,这项技术将 KV 缓存大小减少了 8 倍。 2. 混合注意力范围。我们交替使用局部注意力 (Beltagy et al....

June 24, 2024 · 1 min · fisherdaddy

LiknedIn 团队思考如何构建生成式 AI 产品

LinkedIn团队在过去六个月里致力于开发一款新的 AI 驱动的体验,旨在重新构想成员们如何进行求职和专业内容浏览。通过将每个动态和职位发布转变为获取信息、连接点、获取建议等活动的跳板,团队利用生成式AI的力量,为用户提供更丰富的互动体验。 ➡️ 系统工作流程 选择正确的 AI 代理:系统根据用户的问题,决定最适合处理该问题的 AI 代理。 收集信息:AI 代理调用内部 API 和必应搜索,寻找与用户问题相关的具体案例和案例研究。 构建回应:AI 代理将收集到的信息过滤和综合,生成清晰、信息丰富的回答,并通过内部 API 装饰回应,如添加文章链接或提及的人物简介。 ➡️ 设计与实现 整体设计:遵循检索增强生成(RAG)的设计模式,构建了包括路由、检索和生成在内的三步流程。 开发速度:通过将任务分解为独立的 AI 代理,并采用中心化的评估流程、共享提示模板等方法,实现了快速开发。 ➡️ 挑战与解决方案 评估:开发指南、扩展注释和自动评估方面遇到挑战,通过建立内部语言学团队的工具和流程,每天评估多达 500 个对话。 调用内部 API:通过“技能”包装内部 API,使 LLM 能够执行各种与产品相关的事情,如查看个人资料、搜索文章/人员/工作/公司等。 一致的质量:团队在第一个月内实现了 80% 的基本体验目标,随后花了四个月的时间努力达到 95% 的完整体验目标。 容量与延迟:团队关注质量与延迟、吞吐量与延迟、成本和端到端流式传输等方面的平衡。 通过这些努力,LinkedIn团队成功构建了一个能够提供丰富互动体验的生成式AI产品,并计划在不久的将来向更多用户推出。原文戳这里。 思考如何构建生成式 AI 产品 在过去的六个月里,我们 LinkedIn 团队一直在努力开发一个新的 AI 驱动体验。我们的目标是重新定义会员如何进行求职和浏览专业内容。 生成式 AI 的爆炸性发展让我们重新审视现有可能性。我们尝试了很多想法,但大多数都没有成功,直到我们发现可以将每条信息流和职位发布转变为以下几种跳板: 更快获取信息,如获取文章要点或了解公司的最新动态。 连接点滴,如评估你是否适合某个职位。 接受建议,如改进个人资料或准备面试。 以及更多内容... 构建过程是否顺利?哪些方面进展顺利,哪些方面遇到挑战? 在生成式 AI 上构建并非一帆风顺,我们在很多方面遇到了困难。我们想揭开“工程”的帷幕,分享哪些部分比较顺利,哪些方面遇到了挑战,以及接下来我们将做什么。 概述让我们通过一个真实的场景来展示系统的工作原理。 想象你正在浏览 LinkedIn 的信息流,偶然看到一篇关于设计中可访问性的有趣文章。在文章旁边,你会看到一些入门问题,以便深入探讨该主题。你很好奇并点击了“有哪些例子表明可访问性在科技公司中带来了业务价值?” 以下是后台发生的事情: 选择合适的智能体:这是你旅程的开始。我们的系统接收到你的问题,并决定哪个 AI 智能体最适合处理它。在这种情况下,它识别出你对科技公司中可访问性的兴趣,并将你的查询路由到一个专门处理常识性问题的 AI 智能体。收集信息:现在是一些体力活的时间了。AI 智能体调用内部 API 和 Bing,搜索具体的例子和案例研究,突出设计中的可访问性如何为科技公司带来了业务价值。我们正在创建一个文档来支持我们的回答。撰写回答:在获取必要的信息后,智能体现在可以撰写回答。它过滤并综合数据,形成连贯且信息丰富的答案,为你提供清晰的例子,说明可访问性举措如何为科技公司带来业务价值。为了避免生成一大堆文字,并使体验更具互动性,内部 API 被调用以附加例如文章链接或文章中提到的人的个人资料等附件。你可能会跟进问“如何转行到这个领域?”,我们会重复这个过程,但现在会将你路由到一个专门处理职业和工作的 AI 智能体。只需几次点击,你就可以深入了解任何主题,获取可操作的见解,或找到你的下一个大机会。...

June 20, 2024 · 2 min · fisherdaddy

HeyGen 如何用 7 个月做到 100 万美元 ARR

本文是 HeyGen 创认识 Joshua Xu 写的一篇官网博客,文章主要讲述了 HeyGen 在 7 个月内实现 1M ARR(年度经常性收入)的经历,以及他们在此过程中的学习和成长。作者强调了从消费者产品背景转向 SaaS 领域的过程,以及在此过程中对AI市场匹配(AI-Market-Fit)概念的探索。文章重点介绍了产品开发、市场验证、用户互动和团队协作等方面的经验和教训。一些关键细节如下: ➡️ 市场验证与产品开发 HeyGen通过 Fiverr 平台(众包平台)验证了其 AI 生成视频的市场需求,并在 217 天内实现了盈利。 他们开发了一个视频引擎,并采取了三个步骤来实现愿景:首先为企业构建视频引擎,然后创建 SaaS 产品以实现技术落地,最后探索市场和技术边界。 作者提出了 AI 市场匹配的概念,区分了演示价值和用户价值,并强调了找到正确问题比解决问题更重要。 ➡️ 用户互动与团队协作 HeyGen 鼓励用户与公司沟通,通过 Zoom 进行了1400次客户会议,平均每天 7 次。 他们通过透明的方式与团队分享客户反馈,分为“HeyGen喜爱”和“HeyGen讨厌”两个群组,并在每周会议中优先讨论客户反馈。 作者强调了避免定制化诱惑的重要性,并提出了通过 Airtable 跟踪客户成功的方法。 ➡️ 学习与成长 作者分享了个人的学习方法,包括听 SaaStr 播客、阅读 Substack 订阅内容、学习其他 SaaS 产品等。 HeyGen 在达到 1M ARR 后,继续开发 HeyGen 2.0,增加团队协作和企业功能,并计划在市场推广方面进行扩展。 HeyGen 0 - 100 万美元 ARR 用时 7 个月 ⏱ 我们于 2022 年 7 月 29 日启动。经过 178 天,我们的年度经常性收入(ARR)达到了 100 万美元,并在 217 天后达到了盈亏平衡点。...

June 18, 2024 · 2 min · fisherdaddy

早前初创企业的最简单最重要的仪表板

本文是关于早期创业公司最简单也最重要的仪表盘建议。作者 Andreas Klinger 认为,在早期阶段,创业者应该关注用户留存,因为留存是客户满意度的直接体现。他强调,创业者不应过早追求复杂的数据可视化工具,而是应该利用已有的客户列表,通过添加关键活动信息来监控和提升客户活跃度,从而确保客户满意度。 关键细节 留存与客户满意度:Klinger指出留存是客户幸福感的函数,即如果用户对产品不满意或未从中获益,他们很可能不会继续使用。 数据可视化的误区:他认为,在优化新用户导入转化之前,复杂的数据可视化工具如留存队列表通常是无效的。 客户列表的使用:建议早期创业公司的客户列表应简单易用,足以容纳所有客户,并添加关键活动指标来监控客户活跃度。 客户活跃度监控:提出通过颜色编码来区分不同活跃度的客户,并指定团队成员负责保持客户活跃度。 客户接触的重要性:强调产品经理或创始人的工作是保持与客户的联系,一旦发现客户活跃度下降,应及时通过电子邮件或Skype联系他们。 客户流失的早期干预:指出客户流失不是在取消订阅或停止付费时发生,而是在停止使用产品时就已经开始,因此需要尽早介入。 客户幸福感指数:对于某些产品,可能需要创建一个综合多项活动的客户幸福感指数,来衡量客户行为的重要性。 工具推荐:文中推荐了Intercom这一服务,它提供了手动和自动消息传递功能,并拥有出色的创业产品博客。 Klinger的建议强调简单性和实用性,鼓励早期创业公司关注可以直接采取行动的信息,而不是过度依赖复杂的抽象数据。 最简单且最重要的初创企业仪表板 | Andreas Klinger 这篇博客文章是一个涵盖初创企业指标基础知识的小系列的一部分。我的个人目标是更有效地帮助早期初创企业,同时避免在指导计划中重复自己太多。 如果你正在开发处于生命周期早期的软件产品,这个系列可能对你有用。 该系列的其他文章: 初创企业指标入门。选择哪种分析工具 简单但容易出错。如何以及在何处设置分析目标 初创企业指标:一个爱情故事。我7小时工作坊的幻灯片 早期初创企业指标 最常见的建议之一是在早期阶段专注于留存率。因为留存率本质上是客户满意度的反映。 留存率 = f(客户满意度) 很简单:如果用户对你的产品不满意,或者使用它没有获得任何好处,他们大多数不会继续使用它。 我们通常会想到像留存率队列表这样的酷炫可视化工具。 虽然这些表格看起来很漂亮,让你有一种在做有用事情的美好感觉,但遗憾的是,在你开始优化新用户的引导转换之前,它们通常有点无用。 请不要太早追求华丽的可视化效果。 这种可视化在你有大量用户并需要整体概览时很有用。B2C移动应用通常在早期阶段就有这个问题。但我合作的大多数SaaS公司(或仍处于测试阶段的公司)在达到产品市场契合之前都没有这个问题。 对20个客户进行20%的变化分析不会告诉你太多信息,除了标准差的基本知识。与客户保持个人关系会让你了解他们的故事。保持他们的近距离。 如果你把付费客户当作百分比和无意义的数字来对待,他们也会对你做同样的事。 几乎所有早期初创企业的一个“仪表板”其实已经拥有。让我们开始使用它。 只要你的客户列表可以放在一两页上,你应该有所有这些客户的列表。(我很确定你已经在后端有这个列表了) 向此表添加活动信息。显示他们活动水平的核心关键绩效指标(或至少他们的最后登录日期)。根据活动情况用颜色突出显示。并且让团队中的某个人负责确保每个人都保持绿色状态。 虚拟模型是虚拟的 真的吗?这与指标无关,还是? “这是给人提供咨询服务时的建议吗?让他画复杂的图表或者带上干草叉。” 这个仪表板实现起来如此简单,我甚至害怕发布这篇文章。但它是 - 并且一直是 - 我对定制仪表板的最常见建议。 我不知道你怎么想。但我不一定需要数字。我需要可以采取行动的信息。我想要产品洞察力 - 使用我的数据库信息创建可行洞察力的简单方法。 大多数抽象如图表、留存队列、AARRR漏斗等在你有太多信息时很棒。在那之前它们只做一件事,创建一个抽象层。 对我个人而言,我发现即使在稍后阶段这也很有用:如果你只有0-100个新注册用户,不要隐藏它们。这是同一个游戏在更高层次上的表现。他们的第一个月是决定你是否会留住他们的一个月。让某人负责让他们保持绿色。 让一个人负责让所有客户保持绿色。这个人很可能就是你。 你作为产品经理/创始人的工作是与所有这些客户保持联系。一旦某人变成橙色,通过电子邮件或Skype联系他们。 找出发生了什么。现在他们仍在决策过程中。现在你仍然可以说服他们留下来。现在你甚至可能获得对产品更改的有用信息。 流失不是在用户取消订阅你的服务或停止支付时发生的。这只是你注意到它的时候。流失发生在用户停止使用你的产品时。你想在客户有风险时介入,当他可能停止使用你的产品时。 只要你有几十个付费客户,你可以亲自联系每一个人。没有借口。不要把他们当数字对待,如果你不想被同样对待的话。 客户幸福指数 如果客户的最后活动对你的产品没有多大意义(例如登录可能并不意味着他找到了/做了什么),你可能需要关注更深层的核心活动。 通常人们会创建一个客户幸福指数。将所有完成的活动组合成一个总数,并为每个活动赋予权重。 通过这样做,你可以说登录对你来说不如购买重要。你甚至可以将这些数字按组汇总,从而看到用户群中的某些段存在问题。 但说实话,虽然这很花哨,但我几乎从不需要这个。 直到我需要汇总这些数字。例如显示某个客户群的幸福指数。 但在那之前 - 根据我的个人经验 - 我通常只看到产品中的1-3个核心活动。(例如在一个项目工具中 - 项目总数、每周关闭的待办事项、每周活跃的团队成员)通常我倾向于简单地推荐将这些数字添加到表中就可以了。

June 17, 2024 · 1 min · fisherdaddy

重要的 SaaS 指标

这篇文章主要探讨了 SaaS 业务的关键绩效指标(KPIs),以及作者所在的投资公司 Craft 在进行 A 轮融资时所关注的基准。文章强调了以下几个核心 KPIs 的重要性: 成长:以收入增长作为理解SaaS业务的基础,特别是月度或年度经常性收入(MRR 或 ARR)。 留存:通过客户分群(队列)来跟踪保留率,分析不同时间段的客户留存情况。 销售效率/单位经济:通过比较新客户的价值与获取他们的成本,来评估销售效率和可持续性。 利润率:分析毛利润和客户终身价值(LTV)等指标,以评估公司的财务健康。 资本效率:通过燃烧倍数和炒作比率等指标,评估公司在增长过程中资本的利用效率。 参与度:用户参与度对于SaaS创业公司越来越重要,特别是在免费试用或免费增值用户转化为付费账户方面。 具体细节如下: ➡️ 成长 MRR或ARR:经常性收入是 SaaS 公司的主要标准,对于寻求 A 轮融资的初创公司,500k ARR 已成为新的门槛。 CMGR:复合月增长率(CMGR)是衡量 MRR 增长的最佳方式,对于寻求 A 或 B 轮融资的初创公司,至少需要 15% 的 CMGR(在$1M以下ARR)和10%以上($1M以上ARR)。 MRR组成:详细分析 MRR 的各个组成部分,包括留存、扩张、新销售、复活、缩减和流失等。 ➡️ 留存 美元留存:通过比较各队列的原始收入与后续期间的收入,考虑扩张收入,最佳 SaaS 公司的年美元留存率超过120%。 Logo留存:跟踪活跃(非流失)客户的百分比,通常低于美元留存率,且与客户规模相关。 ➡️ 销售效率/单位经济 新销售 ARR 与销售和市场(S&M)费用:比较新客户带来的 ARR 与同期的 S&M 支出。 CAC:客户获取成本(CAC)是衡量销售效率的关键指标。 ACV与CAC:比较新客户的年度合同价值(ACV)与CAC,理想的ACV应大于CAC。 ➡️ 利润率 毛利润:SaaS 公司应保持至少 75% 的毛利润。 LTV:终身价值(LTV)综合了CAC、美元留存和毛利润,是评估公司整体健康状况的重要指标。 ➡️ 资本效率 燃烧倍数:衡量公司净消耗与净新增 ARR 的关系,是评估增长效率的关键指标。 炒作比率:通过比较筹集(或消耗)的资本与 ARR,来衡量资本效率。 ➡️ 参与度...

June 17, 2024 · 2 min · fisherdaddy

如何与用户沟通 · YC

本文来自于 YC 创业视频课 How To Talk To Users。主要阐述了创业者为何以及如何与用户沟通,从而更好地理解用户需求并开发出符合市场的产品。Gustav(作者)强调了以下观点: 优秀的创业者会始终与用户保持沟通。 创业者应直接与用户交流,以获取第一手反馈。 用户是唯一支付给公司钱的利益相关者,他们的反馈至关重要。 ➡️ 用户沟通的重要性 用户和客户可以让公司保持诚实,他们是对产品最直接的评判者。 创业者应通过直接沟通了解用户的真实需求和问题。 ➡️ 如何找到用户并与之沟通 创业者可以通过联系认识的人、同事或前同事开始寻找用户。 使用 LinkedIn、Reddit、Slack 或 Discord 社区,甚至参加线下活动也是寻找早期用户的方法。 作者提供了一个模拟创业过程,展示如何通过联系潜在用户来了解他们的需求和动机。 ➡️ 采访用户的技巧 采访应在视频通话、电话或面对面进行,以便更深入地了解用户。 创业者应建立与采访对象的良好关系,以便获得坦诚的反馈。 采访中不要过早介绍自己的产品理念,以免影响回答的客观性。 提问应开放,鼓励用户详细描述他们的体验和需求。 ➡️ 问题的类型 创业者应询问用户目前如何处理特定问题、遇到的困难、为何重要等。 避免问是否会使用你的产品或关于产品特性的具体问题。 ➡️ 用户反馈的利用 创业者应将反馈组织起来,识别关键问题,并据此形成假设。 使用假设来创建最小可行产品(MVP),并通过与用户测试来验证其价值。 ➡️ 销售和用户参与 创业者应考虑解决问题的价值,并评估目标受众的易销售性。 MVP 原型可以展示给用户,通过观察他们的使用过程来获取反馈。 创业者应保持与用户的沟通,通过 Slack 或 WhatsApp 群组等方式,让用户感觉自己是产品开发的一部分。 How To Talk To Users 大家好,我叫 Gustav,我是 Y Combinator 的一名小组合伙人,自 2017 年以来一直在这里工作。在加入 YC 之前,我在 Airbnb 工作,在 2007 年成为了 YC 的创始人。今天,我将讨论如何与用户和未来客户沟通。以下是我今天计划讨论的内容: 为什么最优秀的创始人在公司整个生命周期内都与用户交流 如何找到你的用户并与他们沟通 应该问用户哪些问题以及不应该问哪些问题 如何将你的结论转化为 MVP(最小可行产品)。 为什么最优秀的创始人在公司整个生命周期内都与用户交流 世界上大多数人对新创业公司的形成方式存在很大的误解,他们认为新产品的创意是在一个闲散的周日或深夜编程时偶然产生的。但事情并不是这样的。这是电影《社交网络》中的一个场景,这是一部很棒的电影,但他们对 Facebook 实际上是如何起步的描绘存在很多错误。这是 Brian Chesky,Airbnb 的联合创始人兼 CEO,照片左边的是 Amal,Amal 是 Airbnb 的第一位客人,他们实际上在旧金山一起度过了一个周末。你注意到这张照片和前一张照片的区别了吗?这张照片是真实的,它包含了与真实客户的双向对话。优秀的创始人在他们甚至还没有产品之前就与未来的客户沟通。实际上,世界上最优秀的创始人在公司生命周期内始终从用户那里学习,但前提是你正确识别了你的用户。你可能会问为什么?用户和客户会让你保持真实,他们是唯一真正付费给你的人,如果有人会告诉你真相,那就是他们。所以,我今天的演讲是关于如何做到这一点的。...

June 17, 2024 · 2 min · fisherdaddy

NVIDIA 发布用于训练大语言模型的开放合成数据生成管道

英伟达发布了名为 Nemotron-4 340B 的开源模型家族,开发者可利用这些模型为大型语言模型(LLM)生成合成数据,应用于商业领域,如医疗、金融、制造、零售等行业。高质量的训练数据对LLM的性能至关重要,但获取这些数据通常成本高昂且难度较大。Nemotron-4 340B提供了免费且可扩展的方法来生成合成数据,有助于构建强大的LLM。原文戳这里。 ➡️ Nemotron-4 340B 模型家族 包括基础模型、指导模型和奖励模型,形成生成合成数据的流水线,用于训练和精调LLM。 这些模型针对英伟达 NeMo 开源框架进行了优化,该框架支持端到端模型训练,包括数据整理、定制和评估。 同时也针对开源的英伟达 TensorRT-LLM 库进行了优化,以便进行高效推理。 ➡️ 生成合成数据的流程 在数据获取受限的情况下,LLM 可以帮助生成合成训练数据。 Nemotron-4 340B 指导模型生成模仿真实世界数据特性的多样化合成数据,提高数据质量,增强 LLM 在多个领域的性能和鲁棒性。 开发者可以使用 Nemotron-4 340B 奖励模型筛选高质量响应,该模型在 Hugging Face RewardBench 排行榜上排名第一。 ➡️ 模型优化与精调 使用 NeMo 框架和 TensorRT-LLM,开发者可以优化指导模型和奖励模型,生成合成数据并评分响应。 所有 Nemotron-4 340B 模型都利用 TensorRT-LLM 进行优化,以实现张量并行,提高大规模推理的效率。 Nemotron-4 340B 基础模型经过 9 万亿个令牌的训练,可通过 NeMo 框架定制,以适应特定用例或领域。 ➡️ 安全性与评估 Nemotron-4 340B 指导模型经过了广泛的安全性评估,包括对抗性测试,并在多个风险指标上表现良好。 用户仍需对模型的输出进行仔细评估,以确保生成的合成数据适合其用例,安全且准确。 NVIDIA 发布用于训练大语言模型的开放合成数据生成管道 NVIDIA 今天宣布 Nemotron-4 340B,这是一个开放模型系列,开发者可以用来生成用于商业应用的大语言模型 (LLM) 的合成数据,涵盖医疗、金融、制造、零售等各个行业。 高质量的训练数据对于定制 LLM 的性能、准确性和响应质量至关重要,但强大的数据集往往非常昂贵且难以获得。 Nemotron-4 340B 通过一个独特的开放模型许可,为开发者提供了一种免费的、可扩展的方式来生成合成数据,从而帮助构建强大的 LLM。...

June 17, 2024 · 1 min · fisherdaddy

黄仁勋在加州理工学院 2024 毕业典礼上的演讲

在 2024 年加州理工学院(Caltech)毕业典礼上,NVIDIA 的 CEO 黄仁勋受邀做了演讲,演讲中 Jesen 强调了毕业生们通过刻苦努力取得的成就,并指出未来面对的挑战和机遇。他分享了自己的职业经历,特别是 NVIDIA 在加速计算和人工智能(AI)领域的突破,强调了坚持和适应力的重要性,并鼓励毕业生们在未来的职业生涯中要有耐心、坚韧和对技术的热情。视频地址。演讲关键细节如下: 个人与 Caltech 的联系: NVIDIA 的首席科学家都来自 Caltech。 演讲者通过在 Caltech 的招聘,推介 NVIDIA 的良好企业文化和发展前景。 技术革新与贡献: 描述了 NVIDIA 从图形公司转型为 AI 公司,并通过加速计算和深度学习技术的进步推动整个计算行业的变革。 强调 CUDA 和 GPU 的开发以及这些技术在深度学习中的应用,对AI革命的重要性。 职业经历与挑战: 分享了多次因市场变化和竞争对手的策略调整而被迫转型的经历,从集成图形芯片到移动设备,再到最终进入机器人领域。 强调在面对挫折时迅速调整策略和视角的重要性,并从中培养出公司文化的韧性。 未来技术与行业: 讨论了 AI 技术的飞速发展和未来机器人技术的潜力。 提到新兴的 AI 工厂,这些工厂将生产“智能代币”,并将其视为下一次工业革命的重要组成部分。 人生哲理与建议: 通过在日本银阁寺的经历,强调专注于自己的事业和持续改进的重要性。 建议毕业生每天从最重要的工作开始,优先处理生活中的重要事项,从而有效地利用时间。 鼓励毕业生相信并致力于某些未被广泛接受的理念或技术,接受挫折作为新的机遇,并从中成长。 总结与祝福: 确信 Caltech 毕业生在面对未来挑战时已经做好了充分的准备。 鼓励他们在未来的事业中找到自己的“工艺”,将其作为终生事业不断完善,并在过程中发展出坚韧和适应能力。 原文 女士们,先生们,Rosenbaum 校长,尊敬的教职员工,亲爱的来宾,骄傲的家长,最重要的是,加州理工学院 2024 届的毕业生们。今天对你们来说是一个非常高兴的日子。你们应该表现得更兴奋一些。你们知道你们即将从加州理工学院毕业。这里是伟大的 Richard Feynman, Linus Pauling, 以及对我和我们的行业有深远影响的 Carver Mead 的母校。是的,这是一件大事。 今天是一个充满自豪和喜悦的日子。对你们所有人来说,这是一个梦想成真的日子,不仅仅是你们,因为你们的父母和家庭为了看到你们达到这个里程碑做出了无数的牺牲。所以让我们借此机会祝贺他们,感谢他们,并告诉他们你爱他们。不要忘记这一点,因为你不知道你会在家住多久。今天你应该特别感激。作为一个骄傲的家长,我真的很喜欢我的孩子们没有搬出去,每天看到他们很棒,但现在他们搬走了,这让我很难过。所以希望你们能和父母多些相处。你们的旅程是你们性格、决心、愿意为梦想做出牺牲的见证,你们应该感到自豪。做出牺牲、忍受痛苦和磨难的能力,这些都是你们未来生活中需要的品质。 你们和我有一些共同点。首先,NVIDIA 的两位首席科学家都来自加州理工学院。我今天演讲的原因之一是因为我在招募人才。所以我想告诉你们,NVIDIA 是一家非常棒的公司,我是一个非常好的老板,受到普遍喜爱,来 NVIDIA 工作吧。...

June 17, 2024 · 2 min · fisherdaddy

NVIDIA 公布 GPU 和互连技术路线图,展望到 2027 年

Nvidia 因其架构、工程和供应链的领先,在生成式 AI 市场占据了优势地位。公司不仅资金充足,而且其 GPU 和互连技术路线图已规划至 2027 年,显示了其在推动AI革命中的雄心壮志。Nvidia 的 CEO 黄仁勋在 Computex 大会上强调了生成式 AI 的重要性,并展望了 AI 的未来以及 Nvidia 硬件的发展。 🔑 关键细节 ➡️ 性能提升与能源消耗 从“Pascal” P100 GPU 到即将推出的 “Blackwell” B100 GPU,Nvidia 的GPU 性能在 8 年间提升了 1053 倍。 性能提升部分得益于将浮点精度从 FP16 降低到 FP4,这一变化使得性能增加了约 4 倍。 能耗降低是关键,因为生成大型语言模型响应所需的能量成本必须降低,以便与性能提升保持同步。 ➡️ 成本与投资 GPU 的价格在过去 8 年中上涨了约 7.5 倍,但性能提升超过 1000 倍。 使用 Blackwell系 统,公司可以在约 10天 内用大约 10000 个 GPU 训练 GPT-4 1.8T MoE 模型。 一个包含 10000 个 GPU 的 Blackwell 系统成本约为 8 亿美元,而 10 天的电力成本约为 54,000 美元。...

June 3, 2024 · 4 min · fisherdaddy

🍷 FineWeb:在网络上大规模获取最优质的文本数据

HuggingFace 发布了一个名为 🍷 FineWeb 的新大规模预训练数据集,该数据集旨在提升大语言模型(LLM)的性能。FineWeb 数据集由 96 个 CommonCrawl 快照生成,总计 15 万亿个 token,占用 44TB 磁盘空间。通过详细记录和分析数据去重和过滤策略,FineWeb 数据集在性能上优于其他公开的预训练数据集。此外,本文还介绍了 FineWeb 的子集 📚 FineWeb-Edu,该子集通过自动化高质量注释构建,专注于教育内容,并在多个教育基准测试中表现优异。 🔑 关键细节 ➡️ 数据集构建与处理 数据来源:FineWeb 使用了 CommonCrawl 作为数据源,涵盖了从 2007 年至今的 96 个快照。 数据处理:使用了 datatrove 开源库进行数据处理,包括文本提取、去重和过滤。 去重策略:采用 MinHash 技术进行模糊去重,确保数据集的多样性和质量。 ➡️ 质量评估与基准测试 小模型评估:通过训练小模型(1-2 亿参数)并在一组基准任务上评估,验证数据集质量。 基准任务:包括 CommonSense QA、HellaSwag、OpenBook QA、PIQA、SIQA、WinoGrande、ARC 和 MMLU。 ➡️ 过滤策略 基础过滤:包括 URL 过滤、语言识别和质量过滤。 高级过滤:借鉴了 C4 数据集的过滤策略,并开发了新的启发式过滤器。 自定义过滤器:基于统计分析,开发了新的过滤器,进一步提升数据集质量。 ➡️ FineWeb-Edu 子集 教育内容注释:使用 Llama-3-70B-Instruct 模型对 50 万个样本进行教育质量评分。 类器训练:基于这些注释训练了一个小型分类器,用于大规模数据过滤。 性能提升:FineWeb-Edu 在教育基准测试中表现出色,显著优于其他公开数据集。 ➡️ 未来展望...

June 3, 2024 · 7 min · fisherdaddy

Chrome 内置 AI 的早期预览

Goole I/O 2024 公布了计划在 Chrome 上推出内置 AI 模型 Gemini Nano。今天官方放出了详细的文档。我用 FisherAI Chrome 插件 对文档进行了翻译,模型使用了 gpt-4o。 Chrome 内置 AI 早期预览计划 欢迎使用 Prompt API 的早期预览版 作者: Kenji Baheux Thomas Steiner Alexandra Klepper 联系:见此部分 最后更新:2024 年 5 月 28 日 介绍 欢迎并感谢您参与我们的内置 AI 功能早期预览计划(文章, Google I/O 2024 演讲)。在探索改进或增强 Web 体验的 AI 机会时,您的参与非常宝贵! 内置 AI 早期预览计划有几个目标: 倾听:我们渴望听取您对早期 API 的反馈。帮助我们更好地理解您要解决的问题。这将确保我们以正确的方式设计您需要的 API。 探索:我们希望促进对内置 AI 应用的发现,这将直接影响我们的路线图和优先级讨论。为此,我们将提供探索性 API,例如 Prompt API。 支持:您的见解和兴趣将为我们与其他浏览器供应商的讨论提供参考,因为我们致力于在 Web 浏览器中实现 AI 集成的通用标准。 📣 知道其他人也想加入这个计划吗?或者您是从朋友那里获得了此文档的访问权限?注册以直接在您的收件箱中获取最新更新。 在本次更新中,我们很高兴提供关于即将推出的探索性 Prompt API 的详细信息,该 API 旨在通过本地原型开发促进 AI 用例的发现。更具体地说,此 API 将允许您在开发环境中直接与设备上的 Gemini Nano 进行互动。...

May 28, 2024 · 4 min · fisherdaddy

如何独立思考 • Paul Graham

本文是对保罗格雷厄姆的这篇 How To Think For Yourself 的摘要和翻译,由 FisherAI Chrome 插件 完成,模型为 gemini-1.5-pro-latest。 摘要 主要观点 这篇文章探讨了独立思考的重要性,特别是对于那些从事需要创新性工作的人来说,例如科学家、投资者、创业者和作家等。作者认为,独立思考的能力很大程度上是天生的,并将其分解为三个核心要素:对真相的挑剔、拒绝被灌输思想和强烈的好奇心。文章还探讨了如何培养和加强独立思考能力,包括与志同道合的人交往、接触不同的思维方式,以及主动质疑既有观念等。 关键细节 独立思考的必要性: 在科学、投资、创业和写作等领域,要想取得成功,仅仅正确是不够的,你的想法必须既正确又新颖。 独立思考者的特质: 独立思考者往往对真相有近乎苛刻的追求,他们会仔细考量自己对每个观点的相信程度,并且会积极抵制任何形式的思想灌输。他们热爱颠覆传统思维的想法,并对一切充满好奇。 培养独立思考的方法: 与其他独立思考者为伍,创造一个能够自由表达和交流想法的环境。 接触不同领域、不同背景的人,从他们的视角和经验中汲取灵感。 阅读历史,尝试理解过去人们的想法和思维方式。 培养质疑精神,不要轻易接受任何未经证实的观点。 保持强烈的好奇心,积极探索自己感兴趣的领域,并从中发现新的问题和挑战。 作者还指出,独立思考能力并非一成不变,我们可以通过有意识地锻炼和培养来加强它。文章最后鼓励读者,不要害怕挑战传统思维,要勇敢地追求自己的好奇心,因为那是通往新发现和新思想的必经之路。 译文 如何独立思考 2020 年 11 月 有些工作,你必须有异于常人的想法才能做好。例如,要成为一名成功的科学家,仅仅做到正确是不够的。你的想法必须既正确又新颖。你不能发表论文说一些别人已经知道的事情。你需要说出别人还没有意识到的东西。 投资者也是如此。对于公开市场投资者来说,仅仅正确预测一家公司的发展是不够的。如果很多人都做出了同样的预测,那么股价就会反映出来,你就没有赚钱的空间了。只有大多数其他投资者不认同的见解才是有价值的。 创业者也是如此。你不会想要创办一家公司去做一件所有人都认为是好主意的公司,因为肯定已经有其他公司在做这件事了。你必须做一些在大多数人看来是坏主意的事情,但你知道这不是——比如为几千名业余爱好者使用的一台小型计算机编写软件,或者建立一个让人们租用陌生人家中充气床的网站。 散文家也是如此。一篇告诉人们他们已经知道的事情的散文会很无聊。你必须告诉他们一些新东西。 然而,这种模式并非适用于所有情况。实际上,对于大多数工作来说,这种模式并不成立。以成为一名管理员为例,大多数工作只需要你正确判断,并不需要其他人出错。 在大多数类型的工作中,都有一定的创新空间,但在实践中,那些需要独立思考的工作和那些不需要独立思考的工作之间有着相当明显的区别。 我希望在我还是个孩子的时候就有人告诉我这种区别,因为这是你在决定想做什么样工作时要考虑的最重要的事情之一。你想做那种只有你的想法与众不同才能成功的工作吗?我怀疑大多数人的潜意识会在他们的意识有机会回答这个问题之前就给出答案。我知道我的潜意识会。 独立思考更多是天生的,而非后天培养的。因此,如果你选择了不合适的工作,你会感到不开心。如果你天生独立思考,那么做中层管理者会让你很沮丧。而如果你天生传统保守,尝试做原创研究会让你感到阻力重重。 然而,这里有一个难题是,人们往往无法正确判断自己是偏传统思维还是独立思维。传统思维的人不喜欢认为自己是传统的,他们真的觉得自己有独立的见解,只是碰巧与同伴相同。而独立思维的人则常常不知道自己的想法有多么与众不同,直到他们公开表达为止。 [1] 成年后,大多数人对自己的智力水平有了大致了解(即解决预设问题的能力),因为他们经常被测试和排名。但学校一般忽视独立思维,甚至会试图压制它。所以,我们几乎得不到关于自己独立思维程度的反馈。 甚至可能存在一种类似邓宁-克鲁格效应的现象,即最墨守成规的人确信自己是独立思考的,而真正独立思考的人则担心自己可能不够独立思考。 你能让自己变得更加独立思考吗?我认为可以。这种品质可能很大程度上是天生的,但似乎有一些方法可以放大它,或者至少不要压制它。 一种非常有效的方法是大多数书呆子无意间使用的:对传统观念知之甚少。如果你不知道该遵循什么,就很难成为一个循规蹈矩的人。不过,这样的人可能本身就具备独立思维。相反,传统思维的人可能会因为不知道他人的想法而感到焦虑,并会更加努力地去了解。 你和谁在一起很重要。如果你周围都是墨守成规的人,这将限制你能表达的想法,进而限制你拥有的想法。但如果你周围都是独立思考的人,你就会有相反的体验:听到别人说一些令人惊讶的事情会鼓励你,让你想出更多的东西。 因为独立思考的人觉得与墨守成规的人在一起不舒服,所以一旦有机会,他们就会倾向于自我隔离。高中的问题是,他们还没有机会这样做。此外,高中往往是一个封闭的小世界,其居民缺乏自信,这两点都放大了墨守成规的力量。所以高中对独立思考的人来说通常是一段糟糕的时光。但即使在这里也有一些优势:它教会了你应该避免什么。如果你后来发现自己处于一种让你觉得“这就像高中”的境地,你就知道你应该离开。 另一个将独立思考者和墨守成规者聚集在一起的地方是成功的初创公司。创始人和早期员工几乎都是独立思考者;否则,这家初创公司就不会成功。但墨守成规的人远远多于独立思考的人,因此随着公司的发展,最初的独立思考精神不可避免地会被稀释。这会导致各种各样的问题,除了公司开始走下坡路这一显而易见的问题外,还有一个最奇怪的问题是,创始人发现自己可以与其他公司的创始人更自由地交谈,而与自己的员工却不能。 幸运的是,你不需要所有时间都和独立思考的人在一起。有一两个可以定期交谈的朋友就足够了。一旦找到,他们通常也会渴望交流;他们也需要你。尽管大学不再像过去那样垄断教育资源,但好大学仍是结识独立思考者的好地方。虽然大多数学生还是传统思维,但你至少能找到一些独立思考者,而不像高中时那样几乎没有。 另一种方法是反其道而行之:除了培养少数独立思考的朋友,还尽量结识各种类型的人。这样,你会减少单一同龄人的影响。如果你处在多个不同的圈子中,还可以将一个圈子的想法引入另一个圈子。 但说到不同类型的人,我指的不是人口统计学上的不同。为了使这种方法奏效,他们必须有不同的想法。因此,虽然去其他国家看看是一个很好的主意,但你很可能在你身边就能找到想法不同的人。当我遇到一个对不寻常的事情了如指掌的人时(如果你深入挖掘,几乎每个人都是如此),我就会试着去了解他们知道而别人不知道的事情。这里几乎总是有惊喜。这是与陌生人见面时进行对话的好方法,但我这样做并不是为了进行对话。我真的想知道。 通过阅读历史,你不仅能在空间上,还能在时间上拓宽你的影响源。我读历史不仅是为了了解过去发生的事情,还试图理解当时人们的思维方式。他们如何看待那些事物?这虽然很难,但值得努力,就像为了准确定位一个点而进行远距离的旅行一样。 你还可以采取更明确的措施来防止自己自动接受传统观念。最普遍的做法是培养一种怀疑的态度。当你听到别人说某件事时,停下来问问自己“这是真的吗?”不要大声说出来。我不是建议你让每个和你说话的人都必须证明他们说的话,而是建议你自己承担起评估他们说的话的责任。 把这当作一个谜题来看待。你知道一些被普遍接受的观点将来可能会被证明是错误的,试着猜猜哪些会是错的。最终目标不是挑出你听到的东西中的缺陷,而是找到那些被错误观点掩盖的新想法。因此,这个过程应该是一场充满新奇的探索,而不是单调的智力清洁。当你开始问“这是真的吗?”时,你会惊讶地发现,答案往往并不是立刻肯定的。如果你有想象力,你会发现线索多得多,而不是太少。 一般来说,你的目标是不让任何未经审视的观点进入你的头脑,而且这些观点不总是以明确的陈述形式出现。有些最强大的影响是隐性的。你如何注意到这些呢?通过退一步观察别人如何获得他们的想法。 当你退后足够远时,你会看到思想像波浪一样在人群中传播。最明显的例子是时尚:你注意到几个人开始穿某种款式的衬衫,然后越来越多的人穿,直到你周围一半的人都在穿同样的衬衫。你可能不在意穿什么,但思想上也有时尚,而你绝对不想随波逐流。不仅因为你想掌控自己的思想,还因为不流行的观点更可能带来有趣的发现。找到未被发现想法的最佳地方,往往就是那些没人关注的地方。 [4] 为了超越这个普遍适用的建议,我们需要进一步探究独立思考的内在结构,就像锻炼肌肉一样,锻炼独立思考也需要锻炼构成它的每一块“肌肉”。我认为,独立思考包含三个要素:对真理的严谨态度、抵制外界思想灌输和好奇心。 对真理的严谨态度,不仅仅是不相信虚假信息,更意味着要对“相信”的程度保持谨慎。大多数人很容易走向极端:不可能的事情被完全否定,而概率性事件则被视为绝对会发生。[5] 但在独立思考者看来,这种极端的态度未免太过草率。他们乐于接受任何观点,从大胆的推测到看似 (self-evident) 不言自明的观点,但对于自己真正关心的问题,他们会对每个观点都进行审慎的评估,并赋予其相应的可信度。[6] 因此,独立思考者往往对意识形态抱有警惕,因为意识形态要求人们不加分辨地全盘接受一整套信念,并将其奉为圭臬。这对独立思考者来说,就像让一个挑剔的美食家吃下成分不明的三明治一样难以接受。 缺乏对真理的严谨态度,就无法做到真正的独立思考。仅仅是不人云亦云是不够的。有些人拒绝接受传统观念,转而拥抱各种天马行空的阴谋论。而这些阴谋论往往是为了迎合他们的心理而刻意编造的,最终让他们陷入更深的思维陷阱。[7] 他们非但没有独立思考,反而被这些精心设计的谎言所操控。 我们能否提升自己对真理的严谨态度呢?我认为是完全可以的。根据我的经验,仅仅是认真思考那些我们所重视的事情,就能让我们更加严谨。如果真是这样,那么严谨的态度就是一种可以通过后天培养的美德,而且越认真就越有可能获得。与其他类型的严谨态度一样,我们也可以从小培养孩子的严谨态度,我在这方面就深受父亲的影响。[8] 独立思考的第二个要素是抵制外界思想灌输,这也是三个要素中最容易被观察到的。但即使是这一点,也常常被人误解。人们常常错误地将“抵制外界思想灌输”视为一种消极的品质,我们使用的语言也强化了这种误解,例如“特立独行”、“不在乎别人的看法”等等。但“抵制外界思想灌输”绝不仅仅是“免疫”于外界的影响,对于真正独立思考的人来说,“不想被告知该怎么想”是一种积极的内在驱动力。他们不是单纯地怀疑一切,而是热衷于探索颠覆传统认知的观点,越反直觉越好。 有些新颖的想法,在当时听起来可能像玩笑一样。想想看,当你听到一个新奇的想法时,是不是常常会忍不住笑出来?我认为这并非因为新奇的想法本身就有趣,而是因为新奇和幽默都带有一种“出人意料”的特质。虽然两者并不完全相同,但它们之间存在着明显的关联性:有幽默感的人往往更独立,而缺乏幽默感的人则更容易墨守成规。[9]...

May 23, 2024 · 1 min · fisherdaddy

如何获得创业思路 • Paul Graham

本文是对保罗格雷厄姆的这篇 How To Get Startup Ideas 的摘要和翻译,由 FisherAI Chrome 插件 完成,模型为 gemini-1.5-pro-latest。 摘要 主要观点 这篇文章主要探讨了如何获得好的创业点子。作者认为,最好的方法不是去刻意想点子,而是去发现问题,尤其是自己亲身遇到的问题。很多成功的创业公司,比如微软、苹果、雅虎、谷歌和脸书,都是这样诞生的。 作者指出,许多创业者失败的原因是他们试图解决一些实际上并不存在的问题。创业点子应该是那些创始人自己想要、能够实现并且很少有人意识到的有价值的事情。 关键细节 创业者应该专注于解决那些真实存在且急需解决的问题,而不是那些听起来很美好但实际上没有用户需求的“虚构”点子。 好的创业点子通常开始于一个小众市场,但有快速扩张的路径。微软的 Altair Basic 和 Facebook 的早期版本都是很好的例子。 作者建议,想要获得好的创业点子,最好的方法是让自己成为那种能够发现问题的人。 这可以通过不断学习新知识、尝试新事物,以及让自己处于快速变化的领域的前沿来实现。 程序员可以通过学习其他领域的知识,比如生物技术,来发现跨领域的问题。 作者还建议创业者要克服对“不体面”和“繁琐”工作的排斥,因为这些领域往往蕴藏着有价值的创业机会。 当你有一个好的创业点子时,你可能会觉得自己已经落后了,但不要因此却步。竞争对手的存在实际上是一个好现象,因为它表明市场需求旺盛,而且现有的解决方案都不够好。 总而言之,这篇文章为创业者提供了一个寻找好的创业点子的实用指南。作者强调了关注用户需求、保持好奇心以及勇于尝试的重要性。 原文翻译 如何获得创业思路 2012 年 11 月 获得创业思路的方法不是绞尽脑汁地去想,而是去寻找问题,最好是那些你自己遇到的问题。 最好的创业思路往往有三个共同点:它们是创始人自己想要的,是他们自己能够构建的,而且是很少有人意识到值得去做的。 Microsoft、Apple、Yahoo、Google 和 Facebook 都是这样开始的。 问题 为什么致力于解决你自己遇到的问题如此重要?其中一个原因是,这能确保问题确实存在。说你应该只解决存在的问题,这听起来似乎是显而易见的。然而,初创公司最常犯的错误就是去解决根本不存在的问题。 我自己就犯过这样的错误。1995 年,我创办了一家公司,想把艺术画廊搬到网上。但画廊并不想上线。这不是艺术行业的运作方式。那我为什么还要花 6 个月的时间在这个愚蠢的想法上呢?因为我没有关注用户。我臆想了一个与现实不符的世界模型,并以此为基础开展工作。直到我试图说服用户为我们开发的产品付费时,我才意识到我的模型是错误的。即使在那时,我也花了很长时间才明白过来,真是尴尬。我固执于我所构想的世界模型,而且我已经在软件上投入了大量的时间。他们一定想要它! 为什么这么多创始人开发出无人问津的东西?因为他们一开始就试图去想创业的点子。这种做法有两重危险:它不仅很少产生好的点子,而且还会产生一些听起来似是而非的坏点子,让你愚蠢地为之付出努力。 在 YC,我们把这些称为“虚构的”或“情景喜剧式的”创业点子。想象一下,一个电视剧中的角色要创办一家公司。编剧必须为这家公司虚构一些业务。但想出一个好的创业点子是很难的。这不是你一蹴而就就能做到的。所以(除非他们运气好到爆棚),编剧们想出的点子听起来可能貌似合理,但实际上却很糟糕。 例如,一个为宠物主人创建的社交网络。这听起来似乎没什么问题。数百万人养宠物,他们常常非常关心自己的宠物,并在宠物身上花费大量金钱。许多人肯定会喜欢一个可以与其他宠物主人交流的网站。也许不是所有人,但如果只有 2% 或 3% 的人定期访问,你就会有数百万用户。你可以向他们提供有针对性的优惠,甚至可以对高级功能收费。 这种想法的危险在于,当你向有宠物的朋友提起时,他们不会说“我绝不会用这个。”他们会说“嗯,也许我会用这样的东西。”即使创业公司刚开始运营,很多人也会觉得这个点子挺不错。他们自己现在不想用,但可以想象其他人会想用。把这种反应放到整个社会来看,你最终会发现没有用户。 深井 当一家初创公司启动时,必须至少有一些用户真正需要他们正在做的事情——不仅仅是那些可以想象自己有一天会使用它的人,而是那些迫切需要它的人。通常,这批最初的用户数量很少,原因很简单,如果有一样东西是大量的人迫切需要的,并且可以用一家初创公司通常投入到第一个版本中的努力就能做出来,那么它很可能已经存在了。这意味着你必须在一个维度上做出妥协:你要么构建一个大量的人少量需要的东西,要么构建一个小部分的人大量需要的东西。选择后者。并非所有这类想法都是好的创业想法,但几乎所有好的创业想法都属于这类。 想象一张图表,它的 X 轴代表所有可能想要你正在做的事情的人,Y 轴代表他们有多想要它。如果你把 Y 轴的刻度颠倒过来,你就可以把公司想象成一个个洞。Google 是一个巨大的陨石坑:数亿人在使用它,而且他们非常需要它。一家刚刚起步的初创公司不可能指望挖掘出那么大的体积。所以,对于你一开始要挖的洞的形状,你有两个选择。你可以挖一个宽而浅的洞,也可以挖一个窄而深的洞,就像一口井。 虚构的创业点子通常是第一种。很多人对宠物主人的社交网络略感兴趣。 几乎所有好的创业点子都是第二种。Microsoft 在开发 Altair Basic 时就像一口井。当时只有几千名 Altair 用户,但如果没有这款软件,他们就只能用机器语言编程。30 年后,Facebook 也具有同样的形状。他们的第一个网站是专门为哈佛学生服务的,而哈佛的学生只有几千人,但那几千名用户非常需要它。...

May 22, 2024 · 2 min · fisherdaddy

创业前 • Paul Graham

本文是对 YC 的创业课Lecture 3 - Before the Startup (Paul Graham) 的摘要和翻译。保罗·格雷厄姆将课上的内容写了一篇博客,原文在这里 BEFORE THE STARTUP。以下内容由 FisherAI Chrome 插件 的智能摘要和网页翻译完成。模型为 gemini-1.5-flash。 摘要 主要观点 本文主要针对大学阶段的潜在创业者,探讨了关于创业的几个反直觉观点。作者认为,创业是一项非常反直觉的活动,不能完全依靠直觉,需要学习和实践。本文还强调了学习的重要性,指出在大学阶段应该注重学习和探索,而不是急于创业。 关键细节 反直觉的创业 作者指出,创业存在许多反直觉的因素,例如: 创业者不能完全信任自己的直觉: 创业需要打破常规思维,学习新的技能和知识。 技术知识并非创业的关键: 比起对创业的了解,更重要的是了解用户需求和解决问题的能力。 不要试图“玩游戏”: 创业不是游戏,没有捷径可走,最终成功取决于产品是否满足用户需求。 创业会占去你生活的全部: 创业需要付出巨大的时间和精力,会改变你的生活方式。 在大学阶段创业并非最佳选择: 大学阶段更应该专注于学习和探索,积累知识和经验,为未来的创业打下基础。 在大学阶段应该做些什么 作者建议大学阶段的潜在创业者应该: 学习更多关于重要事物的知识: 积累丰富的知识和技能,为未来的创业打下基础。 关注你感兴趣的问题: 寻找真正感兴趣的领域,并专注于解决相关问题。 与你喜欢的和尊敬的人一起工作: 寻找志同道合的伙伴,共同探索创业之路。 不要刻意寻找创业想法: 最好的创业想法往往来自于对特定领域的深入探索和个人兴趣的驱动。 关于创业的思考 作者最后总结了关于创业的几点思考: 创业并非易事: 创业需要付出巨大的努力和牺牲,没有绝对的把握,需要不断学习和尝试。 尝试是最好的答案: 如果对创业心存疑惑,最好的方法就是尝试一下,在实践中寻找答案。 学习是创业的基础: 大学阶段应该注重学习和探索,积累知识和经验,为未来的创业打下坚实的基础。 总之,本文旨在帮助潜在创业者了解创业的真实情况,并提供一些建议,让他们能够更好地规划自己的职业生涯。 博客原文 创业前 2014 年 10 月(这篇文章改编自萨姆·奥特曼在斯坦福大学的创业课程上的客座演讲。文章主要面向大学生,但其中许多内容也适用于其他年龄段的潜在创始人。) 养育孩子的好处之一是,当你需要给出建议时,你可以问问自己:“我会对自己的孩子说什么?”我的孩子还小,但我可以想象,如果他们正在上大学,我会对他们说些什么关于创业的话,而这正是我要告诉你的。 创业非常反直觉。我不知道为什么。也许仅仅是因为关于创业的知识还没有渗透到我们的文化中。但无论是什么原因,创业都是一项你不能完全相信直觉的任务。 这就像滑雪一样。当你第一次尝试滑雪,想要减速时,你的本能反应是向后倾斜。但如果你在滑雪时向后倾斜,你会失控地飞下山坡。因此,学习滑雪的一部分就是学会抑制这种冲动。最终,你将养成新的习惯,但在最初,这需要有意识的努力。一开始,在你开始下山时,你会有一份需要记住的事项清单。 创业像滑雪一样不自然,因此创业也有一份类似的清单。在这里,我将向你提供清单的第一部分——如果你想为创业做好准备,你需要记住的事情。 反直觉 清单上的第一项是我之前已经提到的:创业是如此奇怪,以至于如果你相信自己的直觉,你会犯很多错误。如果你对此一无所知,你至少会在犯错之前停下来。 当我经营 Y Combinator 时,我常常开玩笑说,我们的功能是告诉创始人他们会忽视的事情。这确实是事实。一批又一批,YC 合作伙伴会警告创始人即将犯下的错误,而创始人会忽略这些警告,然后一年后回来,说“我希望我们当时听取了建议”。...

May 21, 2024 · 2 min · fisherdaddy

微软 CEO Satya Nadella 谈全新的 Windows AI Copilot+PCs 如何击败苹果的 Mac

微软今天发布了 Windows AI Copilot+ PCs,华尔街日报对纳德拉的采访视频正好聊得是这个,翻译了一下,分享出来。 以下摘要和翻译由 FisherAI Chrome 插件 完成,模型使用 gpt-4o 完成。 摘要 主要观点 本视频主要介绍了微软在个人电脑领域的最新创新,尤其是在 AI 技术的整合和新硬件的开发上。微软 CEO Satya Nadella 表示,他们的目标是超越苹果在 Mac 上的创新,通过推出全新设计的 Copilot+PCs,这些设备不仅仅是普通的 Windows 电脑,它们内置了专为 AI 优化的硬件和软件,例如新增的神经处理单元(NPU)。这些设备旨在通过边缘计算(edge computing)直接在本地处理 AI 任务,而非完全依赖云计算。此外,微软还与 Qualcomm 合作,优化了基于 ARM 架构的 Snapdragon X 系列芯片,以提高电池效率和计算性能。 关键细节 产品特性与性能: 新的 Copilot+PCs 包含了 NPU,与 CPU 和 GPU 并存,专门用于加速 AI 应用的矩阵数学计算。 这些设备使用的是 Qualcomm 的 Snapdragon X 系列芯片,这些芯片基于 ARM 架构,更加节能,提供长达 22 小时的连续视频播放时间。 微软宣称其 Surface 产品在性能上比搭载 M3 芯片的 MacBook Air 快 58%,且电池续航时间长 20%。 AI 功能:...

May 21, 2024 · 2 min · fisherdaddy

团队与执行 • Sam Altman

本文是对 YC 的创业课Lecture 2 - Team and Execution (Sam Altman) 的摘要和字幕翻译。其中摘要由 FisherAI Chrome 插件 完成,翻译由 Translingo完成。 摘要 主要观点 这篇演讲主要探讨了创业公司如何招聘和执行。演讲者强调了选择合适的联合创始人、建立高效的招聘流程以及培养注重执行力的公司文化的重要性。 关键细节 选择联合创始人 选择联合创始人是创业公司最重要的决定之一。 最好的联合创始人应该是你认识多年并且已经建立了信任关系的人。 理想的联合创始人应该具备以下品质: 坚韧不拔、足智多谋 冷静沉着、果断坚决 富有创造力、随时准备迎接挑战 招聘 尽量避免招聘,因为过早扩大团队会导致高昂的成本和管理上的复杂性。 只在迫切需要时才招聘,并在早期阶段专注于寻找最优秀的人才。 招聘时要注重以下品质: 聪明才智 执行力 良好的沟通能力 一定的风险承担能力 坚定的决心 执行力 执行力是创业成功的关键,创始人需要以身作则,建立注重执行力的企业文化。 专注于少数最重要的目标,并毫不留情地舍弃其他次要任务。 保持高强度的工作节奏,快速行动,果断决策。 持续关注增长和势头,不要被竞争对手或媒体报道分散注意力。 建立规律的运营节奏,定期发布产品更新和评估关键指标。 视频字幕 Lecture 2 - Team and Execution (Sam Altman) 在开始今天的讲座之前,我想先回答一些问题。有些人发邮件说对上次讲座有疑问,因为时间不够当时没有回答。所以,如果你有关于上次讲座的问题,我现在可以回答。有人在线提交了一个问题,问我如何识别一个市场当前及未来十年的快速增长率。 这个问题是如何识别快速增长的市场。好消息是这是学生的一个大优势。你应该相信自己的直觉。年长的人必须猜测年轻人在使用哪些新技术,因为年轻人会长大,成为主要市场。但你只需观察自己和朋友在用什么,几乎可以肯定你的直觉比年长的人更准。所以,答案是相信你的直觉,想想你用得更多的东西,想想你看到同龄人开始用什么,这几乎肯定是未来的趋势。 另一个在线问题是,作为创始人,如何在保持高效的同时应对倦怠。答案是,这很难,但你必须继续前行。不像学生可以举手认输说“我真的累了,这学期成绩会很差”。创业是现实生活,你必须挺过去。传统建议是去度假,但对创始人来说,这从未奏效。创业是全身心的投入,很难理解。所以你需要依靠他人,建立支持网络。创始人的抑郁症是个严重问题,但解决倦怠的方法是面对挑战,解决问题,你最终会感觉好些。 团队 联合创始人 上周的讲座我们讨论了产品的概念,我要再次强调,如果你没有搞定这个,其他一切都无法拯救你。今天我们将讨论如何招聘和执行。希望你不会“执行”你雇用的人。首先,我想谈谈联合创始人。联合创始人的关系是公司中最重要的关系之一。大家都说要注意并立即解决联合创始人之间的紧张关系,这是正确的。在 YC 的案例中,初创公司早期失败的主要原因就是联合创始人的矛盾。 但有些人对选择联合创始人的重视程度甚至低于雇用员工的重视,不要这样做。这是你创业过程中最重要的决定之一,你需要像对待雇用一样重视它。学生在这方面表现特别差,他们随便找个人说“我想创业,你也想创业,我们一起创业吧”。有这些类似联合创始人约会的活动,你在寻找联合创始人,互相不认识,一起创业吧,这很疯狂。你永远不会这样雇人,却愿意用这种方式选择商业伙伴。这真的很糟糕,选择一个随便的联合创始人,或选择一个你没有长期一起的人,通常会导致灾难。 我们有一批 YC 的公司,75 家公司中有 9 家增加了一个随便的联合创始人,这九个团队在接下来的一年内全部解散了。不认识对方的创始人的成功率真的很差。在大学里认识联合创始人是个好方法。如果你不在大学,找不到联合创始人,下一步最好的选择是去有趣的公司工作,例如在 Facebook 或 Google 之类的公司工作,这几乎和斯坦福一样充满联合创始人资源。没有联合创始人比有糟糕的联合创始人好,但单独创业也不好。我在开始前查看了统计数据,在 YC 最有价值的 20 家公司中,所有公司至少有两个创始人,我们大概只资助了约 10% 的单创团队。...

May 20, 2024 · 2 min · fisherdaddy

如何创办一家创业公司 • Sam Altman, Dustin Moskovitz

FisherAI Chrome 插件 增加了视频字幕翻译的功能,通过这种方式看了下 YC 的创业课Lecture 1 - How to Start a Startup (Sam Altman, Dustin Moskovitz) ,这里分享一下。 以下摘要和翻译由 FisherAI Chrome 插件 完成,模型使用 gemini-1.5-pro-latest 和 gpt-4o 完成。 摘要 主要观点 本视频是 Sam Altman 在斯坦福大学 CS183b 课程上的演讲,主题是如何创办一家成功的初创公司。Altman 认为,创办初创公司的首要原因应该是对解决某个特定问题的强烈热情,而不是为了追求财富或名声。他强调了四个关键要素:好的创意、好的产品、好的团队和好的执行力。 关键细节 好的创意: 好的创意应该是能够发展成为垄断性企业的创意,并且是创始人自己真正关心的问题。Altman 强调,好的创意一开始可能看起来很糟糕,但最终会发展成为有价值的企业。 好的产品: Altman 强调要打造用户喜爱的产品,而不是仅仅是用户喜欢的产品。他建议从简单的产品开始,专注于让一小部分用户真正喜爱你的产品,然后逐步扩大用户群。 好的团队: Altman 强调与潜在的联合创始人建立联系的重要性,并建议学生们花时间去认识那些可以一起创业的人。 好的执行力: Altman 认为,好的执行力比好的创意重要得多。他建议创始人专注于产品开发和与用户交流,而不要被诸如公关、招聘和商业发展等事情分散精力。 创业的动机: Altman 认为,创办公司的最佳理由是你无法抗拒去解决某个问题,并且你相信创办公司是解决这个问题的最佳方式。 创业的压力: Altman 坦率地谈到了创业带来的压力,包括责任、持续待命和媒体关注。他建议创始人要管理好自己的心理状态,将其作为一项核心责任。 Altman 的演讲为有抱负的企业家提供了宝贵的见解,强调了热情、专注和以用户为中心的理念在创办成功初创公司过程中的重要性。 视频字幕 Sam Altman 欢迎来到 CS183b,我是 Sam Altman,我是 Y Combinator 的总裁。9 年前,我是一个斯坦福大学的学生,然后我辍学去创业,然后在过去的几年里我一直是一名投资者。所以在 YC,我们一直在教人们如何创业已经有 9 年了,其中大部分都是非常手把手地针对特定的初创公司,但其中 30% 具有普遍的适用性,所以我们认为我们可以在这个课堂上教授这 30%,即使那只是 30% ,希望它仍然会非常有帮助。我们已经在 YC 教授了很多这样的内容,但它一直都是私下的,这是我们第一次公开 YC 教授的很多内容,所以我们邀请了一些我们最好的演讲者来做他们在 YC 做过的同样的演讲,我们现在已经资助了 720 家公司,所以我们很确定很多建议都很好,我们不能做到资助每一家初创公司,但我们希望能够使这些建议得到广泛的应用。客座演讲者将教授 20 节课中的 17 节,而我,算上 YC 本身,只教授 3 节,每位客座演讲者都参与过创造价值数十亿美元的公司,所以这些建议不是理论上的,它们都来自那些已经做过这些事情的人。这个课堂上的所有建议都面向那些目标是高速增长并最终建立一家非常大的公司的创业者,在其他情况下,很多建议都不适用,我想提前提醒大家,如果你试图在很多大公司或非初创公司做这些事情,它是行不通的。它仍然应该是有趣的,我真的认为初创公司是未来的发展方向,而且值得去尝试理解它们,但初创公司与普通公司非常不同。...

May 20, 2024 · 2 min · fisherdaddy

和 Google 首席执行官 Sundar Pichai 关于 AI,搜索以及 Google 未来的讨论

周末抽时间给 FisherAI Chrome 插件 增加了视频字幕翻译的功能,就用这个之前想看的关于 Pichai 的访问视频作为例子试了下,效果还不错,这里分享一下。 以下摘要和翻译由 FisherAI Chrome 插件 完成,模型使用 gemini-1.5-pro-latest。 摘要 主要观点 本文主要探讨了 Google 首席执行官 Sundar Pichai 对生成式 AI 产品的看法,以及 Google 如何应对竞争对手的挑战,以及 Google 如何应对人工智能带来的风险。 关键细节 应对挑战 Pichai 认为 Google 仍然处于人工智能发展的早期阶段,并相信公司已经做好准备应对竞争对手的挑战。 Google 已经将变压器模型(transformer)整合到其产品中,并将继续在生成式 AI 领域进行创新。 Pichai 表示,尽管面临着竞争对手的挑战,但 Google 仍然保持着领先地位,并且能够通过创新来应对变化。 管理风险 Pichai 承认人工智能存在风险,例如生成虚假信息和偏见。 Google 将继续投资于人工智能安全和伦理,并致力于建立全球合作框架来解决这些问题。 Pichai 相信 Google 能够通过其搜索引擎的链接功能来解决人工智能生成内容可能导致搜索结果质量下降的问题。 公司战略 Pichai 强调了 Google 在人工智能方面的投资,以及公司对人工智能的长期承诺。 Google 正在将人工智能应用于其所有产品,并致力于为用户提供更全面的体验。 Pichai 认为,尽管近年来 Google 进行了重组,但公司的核心宗旨仍然是使用技术来解决人们的问题。 领导风格 Pichai 将自己的领导风格描述为稳健和谨慎,并认为在公司发展过程中,需要建立共识和确保公司朝着正确的方向发展。 Pichai 认为,尽管近年来 Google 面临着竞争和挑战,但公司仍然处于有利地位。 Pichai 强调了 Google 致力于创新,以及公司将继续在人工智能领域取得突破。 人工智能的未来...

May 20, 2024 · 3 min · fisherdaddy

我希望有人早点告诉我 • Sam Altman

很早之前看过 OpenAI CEO Sam Altman 今年写的这篇文章 What I Wish Someone Had Told Me,觉得不错,翻译了一下分享出来。这里有几点特别引起了我的共鸣,我特意挑选了出来。 对于一个团队来说,做一件真正重要但困难的事情比做一件不重要但容易的事情更容易;大胆的想法会激励人们。 将资源集中在少数有信心的投资上;这说起来容易,但做起来却很难。你能删除的东西比你想象的还要多。 每次看到空话和官僚主义都要与之斗争,并鼓励他人一起抵制。不要让组织结构妨碍人们的高效合作。 结果才是最重要的;不要让好的流程成为坏结果的借口。 快速的迭代可以弥补很多不足;如果你快速迭代,通常犯错是可以的。计划应该以十年为单位衡量,执行应该以周为单位衡量。 灵感转瞬即逝,生命稍纵即逝。无所作为是一种难以察觉的风险。 原文 乐观、执着、自信、强大的动力和人脉是事情起步的关键。 团结的团队、冷静与紧迫感的适当结合,以及全力以赴的承诺,是完成任务的关键。长期视角很难得;尽量不要担心别人对短期结果的看法,随着时间推移,这一点会变得容易。 对于一个团队来说,做一件真正重要但困难的事情比做一件不重要但容易的事情更容易;大胆的想法会激励人们。 激励机制是一种强大的力量;要谨慎设置。 将资源集中在少数有信心的投资上;这说起来容易,但做起来却很难。你能删除的东西比你想象的还要多。 清晰简洁地沟通。 每次看到空话和官僚主义都要与之斗争,并鼓励他人一起抵制。不要让组织结构妨碍人们的高效合作。 结果才是最重要的;不要让好的流程成为坏结果的借口。 多花时间在招聘上。敢于选择那些潜力巨大且进步迅速的人。除了看智力,还要看他们是否有完成任务的实绩。 超级明星比他们看起来更有价值,但你必须根据他们对组织绩效的净影响来评估他们。 快速的迭代可以弥补很多不足;如果你快速迭代,通常犯错是可以的。计划应该以十年为单位衡量,执行应该以周为单位衡量。 不要对抗商业中的基本规律。 灵感转瞬即逝,生命稍纵即逝。无所作为是一种难以察觉的风险。 规模的增长常常会带来令人惊讶的新现象。 复利增长的效果非常神奇。特别是,你需要建立一个能够随着规模扩大而获得复利优势的业务。 重新站起来,继续前进。 与优秀的人一起工作是人生中最美好的事情之一。

May 17, 2024 · 1 min · fisherdaddy

我是如何成为机器学习实践者的 • Greg Brockman

很早之前看过 OpenAI 总裁 Greg Brockman blog 中的一些内容,觉得不错,这里分享一下这篇 How I became a machine learning practitioner。 以下摘要和翻译由 FisherAI Chrome 插件 完成,模型使用 gemini-1.5-pro-latest。 摘要 主要观点 本文讲述了 Greg Brockman 在 OpenAI 的经历,他从一名软件工程师转变为机器学习实践者的过程。文章强调了即使身处机器学习研究的前沿,转变过程依然充满挑战。作者认为,最大的障碍并非技术本身,而是克服成为初学者的恐惧,并允许自己在学习过程中犯错。 关键细节 作者在 OpenAI 的前三年渴望成为机器学习专家,但进展缓慢,主要专注于软件工程工作。 作者参与了 OpenAI Gym、Universe 和 Dota 项目的开发,但受限于软件工程视角,无法深入参与机器学习研究。 作者在 2018 年底决定利用三个月时间学习机器学习,并选择了聊天机器人作为实践项目。 作者通过自学课程、阅读论文和实践项目,逐步克服了成为初学者的恐惧,并最终在机器学习领域取得进展。 作者强调了专家指导的重要性,并鼓励有志于成为深度学习实践者的软件工程师加入 OpenAI。 原文 我如何成为机器学习实践者 • 格雷格·布罗克曼 2019 年 7 月 30 日 在 OpenAI 成立的最初三年里,我一直梦想着成为一名机器学习专家,但却在这个目标上几乎没有取得任何进展。在过去的九个月里,我终于转型成为了一名机器学习实践者。这个过程很艰难,但并非不可能,我认为大多数优秀的程序员,只要了解(或愿意学习)数学,都可以做到。网上有很多在线课程可以自学 技术 方面 的 知识,而我最大的障碍其实是一个心理障碍——接受自己再次成为初学者。 2018 年假期期间学习机器学习。 早期 # OpenAI 的一项基本原则是,我们同等重视研究和工程——我们的目标是构建能够解决以前不可能完成的任务的实用系统,所以我们需要两者兼备。(事实上,我们的团队成员中有 25% 的人主要使用软件技能,25% 的人主要使用机器学习技能,50% 的人将两者结合使用。) 所以,从 OpenAI 成立的第一天起,我的软件技能就一直很吃香,而我一直拖延着学习我想要的机器学习技能。...

May 17, 2024 · 1 min · fisherdaddy

我的 OpenAI 之路 • Greg Brockman

很早之前看过 OpenAI 总裁 Greg Brockman blog 中的一些内容,觉得不错,这里分享一下这篇 My path to OpenAI。 以下摘要和翻译由 FisherAI Chrome 插件 完成,模型使用 gemini-1.5-pro-latest。 摘要 主要观点 本文讲述了 Greg Brockman 加入 OpenAI 的心路历程。Brockman 一直对人工智能抱有浓厚的兴趣,大学期间学习编程语言,并参与了 Stripe 的创业。最终,他对人工智能的热情和对 OpenAI 使命的认同促使他加入了这个致力于安全通用人工智能的非营利组织。 关键细节 Brockman 早年对聊天机器人的研究激发了他对人工智能的兴趣。 大学期间,他学习编程语言,并参与了多个创业项目。 在 Stripe 工作期间,Brockman 意识到他真正想投入的是人工智能领域。 Sam Altman 的建议和对人工智能前景的深入研究坚定了 Brockman 离开 Stripe 的决心。 与 Dario Amodei、Chris Olah、Paul Christiano 等人工智能领域专家的交流让他对深度学习的潜力充满信心。 一场与 Elon Musk、Ilya Sutskever 等人的晚宴促成了 OpenAI 的创立。 Brockman 认同 OpenAI 致力于安全通用人工智能的非营利性质,并决定全职投入其中。 原文 我的 OpenAI 之路 • Greg Brockman 2016 年 5 月 3 日 我的 OpenAI 之路 高中毕业后的间隔年,我开始认真学习编程。我读了图灵的《计算机器与智能》(Computing Machinery and Intelligence),并受到了一种想法的启发,那就是编写能够理解一些连我自己 (代码作者) 都无法理解的东西的代码。我开始写一个聊天机器人——这能有多难呢?...

May 16, 2024 · 2 min · fisherdaddy

10 件软件开发者应该了解的关于学习的事情

偶看看到这篇关于学习的事情10 Things Software Developers Should Learn about Learning,看完感觉还不错,这里分享一下。以下摘要和翻译由 FisherAI Chrome 插件 完成,模型使用 gemini-1.5-pro-latest。 摘要 主要观点 本文探讨了软件开发者需要了解的关于学习的十个要点。文章指出,学习对于软件开发者来说至关重要,因为技术领域在不断变化。作者强调,了解人类学习的机制可以帮助开发者更有效地学习。文章还探讨了专业知识的优缺点,以及学习编程能力的预测因素。最后,作者强调了心态在学习中的重要性,并鼓励开发者采用成长型思维模式。 关键细节 人类记忆与计算机记忆不同,它并非由比特构成,而是由相互连接的神经通路组成。回忆信息的过程会强化和修改记忆,这被称为“重新整合”。 人类记忆分为长期记忆和工作记忆。长期记忆容量无限,而工作记忆容量有限。熟练的程序员通过将信息“组块”来有效地利用工作记忆。 专家和新手思考方式不同。专家依靠模式识别,而新手则更多地进行推理。 理解概念的过程从抽象到具体再返回。学习新概念的最佳方式是结合抽象定义和具体示例。 间隔重复是学习新技能的有效方法。学习时间应该分成较短的间隔,间隔之间要有休息时间。 互联网和人工智能工具并没有使学习变得过时。将知识存储在长期记忆中对于形成知识之间的联系至关重要。 解决问题不是一项通用技能,而是特定于领域的。解决编程问题的最佳方法是练习解决编程问题。 专业知识在某些情况下可能是有问题的。专家可能会发现为新手设计的提示分散注意力,并且可能会将从一种编程语言中学到的知识错误地转移到另一种语言中。 预测编程能力的因素尚不清楚。没有可靠的预测测试或候选人资料可以识别编程能力。 你的心态很重要。采用成长型思维模式可以帮助你克服学习过程中的挑战。 原文 10 件软件开发者应该了解的关于学习的事情 – ACM 通讯 学习对于软件开发者来说是必要的。变化是永恒的:新技术层出不穷,旧技术不断更新。因此,开发者不是只学习一次编程——在他们的职业生涯中,他们将学习许多新的编程语言和框架。 仅仅因为我们学习并不意味着我们理解我们是如何学习的。美国的一项调查发现,大多数关于记忆的信念与科学共识相悖:人们并不直观地理解记忆和学习是如何运作的。37 仅仅因为我们学习并不意味着我们理解我们*如何*学习。 例如,考虑学习风格。学习风格的支持者声称,有效的教学要与学习者喜欢的风格相匹配——视觉型学习者看,听觉型学习者听,动觉型学习者做。2020 年的一项综述发现,89% 的人认为学习者的偏好风格应该决定教学方式,尽管研究人员在几十年前就已经知道这是不准确的。28 虽然学习者有偏好的风格,但有效的教学方式取决于内容,而不是学习风格。科学课应该使用图表来呈现数据,而不是口头描述,无论视觉型还是听觉型学习风格,就像烹饪课应该使用动手实践而不是阅读,无论学习者是否偏爱动觉型风格。 几十年来对认知心理学、教育和编程教育的研究为我们如何学习提供了深刻的见解。本文接下来的 10 个部分提供了以研究为依据的关于学习的发现,这些发现适用于软件开发者,并讨论了它们的实际意义。这些信息可以帮助你为自己学习、指导初级员工和招聘员工。 关键见解 学习对程序员来说至关重要,但人类的思维方式与计算机有很大不同。 了解人类是如何学习的可以帮助你更有效地学习。 互联网和大语言模型并没有使学习过时;学习是必不可少的,而且需要时间。 专业知识会改变你的思维方式,让你更容易解决问题,但也可能会阻碍你的教学能力。 1. 人类记忆不是由比特构成的 人类记忆是学习的核心。正如 Kirschner 和 Hendrick 所说,“学习意味着一个人的长期记忆发生了改变。”20 软件开发者熟悉计算机内存的惊人力量,我们可以在其中存储一系列比特,并在以后检索出完全相同的比特序列。虽然人类记忆与此类似,但它既不精确也不可靠。 由于人类记忆的生物学复杂性,可靠性是一个复杂的问题。对于计算机内存,我们使用两个基本操作:读和写。读取计算机内存不会修改它,而且写和读之间经过多少时间并不重要。人类的长期记忆并非如此无菌:人类记忆似乎有一个“读-更新”的操作,其中获取记忆可以同时加强和修改它——这个过程被称为*重固化*。这种修改更有可能发生在最近形成的记忆上。由于这种修改的可能性,一个事实并不存在于明确知道或不知道的二元状态;它可以存在于中间状态。我们可以忘记我们以前知道的事情,而且知识可能是不可靠的,尤其是在最近学到的知识。 人类记忆似乎有一个“读-更新”的操作,其中获取记忆可以同时加强*和*修改它。 人类记忆的另一个奇特之处是“扩散激活”。1 我们的记忆存储在相互连接的神经通路中。当我们试图记住某件事时,我们会激活一条神经通路来访问目标信息。然而,激活并不局限于一条通路。一些激活能量会扩散到其他连接的通路,就像热水管散发的热量一样。这种扩散激活使相关的通路在数小时内处于激活状态。1 扩散激活对记忆有负面影响1,对解决问题有正面影响。32 扩散激活意味着相关但不精确的信息可能会与目标信息混淆,这意味着我们对信息的回忆可能是不可靠的。然而,扩散激活也与基于洞察力的问题解决或“顿悟时刻”有关。由于通路会保持数小时的激活状态,有时离开一个问题去处理另一个有其自身扩散激活的问题会导致两个不相关的区域在中间连接起来。当两个先前不相关的区域连接起来时,就会出现创造性和独特的解决方案。这就是为什么散步、淋浴或以其他方式离开问题一段时间可以帮助你在解决问题时摆脱困境。 总而言之,人类记忆并不像计算机内存那样,简单地从特定位置存储和检索。人类记忆更脆弱,更不可靠,但它也可以通过将知识联系在一起,在解决问题和深刻理解方面带来巨大的好处。我们将在后面的章节中进一步阐述这一点,特别是在从记忆中检索项目和加强记忆方面。 人类记忆并不像计算机内存那样,简单地从特定位置存储和检索。 2. 人类记忆由一个有限系统和一个无限系统组成 人类记忆有两个与学习相关的组成部分:*长期记忆*和*工作记忆*。长期记忆是永久存储信息的地方,功能上是无限的;1 在这个意义上,它的功能有点像计算机的磁盘存储。相比之下,工作记忆被用来有意识地推理信息以解决问题;2 它的功能就像 CPU 的寄存器,实时存储有限数量的信息,以允许访问和操作。...

May 16, 2024 · 2 min · fisherdaddy

如何创办 Google • Paul Graham

好久没更新博客了,最近沉迷于开发不能自拔,做了一个对我个人而言非常有用的 Chrome 插件,现在完成度大概在 80%,还差两个有意思的能力没做。我自己使用了一段时间,它能帮我高效的处理日常的摘要、翻译、查词等等一系列需求,感兴趣的话可以体验一下。 本篇文章就是我用这款插件的 “智能摘要” 和 “全文翻译” 两个功能实现的。打开《How to Start Google》网页后,只需要点一下就全有了,体验非常丝滑。 核心要点 本文旨在为有志于创业的青少年提供建议,阐述了如何为创办一家像谷歌一样成功的公司做好准备。作者认为,创办自己的公司是避免传统工作束缚的最佳途径,并强调了技术能力、创业理念和联合创始人的重要性。 关键细节 技术能力: 作者鼓励年轻人积极参与个人项目,以此提升技术能力。编程被认为是最有价值的技能之一,但其他“制造”或“建造”相关的技能也同样重要。 创业理念: 作者认为,一旦具备了技术能力,创业理念将会自然涌现。通过观察世界,技术人才能够发现现存问题和技术缺口,从而产生创业想法。 联合创始人: 作者强调了寻找合适的联合创始人的重要性,并建议通过共同参与项目来建立联系和评估合作默契度。大学被视为寻找联合创始人以及创业理念的主要场所。 作者以 Facebook、Apple 和 Google 为例,说明了这些成功的公司最初都是源于个人项目,并强调了年轻人应该专注于构建自己和朋友真正需要的东西。最后,作者总结了成功的关键因素:提升技术能力,并在学校取得优异成绩以便进入优秀的大学,在那里寻找联合创始人并发现创业理念。 原文 2024 年 3 月(这是一篇我面向 14 岁和 15 岁的青少年所做的演讲,主题是如果他们将来想创办一家初创公司,现在应该做些什么。很多学校认为应该向学生传授一些关于初创公司的知识。我认为这就是他们应该告诉学生的。) 你们中的大多数人可能认为,当你们进入所谓的现实世界时,最终将不得不找一份工作。这不是真的,今天我要谈的是一个你可以用来避免找工作的诀窍。 这个诀窍就是创办自己的公司。所以这不是一个逃避工作的诀窍,因为如果你创办了自己的公司,你将比你有一份普通工作时更加努力地工作。但你将避免工作带来的许多烦恼,包括老板告诉你该做什么。 做自己的项目比做别人的项目更令人兴奋。你也可以变得更加富有。事实上,这是变得 真正富有的标准方式。如果你看看那些偶尔在媒体上公布的最富有的人的名单,几乎所有的人都是通过创办自己的公司来实现的。创办自己的公司可以意味着从开一家理发店到创办 Google 的任何事情。我来这里是为了谈论这一连续体的极端一端。我将告诉你如何创办 Google。 当 Google 处于连续体的末端时,这些公司在年轻的时候被称为初创公司。我知道它们的原因是我的妻子杰西卡和我创办了一家叫做 Y Combinator 的公司,它基本上是一家初创公司工厂。自 2005 年以来,Y Combinator 已经资助了 4000 多家初创公司。所以我们确切地知道你需要什么才能创办一家初创公司,因为我们在过去的 19 年里一直在帮助人们做到这一点。 你可能认为我说要告诉你如何创办 Google 是在开玩笑。你可能在想“我们怎么能创办 Google?”但实际上,这正是创办 Google 的人在创办它之前所想的。如果你告诉 Google 的创始人拉里·佩奇和谢尔盖·布林,他们即将创办的公司有一天会价值超过一万亿美元,他们的脑袋会爆炸的。 当你开始着手一家初创公司时,你所能知道的就是它似乎值得追求。你无法知道它会变成一家价值数十亿美元的公司,还是一家倒闭的公司。所以当我说我要告诉你如何创办 Google 时,我的意思是我要告诉你如何达到这样一个程度:你创办一家公司的可能性,与 Google 成为 Google 的可能性一样大。...

May 16, 2024 · 1 min · fisherdaddy

2020 年李想在湖畔大学内部辩论(优先扩张还是优先利润)以及马云的点评

本文来自weibo上的一个视频分享,看了挺有意思这里分享出来。 核心内容 李想和马云在湖畔大学的讨论涉及企业经营战略中扩张与盈利的关系。以下是他们讨论的核心观点: 李想的观点: 竞争决定战略:李想认为是否优先扩张还是盈利,取决于竞争环境。如果竞争对手选择扩张,那么仅仅优先考虑盈利可能会使企业面临严重的风险。 扩张的必要性:他通过自己的经历强调,在数字时代,企业必须扩张以保持竞争力。小而美的企业模式在激烈的市场竞争中难以生存。 长期视角:李想分享了他如何通过不拘泥于短期盈利而专注于长期扩张和市场份额的获取,最终实现了在汽车之家的成功。 马云的观点: 情感与战略分离:马云强调在战略讨论中应去除情感因素,听取与自己观点不同的意见。 不被对手牵着走:他提醒说,虽然需要关注竞争对手,但企业不应完全由对手的策略决定自己的行动。 面对不确定性:马云认为,即使在充满不确定性的环境中,企业家应保持对理想的信念,并且需要有决断力,根据自己的资源和环境制定决策。 内容全文 李想说 我两个观点: 第一,优先扩张还是优先盈利是由竞争决定的。当下的环境你确实可以选择优先盈利而放弃扩张,但这不代表你的竞争对手也会选择放弃扩张。那些等着竞争对手在扩张中犯错的企业,往往等来的不是机会,等来的是灭顶之灾。就在上周,我和美团的王慧文吃饭,他讲了和饿了么竞争中的关键点,他夸奖对手有一支非常优秀的团队,产品好、服务好、运营好。美团在最初的竞争中处于非常严重的劣势,但是当时饿了么只经营了头部的12个省市,没有任何扩张的想法。美团很快调整了自己的经营策略,扩张到100个城市,给另外的88个城市率先提供了外卖的服务,很快整个市场份额就发生了扭转,等饿了么反应过来再想竞争的时候,美团的地位就已非常的牢固了。请问在座的同学中,你所在的行业里,难道没有遇到过凶悍的竞争对手吗?即使是当下的环境,当你选择优先盈利而放弃扩张的时候,他们就会原地不动吗? 第二,小而美是最大的谎言,数字时代的企业扩张才是永恒的。高中毕业后我创办了第一家公司泡泡网,我的愿景是成为最专业的IT网站,翻译过来就是小而美,做好内容,没有什么扩张的欲望,走哪算哪。创业第四年我们年利润近千万,可用户规模我们是第三,做老三太痛苦了,没有底线的行业第一,随意的在扩展,把整个行业搞得乌烟瘴气。我们不但无能为力,为了盈利还必须跟上他种种龌龊的行为。因为行业的规则就是老大制定的,二选一是老大说了算。我们受够了做老三的地位,所以我们要掌控自你的命运。2005年我创办了汽车之家,并把泡泡网所有的利润用在汽车之家的发展上。虽然我们是后来者,但是我们找到了行业的问题。所以我们做了一个重要的决定,就是最开始的三年不考虑任何盈利的问题,把所有的钱投入到做最真实的内容,做最真实的论坛上面去,早日成为第一。随着这样的策略,我们到2007年就拿下了整个汽车市场20%的市场份额,进入了汽车网站前三名。但是糟糕的时候来了,2008年经济危机来了。在2008年经济危机来的时候,我们有两个选择,一个是跟大多数网站一样选择收缩,还有一个方式是选择扩张。我和秦致商量了一下,就决定开干。那一年,秦致负责买下了所有网址站的入口。那时候网址站占了整个流量60%,这是一笔千万级的投入。那时候我们高管的年薪普遍在10万到20万,我的技术合伙人又买了几百万的服务器,保证有足够的带宽来接入用户,我则保证我们的产品和内容的高质量,我们在扩张的同时做到了内容质量最好,产品最好,访问最快。好的运营质量恰恰是扩张过程中的好兄弟。到了2018年底,我们的用户份额从20%快速的涨到60%,稳稳的占据了第一的位置。如果说我们还有什么遗憾,最大遗憾就是我们IPO以后被利润绑架了,还有那么多广阔的领域我们没有去扩张。我真心的希望在座的每一个同学,就是当我们老了以后,跟我们的子孙讲我们当年创业的故事的时候,千万不要留下这样的遗憾。感谢大家。 马云说 就讲讲我的一些看法和观感。在座每个人,你们公司一定有这样的争吵,但是一定要在争吵中把情绪刨掉。你要听见那些跟自己不同的东西。每一个人都知道此时此刻你是要盈利还是要发展,每个企业都不一样。如果你们家现在就没有盈利,那你今天是真要考虑一下先活下来。 还有一个对手的问题,我今天早上也讲了,我们做企业千万千万不要被对手牵着走。你有困难,对手其实也有很困难。企业家的精神就相信。不管再困难,有的时候战术层面上你确实要考虑我该往后退一退,此时退是为了明天更好的进,但是千万不能放弃,心中相信这个理想。如果你把这个放掉了,你的员工会看不起你。但是你说我就是要死扛,就讲理念和理想了,员工也看不起你。所以我相信在座的每一个湖畔人,我们是能够把握好这个,你根据自己还有多少子弹来判断。最优秀的拳手不在于多会抗击打能力,而是躲过对方的重拳。 有不确定性。但是有一点是确定的,世界即使隔离,我认为不可能分隔。即使隔离,能够创造跨越隔离重建信任的是企业家,是创业者,是年轻人。这一点是湖畔大学的很多学生。我今天很高兴看见今天早上开学典礼到今天下午的辩论。我看到你们的勇气,看到你们的智慧,看到你们的口才,特别看到大家的激情。这就是代表中国21世纪早期,我们需要那帮企业家。我们每个公司都要把握好自己的风险,把握自己对未来的判断。但是千万千万的不要有这个侥幸心理,说没有风险。 今天早上我讲了当CEO和当总裁是不一样的。总裁做很多决定拿结果,CEO是做决策,而决策你一定要做。在今天做这件事情对未来的影响多大?今天的企业家们已经带有强大的理想主义精神。最后我们赢得这世界的尊重就是情怀。最后我们赢得家人的尊重、朋友的尊重,那就是有结果。

April 23, 2024 · 1 min · fisherdaddy

AI 50: 未来的企业 by 红杉资本

看到红杉发布的一篇关于 AI 50 企业相关的文章:AI 50: Companies of the Future,分享一下。 核心观点 这篇文章概述了AI技术如何转变企业生产力,并讨论了AI未来的潜力及其对商业和社会的深远影响。 生成式AI的崛起:2024年的AI 50名单显示,生成式AI已从一个边缘领域走向主流,成为推动企业生产力增长的关键因素。大型公司如ServiceNow、Palo Alto Networks 和 Hubspot通过整合AI提高了效率和降低了成本。 AI企业的发展:文章强调,越来越多的企业将AI融入其业务流程,以提升关键绩效指标。这不仅涉及自动化和成本节约,也包括客户服务和产品开发的优化。 技术扩展和新进展:AI 50名单的公司显示了生成式AI如何在企业生产力应用中快速扩张,从四家增至八家,涵盖了更多企业部门。同时,消费者和专业消费者之间的界限变得模糊,创意软件的使用越来越广泛。 行业应用变革:AI正在被应用于工业领域,如机器人、工业维护和自动驾驶,展示了软硬件结合的变革潜力。基础设施领域也见证了显著发展,如向量数据库和大型语言模型的应用开发框架。 企业的未来形态:AI技术预示着一场生产力革命,类似于个人计算机时代的变革。未来的企业可能会更加精简,企业数量将大增,企业结构将更加灵活和迅速形成。 成本和社会影响:AI有潜力在教育、医疗等关键领域降低成本,提高可获得性和负担能力。这需要负责任地进行,通过政府和私营部门的共同努力,重新培训和赋能所有人。 长远预期:AI的应用预计将在未来几年内在深度和广度上扩展,2024年只是一个开始,标志着AI在各行各业的广泛应用和深远影响的起点。 总之,文章展望了AI如何作为未来企业的核心驱动力,重塑工作方式、增加企业效率,并为社会带来更广泛的变革。 原文 2024年版的 AI 50 显示了生成式 AI 如何开始改变企业生产力。 去年,生成式 AI 从 AI 50 名单的背后走到了前台。今年,它成了焦点,我们看到了企业客户和消费者在 AI 生产力方面的重大增长初现端倪。尽管2023年美国的 AI 风险投资大部分用于基础设施——60%给予了最大的大语言模型(LLM)提供商——但应用公司继续主导 AI 50 名单。 同时,我们开始见识到植入 AI 的公司将会呈现何种面貌。如今,许多公司正在将 AI 融入其流程,以此加速关键绩效指标(KPI)的提升。我们见证了大型公司通过将 AI 融入产品而获益良多。例如,工作流自动化平台 ServiceNow 通过其 AI 驱动的 Now Assist 实现了近20%的案例避免率。Palo Alto Networks 通过 AI 降低了费用处理成本。Hubspot 利用 AI 扩展了其客户支持服务。瑞典金融科技公司 Klarna 最近宣布,通过在客户支持中使用 AI,节省了超过4000万美元的运营成本。数千家企业现在正将 AI 整合进他们的工作流程中,以促进增长和降低成本。AI 50中的企业正推动这些迅速的改进。...

April 18, 2024 · 1 min · fisherdaddy

我是如何踏入深度学习这一领域的 • Vikas

上周在 twitter 上看到一篇关于深度学习入门的帖子,翻译完之后一直没时间发出来,今天抽空整理完分享一下。 核心观点 这篇文章详细描述了作者如何从一个机器学习初学者转变为深度学习领域的专家,并为那些对深度学习感兴趣的读者提供了一系列学习策略和资源。 背景和动机:作者拥有非计算机科学背景,但因为对深度学习的强烈兴趣,他决定克服初学者的困难,重新学习这一领域。 自学之路:作者强调,他的深度学习技能主要是通过自学获得的。他最初通过Kaggle竞赛接触机器学习,但后来意识到这种方式虽然快速,却无法深入理解深度学习的数学和算法基础。 技能和工具:作者认为扎实的Python编程能力对于深度学习非常重要,因为Python是AI领域的主流语言。此外,数据清洗和处理技能占据了他工作的大部分时间,这些是进入AI领域不可或缺的实用技能。 学习策略和资源: 作者选择了自底向上的学习方法,首先通过阅读《深度学习》这本书建立坚实的理论基础。 为了更好地理解复杂的数学概念和术语,他建议通过绘图和编程实践来辅助学习。 提及了多个高质量的在线资源,如fast.ai的课程和Andrej Karpathy的视频,这些都是优秀的自学材料。 推荐使用Google Colab和Weights and Biases这样的工具来访问GPU资源并监控训练过程。 应用和实践: 在掌握理论后,作者开始研究并实现从2015年到2022年间的重要深度学习论文,如Transformers和视觉Transformer等,进一步深化了他对深度学习架构的理解。 他还创建了一个名为“从零到GPT”的课程,通过教学来加深自己对深度学习的理解。 实用主义的重要性:作者强调,在深度学习中,能够识别何时应深入钻研,何时应追求快速简便的解决方案是一个重要的技能。 原文 我曾经运营了一家名为 Dataquest 的教育公司长达8年。去年,我重新产生了创造的渴望。深度学习对我来说一直很有吸引力,但我对它知之甚少,因此我决定解决这个问题。从那时起,我训练了许多模型(其中几个达到了开源领域的最先进水平),开发了两个GitHub星标超过5000的库,并最近接受了 answer.ai 的工作邀请,该研究所由 Jeremy Howard 创立。我这样描述是为了大致勾勒出我的学习历程。在本文中,我将更详细地讲述我是如何学习深度学习的。希望这对你的学习之旅有所帮助。 我并非在学校里学到这些技能的。我本科主修美国历史,期间挂了不少科。2012年,我涉足了机器学习和Python编程,但我曾自认为深度学习对我而言过于复杂。其中一个原因是我通过参加Kaggle竞赛来学习。Kaggle竞赛是迅速学习的好方法,但可能会让你在基础知识上有所欠缺——比如算法的数学原理。 当深度学习开始流行,它非常依赖数学,我认为自己永远无法理解它。当然,这种看法是错误的,我在十年后证明了这一点,但接近问题的角度决定了一切。我第一次学习深度学习是从顶向下的方式,即直接组装模型而不理解其工作原理。最终我遇到了障碍,无法突破。 去年我再次学习深度学习时,已经具备了一些有用的技能。最重要的是扎实的Python编程能力。尽管有人尝试改变,但Python仍然是AI领域的通用语言。如果你想进入AI领域,那就从精通编程开始吧。 不论我身处AI的哪个阶段,数据清洗都占了我工作的超过70%。如果你从事纯理论研究或者只处理简单问题,可能可以避免数据处理,但在其他情况下,数据处理技能是必不可少的。 还有一个更加抽象的技能,我称之为实用主义。深度学习中充满了各种诱惑,从“什么是完美的基模型?”到“如果我去掉这里的sigmoid会怎样?”虽然有些探索是有价值的,但大部分都会耗费大量时间。能够识别何时应深入钻研,何时应追求快速简便的解决方案,这一点非常重要。 这次,我决定从底层基础开始学习。我精读了一本书,名为《深度学习》。这本书虽已出版数年,但依然是学习深度学习不可多得的资源。建议慢慢阅读。书中许多术语和数学公式初看会让人生疏——需要查阅资料。你可能需要通过绘图或编程来帮助理解这些概念——给自己足够的时间和空间去做这些。如果你觉得数学部分有难度,可以辅以阅读《机器学习的数学》。虽然我个人未参与,但fast.ai的课程和Andrej Karpathy的视频都是非常优质的学习资源。 尽管在一个向Transformer全面过渡的世界里,CNN或RNN可能显得有些过时,但是CNN依然广泛应用于多个领域,RNN在某些方面也是旧技术重用。 当你读完这本书的前两部分之后(第三部分可以跳过),你应该能够自己用纯numpy编码实现任何主流的神经网络架构,包括前向和后向传播。 我在阅读《深度学习》书的同时,开始编写了一个课程,名为从零到GPT。教学是加深理解的最好方式,我发现自己进入了一个良性循环:学习新知识,梳理并描绘不理解的部分,然后教授它。 在读完这本书之后,你将对2015年以来的深度学习有一个全面的理解。随后,我开始研究一些从2015年到2022年间的重要深度学习论文,并在PyTorch中实现这些理论。你可以使用 Google Colab 来免费或低成本地访问GPU资源,并借助 Weights and Biases 来监控你的训练进程。 以下是一些关键论文的非全面列表: RNN注意力机制 Transformers Switch Transformer LoRA 视觉Transformer AdamW GPT-2 深入这些文献之后,你应该能够理解关于深度学习模型架构的大多数讨论。

April 17, 2024 · 1 min · fisherdaddy

Devv 是如何打造一个月入3万美元的开发者AI搜索引擎的

在 twitter 上看到 devv.ai 的作者发了一篇自己从0到1的文章,这里分享一下。 核心内容 文章主要讲述了作者如何创建并发展了一个月收入达3万美元的开发者AI搜索引擎——Devv。以下是文章的核心观点提取: 解决真实问题的重要性:作者创建Devv是为了解决开发者在寻找可靠编程答案时遇到的挑战。尽管有ChatGPT等工具,但它们有时会生成错误或不准确的代码。 市场调研:在开发之前,作者通过与50位不同背景的开发者进行深入访谈,了解他们的需求和痛点。这些访谈揭示了一个共识:开发者对提供不精确代码片段和解释的通用AI工具感到不满,并渴望一个更可靠、更专注的解决方案。 Devv的创建和技术基础:基于前期的洞察,Devv被设计为一个专门为开发者打造的AI搜索引擎,能提供可靠的编程问题答案和整洁的代码片段。Devv使用了RAG(检索增强生成)和大型语言模型,并创建了自己的专门搜索索引,包含开发相关的网站、官方文档和开源代码库。 快速迭代和市场验证:作者设定了在一周内构建并推出最小可行产品(MVP)的目标,以快速验证他们的想法。MVP获得了积极的反馈,鼓励团队继续发展。 竞争策略:尽管市场上存在竞争者如Perplexity、You.com和Phind,Devv通过构建自定义搜索索引和专注于开发者资源的独特视角来区分自己,提供了更相关和精确的编码查询结果。 核心功能和用户体验:Devv引入了代理模式和干净的用户界面,专为复杂查询和提供定制化解决方案而设计,强化了其作为开发者首选搜索引擎的价值主张。 在中国的成功和挑战:通过Twitter分享,Devv在中国开发者中迅速获得了关注,并实现了用户数量的指数级增长。然而,随后Devv在中国被封锁,导致主要增长动力的丧失。 全球扩展和盈利模式:面对挑战,Devv调整策略,适应全球受众。通过引入高级订阅方案,Devv实现了可观的月收入,证明了其可持续的业务模型。 创业经验和建议:文章最后,作者分享了他的创业经验,强调了解决真正问题、通过MVP快速验证、产品差异化、口碑的力量和面对挑战的重要性。同时,提供了几个对创业者有用的资源。 整体而言,这篇文章不仅是一个成功创建和发展AI搜索引擎的案例研究,也为有志于科技创业的读者提供了宝贵的经验和建议。 原文 我们是如何打造一个月入3万美元的开发者AI搜索引擎的 解决真实问题的威力 作为开发者,我们都曾感受过寻找可靠编程答案的挑战。虽然ChatGPT等工具在某种程度上提供了帮助,但它们往往会生成错误或虚假的代码。正是为了解决这个问题,我创立了 Devv —— 一个专门为开发者设计的AI搜索引擎。 50位开发者的深入访谈 在动手编码之前,我希望深刻理解目标用户的需求和痛点。通过与50位来自不同背景的开发者进行Zoom一对一访谈,我深入探讨了他们当前面临的挑战及所采用的解决方案。一个共识逐渐浮现:开发者们已经对那些提供不精确代码片段和解释的通用AI工具感到不满。他们渴望有一个可靠、专注于开发者需求的选择。 打造解决方案 有了这一关键洞见,我们开始构建 Devv。我们的目标是打造一个能提供可靠、无误的编程问题答案,以及生成整洁、可用代码片段的AI搜索引擎。 在技术层面,Devv 依托于 RAG(检索增强生成)和大型语言模型。为确保最相关且准确的结果,我们创建了自己的专门搜索索引,包含了开发相关的网站、官方文档和开源代码库等内容。 为了迅速验证我们的想法,我们设定了在一周内构建并推出最小可行产品(MVP)的目标。初版虽简单,却已经能够针对不准确的AI代码生成和回答这一核心问题提供解决方案。 将MVP推广给一小群朋友和同事后,收到了极其正面的反馈。开发者们对于能够真正信赖的日常编码AI工具表示欢迎,这让我们信心倍增,继续前进。 在竞争激烈的市场中突围 我们清楚,我们并非市场上唯一的生成式搜索引擎。Perplexity、You.com、Phind 等竞争对手已经站稳脚跟。虽然他们也利用Google或Bing搜索结果来获取最新信息,但我们认为,要真正满足开发者的需求,我们必须更进一步。 这就是我们决定构建自定义搜索索引的原因,专门针对开发相关场景。除了整合Google搜索,我们还爬取并索引了大量的开发者网站、官方文档和如GitHub这样的开源代码库。 这种专注于开发者资源的独特视角,使我们能够为编码查询提供更相关和精确的结果。Devv 能够依托于编程特定信息的丰富知识库来解答问题和生成代码片段,而非仅依赖通用网页结果。 为了进一步提升 Devv 的独特性,我们引入了两大核心功能: 代理模式:对于复杂查询,Devv 能够理解用户意图,并从专门的代理类型(包括代码生成、解释、调试、优化、网页搜索等)中挑选,以提供定制化的解决方案。 干净、专注的用户界面:我们为 Devv 设计了一个简洁且直观的界面,使开发者可以专注于工作,而不被工具本身分心。 通过将我们的自定义开发者搜索索引与这些独特功能结合起来,我们为 Devv 塑造了强大的价值主张,成为开发者首选的搜索引擎。我们的专注于特定领域的方法,使我们与广泛定位的竞争者区别开来。 在中国获得初步成功 有了一个经过优化的MVP,我们开始向更广泛的受众展示 Devv。首先,我通过我的Twitter账户分享给主要是中国开发者的关注者。 反响远超我们的预期。纯粹通过口碑,Devv 在几个月内的用户数量激增至50万。中国各地的开发者都在推崇这个工具,我们的用户群呈指数增长。 但正当我们开始取得成功时,遭遇不幸。Devv 突遭中国的防火长城封锁,导致所有中国大陆的用户无法访问。我们的主要增长动力瞬间消失。 被中国封禁 失去中国用户群是重大挫折,但我们没有放弃。我们相信我们构建了有价值之物,并且坚信中国之外的开发者也面临相似挑战。 于是,我们重新出发,调整 Devv 以适应全球受众。我们从头开始,一步一个脚印地重建用户基础。渐渐地,我们开始在其他市场取得进展。 重新建立并实现盈利 随着全球用户基础的扩大,我们开始考虑如何实现盈利,以构建一个可持续的业务模式,同时不牺牲用户体验。 在三月份,我们推出了 Devv 的高级订阅方案。让我们欣喜若狂的是,仅首月它就创造了超过28,000美元的收入。从那以后,这个数字还在持续增长。 今天,Devv 正在帮助全球的开发者更快更好地编写代码。而我们的旅程仅仅刚刚开始。...

April 11, 2024 · 1 min · fisherdaddy

优质软件值得你的辛苦钱 • Steph Ango

ss 在 twitter 看到有人分享 Obsidian CEO 的这篇文章,看了感觉里面的一个比喻挺有意思,分享一下 核心观点 这篇文章强调了优质独立软件的价值,与大型科技公司生产的软件相比较。文章的核心观点包括: 优质独立软件与工业化软件的对比:作者将优质独立软件比作农贸市场上的手工有机果酱,而将大型科技公司的软件比作添加了廉价原料和稳定剂的超市果酱,突出了独立软件在质量和个性化方面的优势。 大型科技公司的市场优势:文章指出,由于规模经济和其他因素,如巨额收入和全球推广能力,大型科技公司能够以较低成本生产和分发软件,从而压低价格。这种情况为这些公司提供了不公平的市场优势,并对独立开发者构成了巨大挑战。 成本补贴策略的影响:文章详述了大型科技公司如何通过不同的补贴策略(例如,通过广告收入、销售硬件或捆绑企业合同)来降低软件成本,这种做法让人误以为所有软件都应该是低廉或免费的。 优质软件的价值被低估:作者指出,人们似乎更愿意为高品质的物理产品(如果酱)支付费用,而不是为软件支付,这反映出优质软件的价值在市场上被低估了。 支持独立开发者的呼吁:文章呼吁读者支持独立软件开发者,认为这不仅是为了获得更高质量和更安全隐私的软件,也是为了促进一个有着更多选择和创新的软件生态系统的发展。作者鼓励读者为优质的独立软件支付,强调这些软件值得人们的投资。 总的来说,文章倡导读者认识到独立软件开发者的价值,支持他们通过支付公平价格,以确保软件市场的多样性和创新。 原文 优质软件来自独立开发者,就像农贸市场上的优质食品一样。一罐手工有机果酱与超市里的大批量生产、添加玉米糖浆的果酱大不相同。 工业果酱充斥着廉价原料和货架稳定剂,而工业软件则满是侵犯隐私的跟踪器和专有格式。 谷歌(Google)、苹果(Apple)和微软(Microsoft)生产的就是这样的工业化软件。虽然工业软件便宜、相对可靠、广泛可用,通常能够满足基本需求,但也有其缺点。 这些大型科技公司凭借数千亿美元的收入和数十万员工的规模,轻松地向全球数十亿用户推广他们的新应用,享有开发和维护应用成本上的无比优势。 相比之下,独立软件开发者通常是小团队,没有规模经济的优势。他们要么通过牺牲品质来降低价格竞争,要么只能收取公平价格,但这往往导致许多人转向大型科技公司。不管怎样,大型科技公司总是赢家,因为他们能从大多数独立开发者在应用商店里赚到的钱中抽成20-30%,这是他们不需要承担的成本。 大型科技公司能够通过多种方式补贴成本,使其软件价格低廉: 谷歌通过销售利润丰厚的广告让应用免费,但用户将面临广告和侵犯隐私的追踪。 苹果通过销售高利润的设备免费提供应用,但这会将用户锁定在其专有的生态系统内。 微软则通过捆绑销售利润丰厚的企业合同来降低应用价格,同样使用户被锁定在其专有生态系统内。 一些科技公司通过向风险资本投资者筹集数亿美元,用这笔钱来补贴定价——直到资金耗尽,软件质量也随之下降。 这并不意味着这些公司有恶意。但他们的补贴策略造成了一种错觉,让人们认为所有软件都应该便宜或免费。 工业软件变得极为便宜,许多人已经不再知道优质软件能带来多少价值。我们对优秀软件的感知变得麻木,被“免费”这个概念迷惑。 不知为何,我们似乎更愿意为高品质的果酱而非高品质的软件付费。我发现自己在个人软件上的支出远少于在食品杂货等基本生活用品上的支出。然而,软件是为数不多的能真正带给我效用的产品之一。考虑它的每次使用成本吧。 独立优质软件的制作者们不遗余力地为你打造更好的应用,采取原则性的方法开发工具,既不妥协你的隐私,也不让你受限。 独立软件开发者就像你可以交流的朋友。如同农贸市场上的优质果酱,你可能会和制作它的人成为朋友,他们愿意聆听你的建议和不满。 如果你希望生活在一个有着更多软件选择的世界里,请在优质独立软件上多花一点钱。它们值得你的辛苦所得。

April 11, 2024 · 1 min · fisherdaddy