Stay hungry, Stay foolish

👋 Welcome to fisherdaddy’s blog!

    1. 精心翻译的优质博客内容
    1. 前沿技术分享
    1. 认知分享

📚 博客内容:

    1. 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
    1. 分享: 探索各种前沿技术,从编程语言到软件开发,从云计算到人工智能。
    1. 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的独到见解。

如何高效使用 DeepSeek-R1 这种推理模型?

Together AI 今天发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南!我看了下其中有一些内容很好,翻译了其中核心的内容分享给大家。 DeepSeek-R1 这种推理模型经过专门训练,能够在给出答案前进行逐步思考,这使得它们在复杂的推理任务中表现出色,例如编码、数学、规划、谜题和 AI 智能体的工作流程。 对于一个问题,DeepSeek-R1 会输出其思维链/推理过程(以思考 Token 的形式),这些 Token 被包含在 <think> 标签中,以及最终的答案。 由于这类模型需要消耗更多的计算资源和 Token 才能实现更好的推理能力,因此它们的输出通常更长,计算速度也更慢,成本也高于没有推理能力的对应模型。 Prompt 调优以获得最佳结果 推理模型(如 deepseek-r1、o1、o3-mini等)擅长根据已知信息进行逻辑推理和问题求解,而非推理模型(deepseek-v3、gpt-4o、claude-3.5-sonnet等)则更侧重于信息检索和模式匹配。下面我们提供一份指南,帮助你充分发挥 DeepSeek-R1 的性能: 清晰且具体的提示语 (prompts): 使用简洁明了的语言编写指令,明确表达你的需求。复杂冗长的提示语往往效果不佳。 采样参数: 建议将 temperature (温度系数) 设置在 0.5-0.7 之间 (推荐值 0.6),以避免模型产生重复或不连贯的输出。同时,top-p (概率截断) 建议设置为 0.95。 避免使用系统提示 (system prompt): 不要添加额外的系统提示语,所有指令都应包含在用户提示语中。 避免使用少量样本提示 (few-shot prompting): 不要在提示语中提供任何示例,因为这会降低模型的性能。相反,请详细描述你希望模型解决的问题、执行的任务以及输出的格式。如果确实需要提供示例,请确保示例与你的提示语要求高度一致。 组织你的提示语: 使用清晰的标记 (例如 XML 标签、Markdown 格式或带有标签的段落) 来分解提示语的不同组成部分。 这种结构化的组织方式有助于模型正确理解和处理你的每一个请求。 设置明确的要求: 当你的请求存在特定限制或标准时,请明确地进行说明 (例如 “每行文本的朗读时间不应超过 5 秒…”)。 无论是预算限制、时间限制还是特定的格式要求,都应清晰地概述这些参数,以便引导模型生成符合要求的回复。 清晰地描述输出: 详细描述你期望的输出结果。 描述具体的特征或质量,以便模型生成完全符合你需求的响应,并朝着满足这些标准的方向努力。 多数投票选择回复: 在评估模型性能时,建议生成多个解决方案,然后选择出现频率最高的结果。 避免使用思维链提示 (chain-of-thought prompting): 由于这类模型在回答问题之前会自主进行推理,因此无需指示它们“逐步思考……” 数学任务: 对于数学问题,建议在提示语中添加如下指令:“请逐步进行逻辑推理,并将最终答案置于 \boxed{} 中。” 强制使用 <think> 标签: 极少数情况下,DeepSeek-R1 可能会跳过思考过程,从而对模型性能产生负面影响。 在这种情况下,模型输出的响应将不会以 <think> 标签开头。 如果你遇到此问题,可以尝试引导模型以 <think> 标签开头。 应用场景 评估其他 大语言模型 (Benchmarking other LLMs): 评估 大语言模型 响应的上下文理解能力,这在需要严格验证的领域(如法律、金融和医疗保健)中尤为重要。 代码审查 (Code Review): 执行全面的代码分析,并针对大型代码库提出改进建议。 战略规划 (Strategic Planning): 制定详细的计划,并根据具体的任务需求选择合适的 AI 模型。 文档分析 (Document Analysis): 处理非结构化文档,并识别多个来源之间的模式和关联。 信息提取 (Information Extraction): 从大量非结构化信息中高效地提取相关数据,非常适合 RAG 系统。 歧义消除 (Ambiguity Resolution): 有效地解释不明确的指令,并在需要时主动寻求澄清,而不是直接进行猜测。 上下文和成本 在使用推理模型时,至关重要的是在上下文窗口中保持足够的空间,以便模型能够充分进行推理。推理 Token 的生成数量会因任务的复杂程度而异——简单的问题可能只需要几百个 Token,而复杂的挑战可能需要数万个 Token。...

February 20, 2025 · 1 min · fisherdaddy

【科普】大模型中常说的 token 和 Tokenizer 是指什么?

在大语言模型(LLM)日益普及的今天,我们往往关注模型的参数、结构和预训练数据,但实际上,支撑这些模型顺利理解和生成语言的一个重要环节——Tokenizer,常常被人忽视。本文将带你了解大模型中 Tokenizer 的基本概念、常见技术以及它在模型性能和效率中的关键作用,同时力求既不流于表面,也不陷入晦涩难懂的技术细节。 token 和 Tokenizer 是什么? 简单来说,Tokenizer 就是将连续的文本拆分成模型能处理的基本单位——Token 的工具,而 “token” 是模型理解和生成文本的最小单位。对于计算机来说,处理原始文本是非常困难的,因此我们需要一个中间层,把文字转换为一系列的数字序列(即,一个个离散的 token),这些 token 既可以是单个字符、词语,也可以是子词(subword)。而这个转换过程正是由 Tokenizer 完成的。 在传统的自然语言处理中,我们可能直接按照单词或字符来分割文本;而在大模型中,常见的方法则是采用子词级别(subword-level)的分割方式。这种方式既能保证足够细致(能够捕捉到拼写变化、罕见词等信息),又不会使得词表过大,进而影响模型的效率和泛化能力。 在中文中,token 通常是单个汉字(或者在某些情况下是常见词汇)。 在英文中,token 通常是一个词或单词的一部分,平均而言大约 4 个字符或 0.75 个单词,但具体拆分方式依赖于采用的 tokenizer 算法。 Tokenizer 的主要方法 目前大模型常用的 Tokenizer 方法主要包括: Byte-Pair Encoding (BPE) BPE 是目前最流行的子词分词算法之一。其核心思想是:从最基本的字符开始,不断将在训练语料中频繁共现的字符或子串合并为一个新的 Token,直到达到预设的词表大小。这种方式能够灵活处理词汇稀缺问题,同时对英文这种单词之间有明显分隔的语言效果很好。 SentencePiece SentencePiece 算法则不依赖于空格分词,适合处理中文、日文等没有明显分词边界的语言。它同样采用子词或字节级别的编码方式,保证了不同语言之间的一致性。由于其不依赖传统分词规则,因此在多语种模型中得到了广泛应用。 其他创新方法 近年来,随着大模型规模的不断扩大和应用领域的拓展,关于如何更好地进行 Tokenization 的研究也不断涌现。例如,有学者提出结合认知科学“最省力原则”构建更高效的 Tokenizer;也有工作探讨利用自适应的“Learn Your Tokens”策略,根据输入自动学习最优的分词单元。尽管这些方法尚处于探索阶段,但都表明 Tokenizer 的设计对模型的最终性能具有不容忽视的影响。 Tokenizer 对大模型的影响 模型训练效率 在大模型的训练过程中,Tokenizer 决定了输入序列的长度和词表大小。分词粒度过细(例如仅按字符分割)虽然能覆盖所有细节,但会导致序列变得冗长,使得 Transformer 中自注意力机制的计算复杂度呈平方级增长,从而大大增加训练时间和资源消耗;而分词粒度过粗(直接按单词分割)又可能无法有效处理罕见词或新词。因此,子词分词方法(如 BPE 和 SentencePiece)正好在二者之间取得了平衡,不仅能减少序列长度,还能保持语义信息。 模型效果与泛化能力 一个精心设计的 Tokenizer 不仅有助于训练速度,还能提升模型在下游任务中的表现。良好的 Tokenizer 能够保证同一语义在不同上下文下尽量映射到相似的 Token 序列,从而使模型更容易捕捉到语言中的规律和细微差别。反之,不合理的分词方式可能会使模型“误解”文本信息,导致输出不连贯甚至产生幻觉。 多语言和特殊场景 对于多语言大模型来说,如何构造一个既能覆盖英文又能适应中文、日文等其他语言的 Tokenizer,是一个具有挑战性的问题。研究表明,多语种 Tokenizer 往往需要更大的词表来处理不同语言的字符和词汇,但词表过大又可能影响模型效率。因此,如何在覆盖率与高效性之间取得平衡,是 Tokenizer 设计的重要课题。...

February 19, 2025 · 2 min · fisherdaddy

永恒的游戏 • Supercell

这篇文章是 Supercell CEO Ilkka Paananen 所写并发布到公司官网。在介绍这篇文章之前,我先给大家简单介绍一下这家公司,大家还记得前几年流行的“中台”这一概念吗?就是受到这家公司的启发而提出的。2015年中,阿里巴巴集团董事会主席马云曾带领高管团队访问 Supercell,对其小团队高效运作和强大中台支持的模式印象深刻。同年12月,阿里巴巴正式启动“大中台、小前台”战略,旨在构建创新灵活的组织和业务机制,这一战略被视为传统架构的一次进化,迅速引发了国内众多企业的效仿。然而随着实践的深入,许多企业发现中台战略在实施过程中存在业务边界模糊、响应速度下降、维护成本增加等问题,导致中台战略的实施效果并不理想。以阿里巴巴为例,尽管其通过中台战略在初期取得了一定成效,但随着业务的发展和市场环境的变化,阿里巴巴于2023年开始对组织架构进行调整,提出“1+6+N”的新架构,将原有的中台职能下放至各业务单元,强调业务的自主性和灵活性。不是说这个中台战略不好,而是各企业应结合自身实际,权衡中台的利弊,制定适合的组织架构方案。 Supercell 简介 Supercell 是一家总部位于芬兰赫尔辛基的移动游戏开发公司,成立于2010年5月14日。公司由 Ilkka Paananen 和 Mikko Kodisoja 等六位游戏行业资深人士创立。Supercell 以开发高质量的免费手游而闻名,其代表作品包括《卡通农场》(Hay Day)、《部落冲突》(Clash of Clans)、《海岛奇兵》(Boom Beach)、《皇室战争》(Clash Royale)和《荒野乱斗》(Brawl Stars)等。这些游戏在全球范围内广受欢迎,曾长期占据移动应用商店排行榜前列。 Supercell 的成功在很大程度上归功于其独特的企业文化和运营模式。公司采用小型团队(称为“细胞”)的工作方式,每个团队由5至7人组成,拥有完全的自主权来开发和管理自己的项目。这种扁平化的组织结构鼓励创新和快速迭代,使得团队能够迅速响应市场反馈。此外,Supercell 注重将游戏开发过程中公共和通用的素材、算法以及研发工具进行整合,构建了强大的中台(即后台支持系统),以支持各个小团队的高效开发。 值得一提的是,2016年,腾讯以86亿美元的价格收购了 Supercell 81.4%的股份,成为其主要股东。这进一步加强了 Supercell 在全球游戏市场的影响力。 这篇文章主要讲了什么 Supercell 在 2024 年经历了前所未有的成功和挑战。《荒野乱斗 (Brawl Stars)》表现突出,各项指标均大幅增长,证明了即使是相对“老”的游戏,只要不断改进,也能创造出“永恒的游戏”。 另一方面,新游戏《爆裂小队 (Squad Busters)》虽然收入超过 1 亿 美元,但未能达到预期,突显了当今 Supercell 和整个行业推出新游戏的挑战。尽管如此,2024 年对 Supercell 来说是最好的一年,活跃玩家超过 3 亿,所有游戏收入均同比增长。Supercell 强调团队独立性、承担风险和从失败中学习的重要性,并致力于通过 Spark 项目创建新的游戏团队,探索游戏领域的创新。 《荒野乱斗 (Brawl Stars)》的成功:各项指标(玩家、参与度和收入)翻倍甚至更多,这归功于团队的努力、更大的团队规模带来的风险承担能力,以及公司给予的自主权和长期耐心。 《爆裂小队 (Squad Busters)》的挑战:虽然收入超过 1 亿 美元,但未能达到预期,反映了在竞争激烈的移动游戏市场中推出新游戏的难度。 Supercell 认为,即使面对挑战,承担风险对于创造突破性成功至关重要。 公司业绩:活跃玩家超过 3 亿,所有游戏收入均同比增长,总收入创历史新高。 Spark 项目:Supercell 创建的团队孵化器,旨在邀请全球顶尖人才组建新的游戏团队。 该项目通过游戏 jams 和快速原型设计来评估团队,并已启动 5 个新的游戏团队。 财务数据: 收入(未计递延):28 亿 欧元(30 亿 美元),同比增长 77%。 EBITDA(未计递延):8....

February 19, 2025 · 3 min · fisherdaddy

ChatGPT 与后训练的艺术 • John Schulman & Barret Zoph

还记得 OpenAI 联合创始人 John Schulman 吗?他在去年 8 月份离开 OpenAI 加入了 Anthropic,然而仅仅六个月后,他又在今年 2 月再次离职加入了前 OpenAI CTO Mira Murati 的新创业公司 Thinking Machines Lab 。最近他和 OpenAI 前 Post-Training 负责人 Barret Zoph(他就是在去年 gpt-4o 多模态发布会上和 Mira 以及 Mark Chen 一起演示的那位兄弟,他也加入了 Mira 的公司)一起在斯坦福大学就 Post-Training 以及在 ChatGPT 的工作经验进行了分享,他把本次分享的文档共享到了 Google Docs 上,这次分享的内容对 AI 的初学者特别友好,先介绍了后训练的三个组成部分以及基础概念,然后介绍了 ChatGPT 的一些早期历史和演变以及遇到的问题,最后推荐了后训练相关的一些论文和博客,推荐大家看看。另外,我也用 geimini-2.0-flash-thinking 对本次分享做了一些摘要,也分享一下: 本次分享主要介绍了 ChatGPT 的后训练 (Post-Training) 过程,后训练是使基础模型 (Base Model) 转变为更像助手,并遵循正确输出格式的关键步骤,也是模型准备投入生产的最后阶段。相较于预训练 (Pre-Training),后训练计算成本更低,迭代周期更快,并且使用了人类反馈强化学习 (RLHF) 来调整模型以适应用户偏好。后训练的核心在于教会模型使用工具、塑造模型个性,并引入拒绝回答和安全行为。模型的行为很大程度上依赖于预训练基础模型的泛化能力。 后训练主要包含三个组成部分: 监督微调 (SFT),用于克隆人类或专家的行为; 奖励模型 (RM) 训练,用于建模人类偏好; 强化学习 (RL),使用强化学习算法根据奖励模型进行优化,并在推理过程中结合非奖励模型的其他目标。 ChatGPT 的后训练经历了从简单到复杂的发展过程。最初的 ChatGPT 模型相对简单,仅有文本输入和文本输出。随着时间推移,功能和模型显著扩展,增加了多种模型尺寸、工具交互、安全措施、持续模型训练、多模态输入输出以及大规模人类数据的使用。为了有效管理这些变化,OpenAI 采用了 “主线模型设置” (mainline model setup) 来降低风险,并频繁整合和回滚变更。...

February 18, 2025 · 4 min · fisherdaddy

DeepSeek 官方推荐:Deepseek-R1 模型要这样设置

DeepSeek 官方发文:“很高兴看到每个人都对部署 DeepSeek-R1 的热情!这是我们推荐的设置,以获得最佳体验。"。 总结下来,官方推荐如下四点核心设置: 1. 不要设置 System prompt 2. temperature 设置为 0.6 3. 使用官方推荐的 prompt 在官方的 DeepSeek 网站与应用中,我们没有使用系统提示,而是专门设计了两个提示,分别用于文件上传和网页搜索,以优化用户体验。此外,网站与应用中的温度设置为 0.6。 对于文件上传的 prompt 请按照模板创建提示词,其中 {file_name}、{file_content} 和 {question} 是参数。 file_template = \ """[file name]: {file_name} [file content begin] {file_content} [file content end] {question}""" 对于网页搜索的 prompt {search_results}、{cur_data} 和 {question} 是参数。 中文 prompt search_answer_zh_template = \ '''# 以下内容是基于用户发送的消息的搜索结果: {search_results} 在我给你的搜索结果中,每个结果都是[webpage X begin]...[webpage X end]格式的,X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文,请列出所有相关的引用编号,例如[citation:3][citation:5],切记不要将引用集中在最后返回引用编号,而是在答案对应部分列出。 在回答时,请注意以下几点: - 今天是{cur_date}。 - 并非搜索结果的所有内容都与用户的问题密切相关,你需要结合问题,对搜索结果进行甄别、筛选。 - 对于列举类的问题(如列举所有航班信息),尽量将答案控制在10个要点以内,并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项;如非必要,不要主动告诉用户搜索结果未提供的内容。 - 对于创作类的问题(如写论文),请务必在正文的段落中引用对应的参考编号,例如[citation:3][citation:5],不能只在文章末尾引用。你需要解读并概括用户的题目要求,选择合适的格式,充分利用搜索结果并抽取重要信息,生成符合用户要求、极具思想深度、富有创造力与专业性的答案。你的创作篇幅需要尽可能延长,对于每一个要点的论述要推测用户的意图,给出尽可能多角度的回答要点,且务必信息量大、论述详尽。 - 如果回答很长,请尽量结构化、分段落总结。如果需要分点作答,尽量控制在5个点以内,并合并相关的内容。 - 对于客观类的问答,如果问题的答案非常简短,可以适当补充一到两句相关信息,以丰富内容。 - 你需要根据用户要求和回答内容选择合适、美观的回答格式,确保可读性强。 - 你的回答应该综合多个相关网页来回答,不能重复引用一个网页。 - 除非用户要求,否则你回答的语言需要和用户提问的语言保持一致。 # 用户消息为: {question}''' 英文 prompt search_answer_en_template = \ '''# The following contents are the search results related to the user's message: {search_results} In the search results I provide to you, each result is formatted as [webpage X begin]....

February 15, 2025 · 3 min · fisherdaddy

Jeff Dean 和 Noam Shazeer 访谈 - 在 Google 的 25 年从 PageRank 到 AGI

本篇文章主要记录一下 Dwarkesh Patel 在 2025 年 2 月 13 日 对 Jeff Dean 和 Noam Shazeer 的访谈。在开始详细记录本次访谈的核心内容之前,我想先给大家介绍一下两位嘉宾。 Jeff Dean Jeff Dean 是 Google 的首席科学家,在 Google 公司的 25 年里,他基本上参与了现代计算领域最具变革性的系统:从 MapReduce、BigTable、Tensorflow、AlphaChip 到 Gemini。他于1968年出生,早在加入 Google 之前,他曾在 DEC(数字设备公司)的西部研究实验室从事性能分析工具、微处理器架构和信息检索等方面的研究。1999年,Jeff Dean 加入 Google,当时他是公司的早期员工之一(据说他是第20号员工),并很快在 Google 的广告系统、网页爬虫、索引和查询服务系统等关键基础设施的设计与实现中发挥了举足轻重的作用。 在 Google 工作期间,Dean 与同事 Sanjay Ghemawat 合作,推出了许多标志性技术: • MapReduce:一种大规模数据处理的编程模型,奠定了 Google 后续分布式系统的基础。 • Bigtable:一种面向海量结构化数据的分布式存储系统。 • DistBelief/TensorFlow:Dean 领导的分布式深度学习系统,后被重构为如今广泛应用的开源机器学习框架 TensorFlow。 此外,Jeff Dean 在 2011 年参与创立了 Google Brain,致力于深度神经网络的研究,并在 2012 年成为其领导者。2018 年,他被任命为 Google AI 的负责人,而在 2023 年,随着 Google DeepMind 与 Google Brain 的整合,他又晋升为公司的首席科学家,直接负责公司整体的 AI 战略。...

February 15, 2025 · 3 min · fisherdaddy

OpenAI官方指南:推理模型最佳实践

本文由 OpenAI 官方文档 翻译而来,介绍了推理模型 (reasoning models) 和 GPT 模型 (GPT models) 的区别,以及何时使用推理模型 (reasoning models)。 OpenAI 提供两种类型的模型:推理模型 (reasoning models),例如 o1 和 o3-mini,以及 GPT 模型 (GPT models),例如 GPT-4o。这两类模型的行为特性有所不同。 本指南将介绍: OpenAI 的推理型模型和非推理型 GPT 模型之间的差异 何时应该使用推理模型 (reasoning models) 如何有效地提示推理模型 (reasoning models) 推理模型与 GPT 模型对比 与 GPT 模型 (GPT models) 相比,OpenAI 的 o 系列模型在不同任务上各有优势,并且需要的提示方式也不同。 它们之间不存在绝对的优劣之分,只是擅长的领域不同。 OpenAI 训练 o 系列模型(可以称它们为“规划者”)能够花费更多时间和精力思考复杂的任务,使它们在以下方面表现出色:制定战略、规划复杂问题的解决方案、以及基于大量模糊信息做出决策。 这些模型还能以极高的精度和准确性执行任务,非常适合那些通常需要人类专家才能胜任的领域,例如数学、科学、工程、金融和法律服务。 另一方面,低延迟、高性价比的 GPT 模型 (GPT models)(可以称它们为“主力”)则专为直接执行任务而设计。 在实际应用中,可以利用 o 系列模型来规划解决问题的总体策略,然后使用 GPT 模型 (GPT models) 执行具体任务,尤其是在对速度和成本的考量高于对完美准确性的追求时。 如何选择 对于你的应用场景,什么才是最重要的?...

February 14, 2025 · 3 min · fisherdaddy

Anthropic 经济指数

Anthropic 推出了 Anthropic 经济指数 (Anthropic Economic Index),旨在深入理解 生成式 AI 系统对劳动力市场和经济产生的重大影响。该指数的首份报告基于 Claude.ai 上的数百万匿名对话进行了首次数据分析,揭示了 生成式 AI 如何融入现代经济中的实际工作任务。为了促进更广泛的研究和政策制定,Anthropic 开放了用于此分析的数据集,并邀请经济学家、政策专家和其他研究人员为该指数提供input。 初步报告的主要发现包括: 生成式 AI 的使用目前主要集中在软件开发和技术写作任务中。 大约 36% 的职业在其至少四分之一的相关任务中使用了 生成式 AI,而约 4% 的职业在其四分之三的相关任务中使用了 生成式 AI。 生成式 AI 的使用更倾向于增强人类能力(57%),即 AI 与人类协作并提升其能力,而非直接自动化任务(43%)。 生成式 AI 在中等至中高工资职业中的使用更为普遍,但在最低和最高工资岗位中的使用率较低。这可能反映了当前 AI 能力的局限性以及技术应用的实际障碍。 数据来源与分析方法 该研究基于经济学文献中关于职业任务而非职业本身的见解,使用 Anthropic 内部的自动化分析工具 Clio 分析了约一百万次 Claude (Free 和 Pro 版本) 的对话。Clio 将每次对话与美国劳工部 ONET (Occupational Information Network) 数据库中的职业任务进行匹配,ONET 数据库包含约 20,000 个特定工作相关任务。然后,研究人员按照 O*NET 的分类方案,将任务分组到相应的职业和职业类别中。 AI 使用的行业分布 数据显示,“计算机和数学” 类别(主要涵盖软件工程角色)的职业中,生成式 AI 的采用率最高,占 Claude 查询的 37....

February 14, 2025 · 3 min · fisherdaddy

Deep Research 与知识价值 • Ben Thompson

本文由 Stratechery 的作者 Ben Thompson 撰写,OpenAI 的 Deep Research 是一项新的 AI 功能,它标志着朝着通用人工智能(AGI)迈出的重要一步。Deep Research 能够独立执行复杂的研究任务,在短时间内完成人类研究分析师需要数小时才能完成的工作。这项技术的核心价值在于其能够综合网络上的大量信息,为用户提供深入的报告,从而极大地提升了知识获取和研究效率。然而,Deep Research 也揭示了互联网信息的局限性,尤其是在处理非公开或专业领域知识时,它可能会产生不完整甚至错误的报告,突显了在信息过载时代,高质量、非公开知识的价值日益凸显。 Deep Research 的功能与特点 高效的研究能力: Deep Research 可以在几十分钟内完成人类研究人员数小时的工作,显著提升研究效率。 强大的信息综合能力: 它能够搜索、解释和分析互联网上大量的文本、图像和 PDF 文件,并根据遇到的信息进行调整,最终生成综合性的研究报告。 基于 o3 模型优化版本: Deep Research 由 OpenAI 即将推出的 o3 模型的优化版本驱动,该版本专为网络浏览和数据分析而设计。 经济价值: 作者以每月 200 美元的价格体验了 Deep Research,认为其在某些应用场景下具有很高的经济价值,例如为采访准备背景资料,或快速了解复杂议题。 Deep Research 的应用案例 苹果公司财报分析: 作者使用 Deep Research 分析了 苹果公司 的最新财报,并将其与自己之前的分析进行对比,结果表明 Deep Research 能够理解并整合作者的分析风格和观点,生成有价值的报告。 ServiceNow 公司 CEO 采访准备: 作者利用 Deep Research 快速了解了 ServiceNow 公司 及其 CEO Bill McDermott 的背景信息,为采访准备节省了大量时间,并获得了有用的起始信息。 医疗问题研究: Deep Research 在一个朋友的复杂医疗问题研究中,快速识别出了一个潜在的关键问题,这显示了其在专业领域研究方面的潜力。 行业分析的局限性: 在一个行业分析案例中,Deep Research 报告遗漏了一个重要的行业参与者,揭示了其在处理非公开或难以获取的网络信息时的局限性,强调了非公开知识的价值。 Deep Research 对知识价值的影响 新闻价值的启示: 互联网时代新闻的经济价值降低,反映了信息过载和免费传播的挑战。Deep Research 的出现进一步加剧了信息过载,但也突显了高质量、独特知识的稀缺性和价值。 秘密和非公开信息的价值: Deep Research 的局限性在于其无法获取非公开信息,这使得那些未公开的数据和知识变得更有价值。例如,亚马逊 AWS 在早期阶段的财务数据未公开,直到后来才披露,其披露引发了市场对 亚马逊 价值的重新评估,也引发了竞争对手的追赶。 预测市场的潜力: 为了应对信息透明度提高和秘密信息价值上升的趋势,预测市场可能变得更加重要。预测市场能够通过价格信号来传播知识,为获取和传播非公开信息提供经济激励。 AI 的双重作用: AI 既可能加剧互联网信息污染,也可能是解决信息过载和甄别高质量信息的关键。Deep Research 这样的工具,在提升信息获取效率的同时,也促使人们重新思考知识的价值和获取方式。 Deep Research 的影响与未来展望 生产力提升: Deep Research 能够显著提升个人和组织的生产力,尤其是在研究和知识工作领域。 对研究人员的潜在影响: Deep Research 可能会对传统研究人员的就业市场产生影响,因为它可以自动化一部分研究工作。 对下一代分析师的挑战: 过度依赖 Deep Research 可能会使下一代分析师失去在信息搜索和筛选过程中学习和积累知识的机会。 秘密和摩擦的价值: 在 AI 时代,秘密和摩擦(即信息获取的难度)可能成为一种有意的价值保护机制,用于保护和利用独特的知识资产。 持续发展: Deep Research 仍处于早期阶段,未来将不断发展和完善,其能力和应用场景也将持续扩展。 原文 “你什么时候感觉到通用人工智能 (AGI) 了?”...

February 13, 2025 · 3 min · fisherdaddy

三个观察 • Sam Altman

本文是 OpenAI 的联合创始人兼 CEO Sam Altman 在今早刚发表的一篇文章,核心观点是,人工通用智能 (AGI) 的发展正快速推进,预示着社会和经济将发生巨大变革。Altman 认为, AGI 不仅仅是又一项技术工具,而是一个划时代的转折点,它将极大地提升人类的生产力,并有可能解决许多全球性难题。 AGI 的定义与愿景: AGI 被定义为一种能够在多个领域以人类水平解决复杂问题的系统。AGI 是人类不断进步的阶梯上又一个工具,但这次有所不同,它将带来惊人的经济增长,并有望实现治愈疾病、增加休闲时间、充分发挥创造潜能等愿景。 AI 发展的三个经济学观察: 智能与资源成对数关系: AI 模型的智能水平大致与训练和运行它所使用的资源 (计算资源、数据、推理计算) 的对数成正比。这意味着持续投入资源可以持续且可预测地提升 AI 智能。 AI 使用成本快速下降: AI 的使用成本大约每 12 个月下降 10 倍。例如, GPT-4 的 token 成本从 2023 年初到 2024 年中发布的 GPT-4o 下降了约 150 倍。这种成本下降速度远超摩尔定律。 智能线性增长的社会经济价值超指数级增长: 线性增长的智能所带来的社会经济价值呈超指数级增长。因此,对 AI 的指数级增长投资在可预见的未来不会停止。 AI 智能体 (AI agents) 的出现: AI 智能体,例如软件工程智能体,将逐渐普及,并像虚拟同事一样工作。它们能够完成资深软件工程师在数天内完成的大部分任务,尽管需要人类的监督和指导,并且在某些方面表现出色,在另一些方面则可能表现不佳。 AGI 对社会和经济的长期影响: AGI 可能会像晶体管一样渗透到经济的各个角落,广泛分布其收益,并深刻改变人们的生活。虽然短期内生活变化不大,但长期来看,社会和经济将发生巨大变革。 个人能力提升与价值重塑: AGI 将极大地提升个人能力,使个人能够产生比以往更大的影响力。意志力、目标明确性和适应不断变化的世界的能力将变得极其重要。 AGI 影响的不均衡性: AGI 对不同行业的影响程度不同,科学进步可能会加速,某些商品的价格将大幅下降,而奢侈品和稀缺资源的价格可能会上涨。 AGI 的社会融合与安全: 作者强调,需要社会各界共同思考如何将 AGI 融入社会, 原文 我们的使命是确保通用人工智能 (AGI) 惠及全人类。...

February 10, 2025 · 1 min · fisherdaddy