Stay hungry, Stay foolish

👋 Welcome to fisherdaddy’s blog!

    1. 精心翻译的优质博客内容
    1. 有趣的技术分享
    1. 博主的个人认知分享

📚 博客内容:

    1. 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
    1. 分享: 探索各种有趣技术,从编程语言到软件开发,从云计算到人工智能。
    1. 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的见解。

生成式 AI – 力量与荣耀 • 彭博新能源财经

本文聚焦生成式 AI 的迅猛发展及其对能源需求的深远影响。作者指出,2025年标志着能源行业和 AI 技术之间的双向觉醒:能源需求成为 AI 扩展的瓶颈,而 AI 技术则推动了能源行业的变革。随着生成式 AI 技术的普及,数据中心的规模和电力需求急剧增加,这引发了关于能源供应、清洁能源使用以及经济和社会影响的广泛讨论。作者还探讨了未来 AI 数据中心的能源解决方案,包括核能、可再生能源和新兴技术,同时强调需要与地方社区和电网合作以实现可持续发展。 生成式 AI 的崛起 生成式 AI 的发展从 2020 年至 2022 年间迅速加速,代表性事件包括 AlphaFold2 的突破和 ChatGPT 的发布。 Nvidia 成为生成式 AI 硬件的核心供应商,其 GPU 的需求激增,市值飙升至超过 3 万亿美元。 AI 的发展受到能源瓶颈的限制,顶尖科技公司纷纷意识到电力供应的重要性。 数据中心的能源挑战 数据中心的电力需求正在迅速上升,尤其是用于 AI 模型训练的高功率数据中心。 当前全球数据中心的平均功率为 10MW,而 AI 专用数据中心的规模已达到 75MW 至 150MW,未来甚至可能扩展到 1GW 至 2GW。 数据中心的选址正在从城市转向靠近清洁能源供应的偏远地区。 能源需求预测与不确定性 对未来 AI 数据中心能源需求的预测差异巨大,从保守的 35% 增长到 2030 年的 250% 增长不等。 GPU 的能效持续提升,但仍无法完全抵消其快速增长的需求。 作者预测美国数据中心的电力需求到 2030 年将翻倍,增加约 30GW。 清洁能源与核能的竞争 科技巨头正在探索核能作为数据中心的清洁能源来源,但核能的高成本和复杂性可能成为障碍。 可再生能源(如风能和太阳能)被认为是更现实的解决方案,并可能通过与电池或其他存储技术结合来满足需求。 新兴能源技术(如地热和氢能)虽然有潜力,但仍面临技术和经济上的挑战。 AI 对能源和经济的双重影响 AI 不仅增加了电力需求,还通过优化电网、天气预测、物流和制造等领域的效率来减少能源浪费。 文章提到 Jevons 效应:尽管 AI 提高了能源效率,但其带来的经济活动增长可能进一步推动能源需求。 社会与政策的考量 数据中心的建设需要与地方社区合作,以解决用水、空气质量和技能需求等问题。 作者建议科技公司与电网和监管机构合作,共同优化能源解决方案。 未来的能源政策(如温室气体核算规则的修订)可能对数据中心的能源选择产生深远影响。 未来展望 作者预测,尽管科技公司可能尝试创新能源解决方案,但最有效的方式仍是通过传统的清洁能源技术与电网合作。 他强调,AI 数据中心的建设需要关注长期可持续性,并与地方社区和能源系统共同发展。 最后,作者 Liebreich 以幽默的结尾提醒读者,人脑的功耗仅为 20W,而人类大脑的能效远超机器,暗示尽管 AI 技术进步迅猛,人类依然是不可替代的。...

January 17, 2025 · 6 min · fisherdaddy

闫俊杰深度复盘:MiniMax 的 AI 进化之路

本文来晚点于 2025年 1 月份对 MiniMax 创始人兼 CEO 闫俊杰的访谈。 闫俊杰认为,AI 大模型的发展逻辑与移动互联网不同,不应依赖用户反馈来提升模型能力。他指出,更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。他强调,技术驱动是 AI 公司发展的核心,并认为开源能加速技术进化。他认为,AI 领域需要清晰定义模型能力分级,并通过技术手段逼近定义好的指标,而不是通过大量的 AB 测试和用户反馈来迭代模型。 MiniMax 的技术选择 MiniMax 发布了首个开源模型 MiniMax-01 系列,该模型在 4000 亿以上参数的大模型中,首次使用了线性注意力机制新架构,能高效处理 400 万 token 上下文。闫俊杰认为 long-context(长上下文)是 Agent(智能体)的重要能力。MiniMax 没有第一批跟进 OpenAI o 系列模型,而是选择了线性注意力机制,这与行业共识不同。 对用户和产品的看法 闫俊杰认为,用户数量并非 AI 竞争的核心,不应使用移动互联网的产品方法论来思考 AI 产品。他认为,AI 产品的重点在于模型能力的提升,而非用户反馈。他指出,“ChatGPT” 的 DAU 是 “Claude” 的 50 倍到 100 倍,但它们的模型其实差不多,这说明智能水平的提升,没那么依赖很多用户。 开源的意义 闫俊杰认为,开源能加速技术进化,并有助于建立技术品牌。他表示,MiniMax 开源模型不会藏更好的东西,因为所有模型一年之后都会落后。他认为,技术品牌之所以重要,本质也是因为这个行业最大的驱动力是技术进化。 对行业误区的反思 闫俊杰指出,中国大部分公司,包括创业公司和大厂,都在用做推荐系统的方法来做大模型产品,这是一种误区。他认为,应该非常清晰地定义模型能力分级,然后搞清楚每一代提升,需要什么样的算法、数据和推理过程,通过技术手段来逼近定义好的指标。 技术驱动的体现 MiniMax 在产品开发中,优先考虑算法上限高的功能,即使这会影响用户体验。例如,海螺视频虽然访问量很高,但页面仍然粗糙,因为 MiniMax 优先考虑算法的进步。 对 Agent 的看法 闫俊杰认为,Agent 的重要能力在于处理长上下文和多 Agent 之间的协同。他认为,AI 的发展方向是能处理复杂任务,达到专业人士的水平。他认为,Agent 最先落地的场景是 coding 和信息的获取。...

January 17, 2025 · 1 min · fisherdaddy

o1 不是一个聊天模型 (这正是重点) • Ben Hylak

swyx 在此:我们很荣幸地推出 2025 年的第一篇客座文章1!这篇文章在 gdb、...

January 13, 2025 · 2 min · fisherdaddy

2025 年科技和 AI 的十大预测 • Ashu Garg

本文由 Foundation Capital 合伙人 Ashu Garg 撰写,回顾了 2024年科技界的里程碑,并探讨了 2025 年的前景。核心内容包括: AI 成本与普及 从 2021 年 GPT-3 的每百万标记 $60 的成本,到 2024 年 Meta 的 Llama 3.2 降至 $0.06,这一成本下降速度创下历史记录。 AI 已渗透至多个行业,其市场影响力占 S&P 500 市值的约一半。 技术进步与系统架构 AI 模型的进步正在转向推理能力,例如 OpenAI 的 o3 模型通过生成详细的推理路径,在 ARC-AGI 和 FrontierMath 等基准测试中取得了显著突破。 推理能力的提升需要更高的计算成本,但效率改进将推动未来发展。 未来的竞争将集中于系统架构,而非模型规模。 商业模式与市场扩展 AI 正在从传统的软件预算转向更大的服务市场,其目标是直接完成工作,而非仅提供工具。 成果导向的定价模式正在兴起,挑战传统软件公司的收入模式。 硬件市场的变化 预训练的高吞吐量需求使 NVIDIA 占据主导地位,但推理阶段对延迟和分布式计算的需求为其他厂商创造了机会。 多家科技巨头(如苹果、微软、谷歌等)和初创公司正在开发定制芯片。 AI 原生平台与用户体验 AI 原生平台正在重新定义企业软件,如销售平台从文本记录转向多模态处理。 新的用户界面将支持更复杂的 AI 交互,如 OpenAI 的 Canvas 和 Google’s NotebookLM。 搜索与信息获取的变革 AI 原生搜索(如 ChatGPT 和 Perplexity)正在取代传统搜索引擎,提供直接的综合答案。 Meta 的社交图谱可能进一步挑战 Google 的搜索主导地位。 开源与多模型战略 Meta 的 Llama 开源模型正在成为行业标准,降低了 AI 开发的进入门槛。 企业正在采用多模型战略,避免对单一模型的依赖。 自动驾驶与社会信任 Waymo 的自动驾驶汽车在复杂场景中的表现正在增强公众对 AI 的信任。 自动驾驶的普及将带来安全、生产力和城市设计的改善。 初创公司的机遇 开源模型和推理策略的进步使小型团队能够与大公司竞争,特别是在垂直领域和“最后一公里”应用中。 人类创造力与 AI 的未来 技术限制正在减少,AI 的未来发展将更多依赖于人类的创造力和想象力。 原文 对我来说,2024年科技领域的故事可以用一个数字来概括:1000倍。...

January 13, 2025 · 3 min · fisherdaddy

解密 AI Agent:新手指南 • MongoDB

本文围绕 AI agents(人工智能代理) 的定义、发展历程、核心组件、特性及其在现代应用中的价值展开探讨。AI agents 是一种结合人工智能和代理特性,具备环境感知、自主决策、工具使用以及目标导向行为的计算实体。其演化路径从传统基于规则的聊天机器人,到以大语言模型(LLM)为核心的生成式 AI 系统,再到结合检索增强生成(RAG)技术的复杂代理系统。AI agents 的出现标志着现代 AI 应用从简单交互向复杂、多功能系统的转变,并在生产力提升、决策支持和降低技术门槛等方面展现了巨大潜力。 AI agents 的定义与核心特性 定义:AI agents 是一种具备环境感知能力的计算实体,通过感知(输入)、行动(工具使用)和认知(基于 LLM 的推理与规划)实现自主决策和目标导向行为。 核心特性: 自主性:无需外部指令即可根据内部处理结果或外部观察采取行动。 交互性:与人类、其他代理或系统交互,能够根据上下文调整行为。 反应性与主动性:能对环境变化做出动态响应,同时通过推理与规划主动执行任务。 迭代性:通过反馈不断优化执行步骤,适应复杂任务。 AI agents 的发展历程 传统聊天机器人: 基于规则(如“如果…则…”逻辑)和预定义响应。 功能有限,需人工介入完成复杂任务。 LLM 驱动的聊天机器人: 引入生成式预训练变换器(GPT)模型,具备生成类人文本的能力。 克服了传统聊天机器人的局限,但存在个性化不足和“幻觉”(生成错误信息)问题。 RAG(检索增强生成)聊天机器人: 结合外部数据检索与 LLM 的内在知识,生成更准确和上下文相关的响应。 通过提示工程(Prompt Engineering)优化模型输出,如链式思维(CoT)和 ReAct 技术。 AI agents 的出现: 随 LLM 的参数规模增长,出现推理、多步规划和工具调用等能力。 结合工具使用、环境感知和迭代执行,形成具备高度自主性的复杂代理系统。 AI agents 的核心组件 大脑(Brain): 基于 LLM 提供推理、规划和决策能力。 包括记忆模块(存储历史交互)、角色模块(基于描述模拟特定行为)和知识模块(存储领域相关信息)。 行动(Action): 通过工具使用或功能调用完成任务。 能分解任务为多个步骤,并动态决定工具的使用时机。 感知(Perception): 处理环境输入(如文本、图像或语音),为决策提供信息。 AI agents 的价值与影响 生产力提升:通过自动化重复性任务(如审批、文档处理),减少人工干预。 决策支持:基于规则和指导方针辅助企业工作流中的决策。 降低技术门槛:通过自然语言和图像驱动的界面,使非技术用户更容易与系统交互。 多样化应用场景:从代码生成到内容创作,再到企业流程优化,AI agents 展现了广泛的应用潜力。 当前行业努力方向 可靠性:解决 LLM 的“幻觉”问题,确保输出准确性。 可扩展性:优化模型性能以应对不断增长的数据和计算需求。 性能提升:通过更强大的工具和工作流编排提高系统效率。 MongoDB 的支持: 提供长期数据管理(如对话历史存储)、向量数据库功能和可扩展数据存储,为 AI agents 提供基础设施支持。 AI agents 的未来展望 代理性(Agentic):AI 系统的分类基于其代理特性(如自主性、环境交互能力和目标导向行为)的强弱程度。 灵活性与适应性:AI agents 的发展可能模糊简单 AI 系统与复杂代理系统之间的界限。 行业影响与价值实现 生产力提升:通过自动化简化企业工作流。 用户友好性:降低技术复杂性,赋能普通用户。 企业决策支持:通过规则驱动的 AI 代理简化复杂流程。 MongoDB 的技术支持 长时数据管理:存储和检索对话历史,保持上下文。 向量数据库:支持语义搜索和 AI 工作负载。 可扩展存储:满足不断增长的数据需求。 原文 什么是 AI 智能体 (AI Agent)?...

January 10, 2025 · 4 min · fisherdaddy

Duolingo:120 亿美元的游戏化设计秘籍

连胜激励: Duolingo 使用连胜功能鼓励用户每天坚持练习。用户为了保持连胜,逐渐养成了稳定的学习习惯。这项功能显著提升了用户留存率,使第 14 天的留存率提高了 14%。 排行榜激发竞争: Duolingo 利用排行榜激发用户的竞争心理。它不仅推动了用户语言技能的提升,还增强了用户之间的互动和社区归属感。 成就徽章奖励: 用户在完成特定任务时会获得徽章奖励,这种设计增强了他们的成就感。由于用户喜欢与朋友分享这些成就,推荐率也因此提升了 116%。 即时反馈助力进步: Duolingo 为练习提供即时反馈,帮助用户迅速发现问题并改进。通过声音和提示强化用户体验,有效提高了学习的趣味性和参与度。 吉祥物 Duo 的友好提醒: Duolingo 的绿色猫头鹰吉祥物 Duo 为通知增加了温馨的个人化互动,使用户觉得通知友好而非打扰。此举让日活跃用户提升了 5%。 进度条直观激励: 进度条清晰展示用户已完成的内容和剩余的任务,鼓励他们完成课程并不断进阶。 游戏化挑战与活动: Duolingo 定期推出如“XP 冲刺挑战”这样的活动,创造紧迫感和兴奋感,激励用户积极参与并获取奖励。 社交功能构建社区: 通过“好友任务”等功能,Duolingo 鼓励用户团队协作,达成共同目标,从而营造出社区感和协作氛围。 主题化学习增加趣味: 课程根据不同主题分组(如日常问候),为学习提供具体情境,让学习内容更贴近实际生活且更有趣味性。 A/B 测试推动优化: Duolingo 通过大规模 A/B 测试,不断改进游戏化策略,确保功能能更好地吸引用户并提高留存率。 稀缺与独特体验: 独家俱乐部等功能通过营造稀缺感,让用户在解锁成就或晋级时感到与众不同。

January 10, 2025 · 1 min · fisherdaddy

解码 AI TOPS:理解 AI 芯片的关键指标与性能对比 • Ernest Chiang

(插图: 幕后付出了诸多努力。 Le Bouchon Ogasawara,位于东京涩谷。 图片来源:Ernest) tl;drTOPS (每秒万亿次运算, Trillions of Operations Per Second) 是衡量 AI 芯片和 NPU 芯片计算能力的重要指标,它表示处理器每秒能执行的万亿次运算次数。我们可以用“煎鸡蛋”来形象理解 TOPS: 普通 CPU 就像一位每次只能煎一个鸡蛋的厨师,而高 TOPS 值的 AI 芯片则像一位可以同时煎无数鸡蛋的超级厨师。TOPS 是对比 AI 芯片性能的重要参考,但在评估 AI 硬件时,我们还应该综合考虑能效、内存带宽等因素。 此外,TOPS 值通常代表的是理论峰值性能,实际性能还需要结合具体应用场景进行评估。什么是 TOPS(通俗易懂版)TOPS,全称 每秒万亿次运算 (Trillions of Operations Per Second),是衡量人工智能 (AI) 芯片或神经处理单元 (NPU) 计算能力的关键指标。它表示处理器每秒能够执行的最大运算次数,以万亿为单位。 随着计算能力的不断提升,未来可能会出现更大的单位来替代 “万亿”。 为了更直观地理解 TOPS,我们可以用一个生活化的例子来解释: 将 AI 计算 想象成 煎鸡蛋的过程,而 数据 则是 待煎的鸡蛋。 一个普通厨师(相当于普通 CPU)可能一次只能煎一个鸡蛋,而一个超级厨师(相当于 AI 芯片)则可以同时煎一万亿个鸡蛋! TOPS 就好比衡量这位 “超级厨师” 能力的指标,告诉我们他每秒可以 “处理” 多少个 “数据鸡蛋”。 TOPS 是理解和比较 AI 芯片性能的重要参考之一,但并非唯一标准。...

January 9, 2025 · 10 min · fisherdaddy

Agents 白皮书 • Google

简介 人类在处理杂乱无章的模式识别任务方面非常擅长。然而,他们往往会借助工具,例如书籍、Google 搜索或计算器,来补充已有知识,从而得出最终结论。同样,生成式 AI (Generative AI) 模型也可以通过训练学会使用工具,以获取实时信息或提供实际行动建议。比如,一个模型可以使用数据库检索工具来获取特定信息,例如客户的购买记录,从而生成个性化的购物推荐。又或者,模型可以根据用户的需求调用 API,完成发送邮件回复同事或代表用户进行金融交易等操作。 为了实现这些功能,生成式 AI 模型不仅需要能访问外部工具,还必须具备自我规划和执行任务的能力。这种结合推理能力、逻辑分析与外部信息访问功能的方式,进一步引入了智能体 (Agent) 的概念。智能体是一种可以扩展生成式 AI 模型能力的程序,使其功能超越了单一模型的局限。本白皮书将深入探讨这些概念及其相关内容。 摘要 本文探讨了生成式 AI 代理(Agents)的核心概念、组成结构及其在认知架构中的应用。代理通过结合语言模型(Language Models, LMs)、工具(Tools)和编排层(Orchestration Layer)来扩展语言模型的能力,使其能够执行复杂任务、自主决策并与外部世界交互。代理不仅能通过推理和规划完成目标,还能利用外部工具(如 API、数据存储等)获取实时信息或执行具体操作,从而弥补单一语言模型的局限性。 代理的定义与核心组成 代理的定义:代理是一个能够观察世界、使用工具并采取行动以实现目标的应用程序,具有自主性和主动性。 核心组成: 模型(Model):代理的核心决策引擎,通常是语言模型(如 GPT 系列)。支持多模态、通用或经过微调的模型。 工具(Tools):弥补模型无法直接与外界交互的缺陷,允许代理访问实时数据和执行操作。 编排层(Orchestration Layer):负责信息处理、推理、规划和决策,支持循环执行直到目标达成。 代理与模型的区别 模型:仅限于训练数据,无法与外界交互,且不具备持续上下文管理能力。 代理:通过工具扩展知识范围,支持多轮推理和上下文管理,并内置逻辑层(如 ReAct、Chain-of-Thought)。 认知架构与推理框架 认知架构:代理通过信息收集、内部推理、执行和调整的循环流程实现目标。 推理框架: ReAct:结合推理和行动的框架,适用于动态任务。 Chain-of-Thought (CoT):通过中间步骤实现推理能力,适合多步推理。 Tree-of-Thoughts (ToT):适用于探索性或战略性任务。 工具的作用与类型 工具的定义:工具是代理与外界交互的关键,可分为以下三种类型: 扩展(Extensions):代理与 API 的桥梁,直接在代理端执行 API 调用。 函数(Functions):在客户端执行的代码模块,提供更高的控制灵活性。 数据存储(Data Stores):通过向量数据库为代理提供动态、实时的数据支持,适用于结构化和非结构化数据。 应用示例 扩展的使用:通过示例教学让代理调用 API(如航班预订 API)。 函数调用:代理生成函数参数,由客户端执行 API 调用,适用于需要额外数据处理或安全性要求的场景。 数据存储的实现:通过向量搜索(如 RAG 方法)实现动态知识扩展,使代理能够访问实时信息。 模型性能提升 方法: 上下文学习(In-context Learning):通过少量示例实时学习任务。 基于检索的上下文学习:动态从外部存储中检索相关信息。 微调(Fine-tuning):通过特定数据集训练模型以提升任务表现。 结合优势:通过组合上述方法,代理可以在速度、成本和准确性之间取得平衡。 工具与平台支持 LangChain 示例:通过 LangChain 和 LangGraph 构建多阶段任务代理,结合工具(如 SerpAPI 和 Google Places API)实现复杂查询。 Vertex AI 平台:提供全面的托管环境,支持代理的开发、测试、评估和优化,简化生产级应用的构建。 8....

January 8, 2025 · 1 min · fisherdaddy

2025 年 AI 展望 • Andrew Ng

本文展望了 2025 年人工智能(AI)的发展趋势和希望,通过多位领域专家的观点,探讨了 AI 在技术、应用和社会影响方面的潜力与挑战。 技术进步与应用前景 快速原型开发与生产力提升 AI 辅助编码显著降低了构建软件原型的成本与时间。例如,用 AI 构建教育工具或金融分析工具只需数小时。 平台如 Bolt 和 Replit Agent 不仅提高代码质量,还简化了应用的部署流程。 生成式 AI 的未来 创意与定制化:生成式 AI 将解放创作者的时间,使其专注于创造性工作。未来将出现更多小型、专用模型以满足特定需求。 多模态生成:结合视频、音频的生成模型将推动电影制作等领域的创新,例如同时生成视频和音轨的工具。 用户控制:未来的生成工具将提供更多控制选项,例如音乐的旋律、和声或视频的场景细节。 AI 通用性与代理型 AI 当前的 AI 系统已具备“通用性”,能够完成广泛任务并适应不同场景。 “代理型 AI”即具有执行具体任务能力的人工智能,将成为未来的核心,帮助用户完成日常任务并提升生产力。 数据效率与模型优化 当前 AI 模型依赖大规模数据,未来的重点是通过更高效的算法和架构减少数据需求。 数据效率的提升将解决模型的解释性、鲁棒性和多模态学习等问题,同时降低开发成本,促进技术民主化。 社会与文化影响 AI 的社会价值 AI 应优化推荐算法,优先展示“桥梁内容”,帮助不同群体找到共同点。 通过参与式方法(如 Polis 工具),AI 可以促进社会共识,减少偏见与分裂。 安全与责任 生成式 AI 的部署需要高标准的安全性和责任感,特别是在“代理型 AI”执行任务时。 减少“幻觉”问题(即 AI 输出错误信息)是 2025 年的关键任务,未来 AI 将比搜索引擎更可靠。 教育与学习的变革 AI 正在改变学习方式,例如生成个性化的考试题目或重新解释课程内容。2025 年,AI 可能成为人们首选的学习助手。 社会团结与治理 AI 平台需嵌入社会价值指标(如促进建设性对话),以推动民主和社会和谐。 开发和治理 AI 的过程中,应广泛吸纳多元声音,确保技术公平性与包容性。 通过技术创新与社会责任的结合,2025 年的 AI 发展将不仅推动生产力和创造力,还可能重塑人与人之间的互动方式,成为促进社会进步的重要力量。...

January 8, 2025 · 3 min · fisherdaddy

大型语言模型如何工作。从 0 到 ChatGPT • Andreas Stöffelbauer

本文由微软数据科学家 Andreas Stöffelbauer 撰写,旨在以直观的方式解释大型语言模型(Large Language Models, LLMs)的工作原理,从基础的机器学习概念到 ChatGPT 的核心机制,帮助读者理解 LLMs 的训练过程、能力以及应用场景。作者通过分层讲解人工智能、机器学习、深度学习和 LLMs 的发展路径,揭示了这些模型如何从大规模数据中学习语言规律,并通过生成式方法实现自然语言处理任务。文章还探讨了 LLMs 的局限性(如“幻觉”现象)及其在未来改进的潜力。 关键细节 1. 人工智能的层次结构 人工智能 (AI):涵盖所有智能机器的研究。 机器学习 (ML):AI 的子领域,专注于从数据中发现模式。 深度学习 (DL):机器学习的分支,处理非结构化数据(如文本、图像),依赖人工神经网络。 大型语言模型 (LLMs):深度学习的应用,专注于文本数据处理。 2. 机器学习基础 核心目标:发现输入与输出之间的模式关系。 分类任务:如音乐流派分类,基于输入特征(如节奏和能量)预测输出类别。 复杂性提升:输入变量数量、类别数量的增加使模型复杂度上升,需要更强大的模型和更多数据。 3. 深度学习与神经网络 神经网络:模仿人脑结构,由多层神经元组成,能够建模高度非线性关系。 深度学习:通过多层神经网络处理复杂任务,如图像分类和情感分析。 规模化的突破:现代 LLMs(如 GPT-4)拥有数十亿到上万亿参数,能够处理极其复杂的输入输出关系。 4. 大型语言模型的核心机制 语言建模:通过预测下一词,学习语言的语法、语义和上下文关系。 训练数据:基于大量文本数据进行自监督学习,无需人工标注。 生成式 AI:通过逐词生成文本,实现自然语言生成。 5. ChatGPT 的三阶段训练 预训练:使用大规模文本数据训练模型预测下一词,掌握语言规则和世界知识。 指令微调:通过高质量的指令-响应对,训练模型理解并响应用户指令。 人类反馈强化学习 (RLHF):优化模型输出,使其更符合人类价值和偏好。 6. LLMs 的应用与能力 文本生成:通过逐词预测生成连贯的文本。 任务解决: 零样本学习 (Zero-shot):无需示例即可完成新任务。 Few-shot 学习:通过提供少量示例提升任务表现。 链式思维 (Chain-of-thought):逐步推理解决复杂问题。 幻觉问题:LLMs 有时会生成错误信息,因其训练目标并非事实准确性。 7. LLMs 的未来与局限 潜在问题:幻觉现象、知识更新滞后、对真伪信息的区分能力不足。 改进方向:通过上下文补充、搜索引擎集成(如 Bing Chat)等方法增强模型的准确性和实时性。 发展潜力:LLMs 展现了超越训练数据的新兴能力(如零样本任务),未来可能进一步接近通用人工智能。 8....

January 7, 2025 · 3 min · fisherdaddy