GPT-4o 引爆全球吉卜力风格生图潮流!附10+玩法与教程

🚀 GPT-4o 原生生图能力昨天一经发布,因其效果超群引发了病毒式传播,其生成的吉卜力风格图片深受大家喜欢,我昨天翻译的(官方文档)[https://fisherdaddy.com/posts/introducing-4o-image-generation]里有大量优秀的使用案例,这里我单独整理和复现了一下,开一个帖子单独来分享其最佳的使用场景和 prompt。 玩法 1:一次性生成 10-20 个对象 prompt:一张方形图片,包含一个 4 行 3 列的网格,白色背景上放置了 12 个对象,这 12 个对象是中国属相中的 12 生效。按从左到右、从上到下的顺序排列。列表如下:1.鼠;2.牛;3.虎;4.兔;5.龙;6.蛇;7.马;8.羊;9.猴;10.鸡;11.狗;12.猪 输出结果: 玩法 2:贴纸风格转换 prompt:“把这个图片变为贴纸,使用粗白边框和透明背景。“ 输入图片: 玩法 3:吉卜力风格转换 prompt:“把这个图片转为吉卜力风格“ 输入图片: 输出结果: 玩法 4:连环画制作 prompt: 制作一个4格漫画的图像,边框周围留一些空白: 第一格:小老鼠在家里无聊极了,打电话给小牛,小老鼠问小牛“你在做什么”,小牛说“在做草莓果酱” 第二格:小老鼠又和小老虎打电话,小老鼠问小老虎“你在做什么“,小老虎说“在和弟弟一起剪纸帽子“ 第三格:小老鼠又和小兔子打电话,小老鼠问小兔子“你在做什么“,小兔子说“在做胡萝卜汤“ 第四格:小老鼠又和小羊打电话,小老鼠问小羊“你在做什么“,小兔子说“在青青草原吃草“ 输出结果: 玩法 5:古人照片变为彩色真实照片 prompt:“把这个场景变成一张照片。用数码单反相机 (DSLR) 拍摄。“ 输入图片: 输出结果: 玩法 6:小朋友的涂鸦转成彩图图 prompt:“让它变成一张色彩丰富、有童趣的卡通插画风格图像“ 输入图片: 输出结果: 玩法 7:制作海报(以教育场景为例) prompt:“创作一张关于不同种类鲸鱼的教育海报,采用活泼的水彩风格。背景设为纯白色。“ 输出结果: 玩法 8:制作彩色说明书 prompt:“制作一张色彩非常丰富的孔版印刷风格图片,展示如何用面包机制作冰激凌。“ 输出结果: 玩法 9:设计 prompt:在纯色柔和背景上生成一幅雕塑广告。在纯色柔和背景上生成一个 logo。左上角,大约向下三分之一处,用纯白色无衬线字体写着 “This is fisherdaddy”。右下角,大约向上三分之一处,用纯白色无衬线字体写着 “AIGC”。背景中放一张非常光滑、现代化的设计风格的雕塑照片。它应该从左侧的线框草图逐渐过渡到右侧完全照片写实的样子。 玩法 10:生成参考图风格的图 prompt:“参考这张图的画风,帮我画一个李白这位唐代大诗人的照片,最好能配上李白的名字” 输入图片:...

March 27, 2025 · 1 min · fisherdaddy

介绍一下 GPT-4o 的原生图像生成能力

OpenAI 于 2025年 3 月 25日发布了 GPT-4o 的原生生图能力。与以往的生成模型不同,GPT-4o 专注于生成能够有效沟通和传递信息的图像,例如标志、图表和信息图。其核心优势在于精确的文本渲染、准确理解并执行用户指令,以及充分利用 GPT-4o 的知识库和对话上下文。通过对在线图像和文本的联合分布进行训练,并结合积极的后训练,GPT-4o 具备了出色的视觉流畅性,能够生成实用、连贯且符合语境的图像。此外,GPT-4o 还支持通过自然对话进行图像优化,并能从用户上传的图像中学习,实现更智能和高效的图像生成。 实用性: GPT-4o 图像生成旨在超越装饰性应用,成为一种实用的沟通工具,适用于创建标志、图表等信息类图像。 文本渲染: GPT-4o 能够精确地在图像中渲染文本,实现有效的视觉沟通,这得益于其将精确符号与图像融合的能力。 上下文连贯性: 由于图像生成是 GPT-4o 的原生功能,用户可以通过自然对话来优化图像,并在对话上下文中保持图像的一致性,例如在设计视频游戏角色时,角色外观可以在多次迭代中保持连贯。 细节处理: GPT-4o 能够处理更复杂的提示,可以处理 10-20 个不同的对象,而其他系统通常只能处理 5-8 个对象。 情境学习: GPT-4o 可以分析和学习用户上传的图像,并将这些细节融入到图像生成过程中。 照片写实性和风格: 模型在反映各种图像风格的图像上进行训练,使其能够创建或转换具有说服力的图像。 局限性: 当前模型在编辑图像的特定部分(如错别字)时效果不佳,并且在保持面部编辑的一致性方面存在 bug,但 OpenAI 正在努力解决这些问题。 安全性: 所有生成的图像都带有 C2PA 元数据,以标识图像来自 GPT-4o,并提供透明度。OpenAI 还构建了一个内部搜索工具,以验证内容是否来自其模型。同时,系统会阻止违反内容政策的图像生成请求,并对涉及真实人物的图像施加更严格的限制。 访问和可用性: GPT-4o 图像生成功能已开始向 Plus、Pro、Team 和 Free 用户推出,作为 ChatGPT 中的默认图像生成器,Enterprise 和 Edu 用户也将很快获得访问权限。开发者也将在未来几周内通过 API 使用 GPT-4o 生成图像。生成图像可能需要长达一分钟的时间,因为模型会创建更细致的图片。 推出 4o 图像生成 通过一个原生多模态模型解锁实用且有价值的图像生成,该模型能够产出精确、准确、照片般真实的输出。 在 OpenAI,我们一直认为图像生成应成为我们语言模型的一项主要能力。因此,我们将我们迄今为止最先进的图像生成器内置到了 GPT-4o 中。其结果是——图像生成不仅美观,而且实用。...

March 26, 2025 · 7 min · fisherdaddy

介绍一下 OpenAI 最新的音频模型:gpt-4o-mini-tts 与 gpt-4o/4o-mini-transcribe

OpenAI 于 2025年 3 月 20日 发布新一代语音转文本模型和文本转语音模型,这些新模型包括语音转文本 (speech-to-text) 和文本转语音 (text-to-speech) 模型,它们在性能、准确性和可定制性方面均有显著提升,为构建更自然、更有效的语音交互应用提供了有力支持。特别是,新的语音转文本模型在准确性和可靠性方面达到了新的行业标杆,尤其在处理口音、噪音环境和不同语速等复杂场景时表现更佳。同时,文本转语音模型首次允许开发者指导模型以特定的方式说话,从而实现更高程度的个性化和更丰富的应用场景。 新一代语音转文本模型: 推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型,相较于原有的 Whisper 模型,在词错误率 (Word Error Rate, WER) 上有显著改进,语言识别和准确性更高。在 FLEURS 基准测试中,这些新模型在多种语言上都展现出更低的 WER,表明其转录准确性和多语言覆盖能力更强。 新一代文本转语音模型: 推出了 gpt-4o-mini-tts 模型,该模型最大的亮点是其可指导性 (steerability),开发者可以指示模型不仅说什么,还可以指定 如何 说,例如模仿 “富有同情心的客服人员” 的语气。这为客户服务、创意故事叙述等应用场景带来了更丰富的可能性。 技术创新: 这些模型的性能提升得益于多项技术创新,包括: 使用真实的音频数据集进行预训练 (Pretraining with authentic audio datasets): 模型基于 GPT‑4o 和 GPT‑4o-mini 架构,并在专门的音频数据集上进行了广泛的预训练,从而更深入地理解语音的细微差别。 先进的知识蒸馏方法 (Advanced distillation methodologies): 通过增强的知识蒸馏技术,将大型音频模型的知识转移到更小、更高效的模型中,利用自博弈 (self-play) 方法捕捉真实的对话动态。 强化学习范式 (Reinforcement learning paradigm): 语音转文本模型集成了强化学习,显著提高了转录的准确性,降低了幻觉 (hallucination),使其在复杂的语音识别场景中更具竞争力。 API 可用性: 这些新的音频模型已在 API 中向所有开发者开放,并与 Agents SDK 集成,方便开发者构建语音助手应用。对于需要低延迟语音对话的应用,推荐使用 Realtime API 中的 speech-to-speech 模型。 未来展望: 未来将继续投入于提升音频模型的智能性和准确性,探索允许开发者使用自定义声音的方法,并拓展到视频等多模态领域。同时,将继续与政策制定者、研究人员等就合成语音的挑战和机遇进行对话。 原文:在 API 中引入下一代音频模型 我们推出了一系列全新的音频模型,为语音 AI 智能体 (AI Agent) 提供强大支持,现在全球开发者均可使用。...

March 21, 2025 · 3 min · fisherdaddy

OpenAI 官方指南:用于构建 AI Agent 的新工具

2025 年 3 月 12 日,OpenAI 发布了一系列新的 API 和工具,旨在简化开发者和企业构建实用且可靠的 “生成式 AI 产品” 代理(agents)。 Responses API Responses API 是构建 “生成式 AI 产品” 代理的新 API 原语,它结合了 Chat Completions API 的简洁性和 Assistants API 的工具使用能力。通过单个 Responses API 调用,开发者可以使用多种工具和模型轮次来解决复杂的任务。 Responses API 初始支持的内置工具包括: 网页搜索:使用 gpt-4o 和 gpt-4o-mini 模型时可用的工具,可以提供快速、最新的答案,并带有清晰且相关的来源引用。在 SimpleQA 基准测试中,GPT-4o 搜索预览和 GPT-4o mini 搜索预览分别获得了 90% 和 88% 的准确率。网页搜索 API 返回的结果包含来源链接。 文件搜索:可以从大量文档中轻松检索相关信息,支持多种文件类型、查询优化、元数据过滤和自定义重排序。定价为每千次查询 2.50 美元,文件存储为每月每 GB 0.10 美元,首 GB 免费。 计算机使用:由与 Operator 相同的 Computer-Using Agent (CUA) 模型驱动,可以自动化计算机上的任务。在 OSWorld 基准测试中,成功率为 38....

March 12, 2025 · 4 min · fisherdaddy

OpenAI官方指南:推理模型最佳实践

本文由 OpenAI 官方文档 翻译而来,介绍了推理模型 (reasoning models) 和 GPT 模型 (GPT models) 的区别,以及何时使用推理模型 (reasoning models)。 OpenAI 提供两种类型的模型:推理模型 (reasoning models),例如 o1 和 o3-mini,以及 GPT 模型 (GPT models),例如 GPT-4o。这两类模型的行为特性有所不同。 本指南将介绍: OpenAI 的推理型模型和非推理型 GPT 模型之间的差异 何时应该使用推理模型 (reasoning models) 如何有效地提示推理模型 (reasoning models) 推理模型与 GPT 模型对比 与 GPT 模型 (GPT models) 相比,OpenAI 的 o 系列模型在不同任务上各有优势,并且需要的提示方式也不同。 它们之间不存在绝对的优劣之分,只是擅长的领域不同。 OpenAI 训练 o 系列模型(可以称它们为“规划者”)能够花费更多时间和精力思考复杂的任务,使它们在以下方面表现出色:制定战略、规划复杂问题的解决方案、以及基于大量模糊信息做出决策。 这些模型还能以极高的精度和准确性执行任务,非常适合那些通常需要人类专家才能胜任的领域,例如数学、科学、工程、金融和法律服务。 另一方面,低延迟、高性价比的 GPT 模型 (GPT models)(可以称它们为“主力”)则专为直接执行任务而设计。 在实际应用中,可以利用 o 系列模型来规划解决问题的总体策略,然后使用 GPT 模型 (GPT models) 执行具体任务,尤其是在对速度和成本的考量高于对完美准确性的追求时。 如何选择 对于你的应用场景,什么才是最重要的?...

February 14, 2025 · 3 min · fisherdaddy

介绍一下 OpenAI Deep Research

OpenAI 于 2025 年 2 月 2 日发布了 ChatGPT 的一项新功能,名为 Deep Research。这项功能旨在作为一个智能代理,通过推理能力综合大量的在线信息,并为用户完成多步骤的研究任务。 Deep Research 能够在数十分钟内完成人类分析师需要数小时才能完成的工作,极大地提高了知识工作者和需要深入研究的用户的效率。它基于即将推出的 OpenAI o3 模型,并针对网页浏览和数据分析进行了优化。 Deep Research 的目标是能够自主发现、推理和整合来自网络各处的见解,最终朝着实现通用人工智能 (AGI) 的目标迈进。 关键细节 可用性: 于 2025 年 2 月 2 日面向 ChatGPT Pro 用户推出,Plus 和 Team 用户将在一个月后获得访问权限。 核心能力: Deep Research 能够根据用户提出的问题,自主地在互联网上查找、分析和综合数百个在线资源,生成一份全面的研究报告。它能够处理文本、图像和 PDF 文件,并根据遇到的信息动态调整研究方向。 技术基础: Deep Research 由 OpenAI o3 模型的某个版本驱动,该模型专为网页浏览和数据分析而优化。其训练方法与 OpenAI o1 类似,使用了强化学习,使其具备强大的推理能力和工具使用能力(如浏览器和 Python 工具)。 应用场景: Deep Research 适用于金融、科学、政策和工程等领域的知识工作者,以及需要对汽车、家电和家具等产品进行深入研究的消费者。 输出特点: Deep Research 的输出结果是完全可追溯的,包含清晰的引用和思维过程总结,方便用户验证信息。它尤其擅长发现那些需要浏览大量网站才能找到的小众和非直观信息。 使用方法: 用户在 ChatGPT 的消息编辑器中选择 “deep research” 模式并输入查询。可以附加文件或电子表格以提供更多背景信息。研究过程会在侧边栏显示步骤和来源。 完成时间: Deep Research 完成任务可能需要 5 到 30 分钟。 性能评估: 在 “Humanity’s Last Exam” (人类最后一次考试) 基准测试中,驱动 Deep Research 的模型取得了 26....

February 3, 2025 · 4 min · fisherdaddy

介绍一下 OpenAI o3-mini

2025年1月31日 OpenAI 推出了 o3-mini 模型,这是 OpenAI 推理系列中最新且最具成本效益的模型,现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的 预告 中首次亮相,它强大而快速,突破了小型模型的能力极限,在科学、数学和编程等 STEM 领域表现尤为出色,同时还保持了 OpenAI o1-mini 的低成本和低延迟。 开发者支持 支持函数调用、结构化输出和开发者消息 支持流式传输 支持低、中、高三种推理强度选项 不支持视觉功能,对于视觉推理任务仍然需要使用 o1 向 API 使用等级 3-5 的开发者开放 可用性 ChatGPT Plus、Team 和 Pro 用户今天就可以开始使用 OpenAI o3-mini,企业用户将在 一周后获得访问权限。 Plus 和 Team 用户的消息配额从 o1-mini 的每天 50 条提升至 o3-mini 的每天 150 条。而 Pro 用户 可以无限制使用。 免费用户也可使用 o3-mini ,但需要在消息编辑框中选择“Reason”按钮。 o3-mini 支持搜索功能 o1 是更通用的知识推理模型,而 o3-mini 为那些对精度和速度有较高要求的技术领域提供了一个专门的选择。 在 ChatGPT 中,o3-mini 使用中等推理强度,以平衡速度和准确性。所有付费用户还可以在模型选择器中选择 o3-mini-high,这是一个更高智能的版本,但生成响应所需的时间稍长。 能力水平 与 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。 在低推理需求下,OpenAI o3-mini 的表现与 OpenAI o1-mini 相当。 在中等推理强度下,o3-mini 在数学、编程和科学方面的表现与 o1 持平,同时响应速度更快。 在高推理需求下,o3-mini 优于 OpenAI o1-mini 和 OpenAI o1。 原文 探索更具性价比的推理能力 我们很高兴地宣布推出 OpenAI o3-mini,这是我们推理系列中最新且最具成本效益的模型,现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的 预告 中首次亮相,它强大而快速,突破了小型模型的能力极限,在科学、数学和编程等 STEM 领域表现尤为出色,同时还保持了 OpenAI o1-mini 的低成本和低延迟。...

February 1, 2025 · 4 min · fisherdaddy

介绍一下 OpenAI Operator

OpenAI 发布了名为 Operator 的研究预览版智能代理,它能够使用自己的浏览器为用户执行任务。Operator 旨在通过模拟人类在浏览器上的操作(如打字、点击和滚动)来完成各种重复性任务,从而扩展 AI 的实用性,帮助用户节省时间和为企业创造新的互动机会。 技术原理 Operator 由名为 Computer-Using Agent (CUA) 的新模型驱动。CUA 结合了 GPT-4o 的视觉能力和通过强化学习获得的先进推理能力,使其能够与图形用户界面 (GUI) 进行交互。Operator 可以“看到”(通过屏幕截图)和“交互”(使用鼠标和键盘的所有操作)浏览器,无需自定义 API 集成即可在 Web 上执行操作。 应用场景与合作 Operator 可以处理各种浏览器任务,例如填写表格、订购杂货甚至创建 memes。OpenAI 正在与 DoorDash 、 Instacart 、 OpenTable 、 Priceline 、 StubHub 、 Thumbtack 、 Uber 等公司合作,以确保 Operator 满足现实世界的需求。此外,Operator 在公共部门应用中也具有潜力,例如与 Stockton 市合作,简化市民参与城市服务和计划的流程。 功能与特点 自主操作: Operator 是一个智能代理,用户只需给出任务,它就能独立执行。 广泛的任务处理: 能够处理各种重复性浏览器任务,例如填写表格、订购杂货等。 人机协作: 当遇到挑战或错误时,Operator 能够自我纠正;当遇到困难时,会将控制权交还给用户。 个性化定制: 用户可以通过添加自定义指令来个性化工作流程,并保存常用提示以便快速访问。 多任务处理: 用户可以同时运行多个任务,类似于在浏览器中使用多个标签页。 安全与隐私保障 多层安全防护: Operator 具有三层安全措施,以防止滥用并确保用户始终处于控制之下,包括接管模式、用户确认和任务限制。 数据隐私管理: 用户可以通过 ChatGPT 设置选择退出模型训练,并一键删除所有浏览数据和对话记录。 对抗性网站防御: Operator 具备检测和忽略提示注入、监控可疑行为以及快速更新安全措施的能力,以防御恶意网站的攻击。 局限性与未来展望 研究预览阶段: Operator 仍处于早期研究预览阶段,可能存在错误,尤其是在处理复杂界面时。 持续改进: OpenAI 将根据用户反馈不断改进 Operator 的准确性、可靠性和安全性。 API 开放与功能增强: 未来计划将 CUA 模型通过 API 开放给开发者,并增强 Operator 处理更长、更复杂工作流程的能力。 扩大用户范围: 计划将 Operator 扩展到 Plus 、 Team 和 Enterprise 用户,并将其功能集成到 ChatGPT 中。 合作机构与用户评价 合作机构: DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber, City of Stockton 等。 用户评价: Instacart 首席产品官 Daniel Danker 认为 Operator 是一个技术突破,使订购杂货等流程变得非常容易。Stockton 市信息技术主管 Jamil Niazi 认为 AI 可以使公民参与变得更加容易。 原文 2025 年 1 月 23 日...

January 24, 2025 · 4 min · fisherdaddy

介绍一下 OpenAI 推出的 SimpleQA

SimpleQA 是一个新的基准测试,旨在评估语言模型在回答简短、事实性问题时的准确性。该基准测试的核心目标是减少模型产生“幻觉”(即无根据的错误答案)的现象,并提升模型的可信度。SimpleQA 专注于简短的事实查询,确保问题有单一、不可争议的答案,从而使得评估模型的事实性表现更加可行。通过该基准,研究人员可以更好地衡量语言模型的准确性、校准性及其在不同问题类别中的表现。 SimpleQA 的特点: 高正确性:所有问题的参考答案由两名独立的 AI 训练师提供,并且这些问题经过严格筛选,以确保答案易于评分。 多样性:涵盖广泛主题,包括科学、技术、历史、音乐、视频游戏等多个领域。 挑战性:相比于老旧的基准(如 TriviaQA 和 NQ),SimpleQA 对前沿模型(如 GPT-4o)更具挑战性。 研究友好:由于问题简洁,SimpleQA 的运行速度快,评分效率高。 数据集构建: 问题由 AI 训练师从网上搜集,确保每个问题有单一、不可争议的答案。 为确保质量,问题经过三轮验证,最终的错误率约为 3%。 模型评估方法: 使用 ChatGPT 分类器对模型的答案进行评分,分为“正确”、“错误”和“未尝试”三类。 测试表明,较大的模型(如 GPT-4o 和 o1-preview)比较小的模型(如 GPT-4o-mini 和 o1-mini)表现更好,且后者更倾向于“未尝试”问题,表明它们可能更擅长判断何时不确定答案。 模型校准性: 校准性指模型对其回答的自信程度是否与实际准确性一致。SimpleQA 提供了两种方法来测量模型的校准性:一是通过模型自述的信心百分比,二是通过模型多次回答同一问题的频率。 结果显示,较大的模型(如 o1-preview 和 GPT-4o)在校准性上表现更好,但模型普遍倾向于过高估计其自信度。 结论与局限性: SimpleQA 是一个简洁但具有挑战性的基准,专注于短、事实性问题。然而,它的局限性在于仅测量简短回答的事实性,尚不清楚这是否与模型生成长篇、多事实回答的能力相关。 介绍一下 SimpleQA 2024 年 10 月 30 日 SimpleQA 是一个衡量语言模型回答简短、寻求事实的问题的能力的基准工具。 在人工智能领域中,一个未解决的问题是如何训练模型,使其生成的回答更加符合事实。当前的语言模型有时会产生错误的输出,或提供没有证据支撑的回答,这种现象被称为“幻觉”。生成更为准确、幻觉更少的语言模型可以增加可信度,并能够应用于更广泛的领域。为此,我们 开源了⁠(新窗口打开)一个名为 SimpleQA 的新基准工具,以衡量语言模型的事实性。 关于 SimpleQA 基准 事实性是一个复杂的话题,因为其评估难度很大——评价任意声明的真实度颇具挑战性,而语言模型可能会生成包含大量事实性信息的长篇回答。在 SimpleQA 中,我们专注于简短的、寻求事实的查询,尽管这缩小了评估范围,但使得衡量事实性变得更为可行。 我们创建 SimpleQA 数据集的目标是实现以下特性: 高准确性。 所有问题的参考答案均有两位独立 AI 训练师提供支持,问题设计也便于答案的评分。...

October 31, 2024 · 1 min · fisherdaddy

OpenAI 产品发布时间线一览

这里整理一下 OpenAI 发布的一系列重大里程碑产品和事件,部分内容参考 OpenAI Release Notes。为了方便预览和美观,我做了一个网页版,大家可自行取用。 2015年12月:OpenAI 成立 核心功能:创建人工智能,造福全人类 功能介绍:OpenAI的成立标志着人工智能研究的开端,致力于确保先进AI技术的安全和普及。 2016年4月:OpenAI Gym 发布 核心功能:强化学习训练平台 功能介绍:提供了一套工具用于开发和比较强化学习算法,促进了AI社区的算法研究。 2016年12月:Universe 发布 核心功能:通用AI开发与测试平台 功能介绍:支持AI在各种环境中进行训练和测试,拓展了强化学习的应用领域。 2018年6月:GPT-1 发布 核心功能:自然语言生成模型 功能介绍:首个将Transformer与无监督预训练相结合的模型,开启了大规模语言模型的探索。 2019年2月:GPT-2 发布 核心功能:文本生成 功能介绍:拥有15亿参数的语言模型,展示了在文本生成上的强大表现。 2020年6月:GPT-3 发布 核心功能:自然语言处理 功能介绍:GPT-3参数量达1750亿,显著提升了自然语言理解和生成能力。 2021年1月:DALL·E 发布 核心功能:图像生成 功能介绍:通过文本描述生成图像,拓展了生成模型的应用场景。 2021年8月:Codex 发布 核心功能:自然语言转代码 功能介绍:支持代码自动生成,成为GitHub Copilot的核心技术。 2022年4月:DALL·E 2 发布 核心功能:高分辨率图像生成 功能介绍:生成的图像更细致,支持更高的分辨率。 2022年9月:Whisper 发布 核心功能:语音识别 功能介绍:多语言语音识别模型,接近人类的识别水平。 2022年11月30日:ChatGPT 核心功能:基于 GPT-3.5 的 ChatGPT 网页版 功能介绍:能够进行自然语言交互,回答任意问题的 AI 助手 2023年1月27日: ChatGPT Plus订阅服务推出 核心功能:付费订阅版ChatGPT,收费为每月20美元 功能介绍:提供更快的响应速度、高峰时段优先访问、优先使用新功能和改进等额外功能 2023年3月14日:GPT-4 发布 核心功能:多模态大模型 功能介绍:支持图像输入,其理解力和生成能力大幅提升 2023年3月24日:ChatGPT Plugins 推出 核心功能:对第三方插件的支持 功能介绍:ChatGPT Plugins是进一步生态变革的开端,基于ChatGPT的改进包括:能够访问互联网实时数据、创建并编译代码、调用和创建第三方程序等等 2023年5月18日:ChatGPT iOS 版发布 核心功能:iOS 版的 ChatGPT 功能介绍:iOS 版的 ChatGPT 2024年7月25日:ChatGPT Android 版发布 核心功能:Android 版的 ChatGPT 功能介绍:Android 版的 ChatGPT 2023年8月29日:ChatGPT Enterprise 版发布 核心功能: 面向企业的ChatGPT版本 功能介绍: 提供企业级安全和数据隐私保护,提供无限速的GPT-4访问权限,支持32K上下文输入,高级数据分析功能,自定义选项等所有高级功能 2023年9月26日:GPT-4V (Vision) 发布 核心功能:GPT-4 的视觉增强版本 功能介绍:它具有更强大的图像处理能力,可以执行更复杂的视觉分析任务,如详细的场景描述、物体识别、视觉推理等 2023年11月6日:GPT-4 Turbo、DALL·E 3、GPTs 发布 核心功能:增强版GPT-4 功能介绍:融合了文本和视觉能力的大模型 2024年2月15日:Sora 预告 核心功能:文本到视频生成AI 功能介绍:首个视频生成模型,能够生成长达一分钟的高清视频,同时保持视觉品质并遵循用户提示。 2024年5月14日:GPT-4o 发布 核心功能:GPT-4o的"o"代表"omni",意为"全能" 功能介绍:GPT-4o 是迈向更自然人机交互的一步,支持文本、音频和图像的多模态输入,提升了人机交互的自然性。 2024年6月26日:Mac 版ChatGPT 发布 核心功能:Mac 版 ChatGPT 功能介绍:Mac 版 ChatGPT 2024年7月18日:GPT-4o-mini 发布 核心功能:相当于是能力更强的"GPT-3....

October 14, 2024 · 2 min · fisherdaddy