2025年 1 月 20 号 DeepSeek 因开源了 o1 级别的深度推理模型 DeepSeek-R1 而在全球爆火,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,甚至一度让英伟达的股价暴跌 17%,核心原因有两点:

  1. 模型权重技术细节完全公开,可复现;
  2. R1 的能力水平与 OpenAI 的 o1 相媲美,但通过创新算法和优化训练流程其成本仅为o1的3%-5%,训练成本仅为560万美元。

DeepSeek R1 的发布引爆了硅谷,在其发布一周后,微软云 Azure、亚马逊云 AWS、NVIDIA NIM、HuggingFace、Ceberus、Groq、Perplexity、Cursor、Windsurf、Krea 等各云厂商和 AI 产品陆续部署或接入 DeepSeek R1 和 V3 模型。更引来一众大佬的点评,有的大为赞赏,有的阴阳怪气,如

  1. OpenAI CEO Sam Altman 表示"DeepSeek 的 R1 模型令人印象深刻,尤其考虑到其定价和性能表现。我们显然会推出更优秀的模型,而且看到新的竞争者加入也真的令人鼓舞!我们将很快发布一些新成果。",果然在 2025年1 月 31 号 OpenAI o3-mini 发布了。
  2. OpenAI 高级研究副总裁 Mark Chen 表示“DeepSeek R1 论文中的发现和 o1有着相似的核心思想”。
  3. Anthropic CEO Dario Amodei 发布长文表示“DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破。尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性”。
  4. Groq 联合创始人兼 CEO Jonathan Ross 表示:“DeepSeek 的出现被认为是 AI 领域的 “Sputnik 2.0” 事件(1957年苏联发射Sputnik 1,震惊美国,促使 NASA 成立并推动阿波罗登月计划),标志着中国在生成式 AI 产品领域取得了重大突破,其模型在效率和性能上都对西方模型构成了挑战。这预示着全球 AI 竞争格局的重大变化。”。
  5. Meta 首席人工智能科学家,图灵奖得住 Yann LeCun 表示:“开源模型正在超越闭源模型“。
  6. 硅谷知名风险投资家多次在社交媒体上慷慨陈词,称 DeepSeek R1 为 “AI 的 Sputnik 时刻”,寓意这一突破性模型就像 1957 年苏联发射卫星那般震撼,预示着整个行业格局可能被彻底改写。
  7. 英伟达高级研究科学家 Jim Fan 表示“我们正处于一个奇特的时间线上——一家非美国公司正在践行 OpenAI 最初的使命,通过真正开放的前沿研究赋能全人类。”
  8. Perplexity CEO Aravind Srinivas 表示“DeepSeek 才配叫做 OpenAI”
  9. Scale AI 创始人 Alexander Wang 表示“DeepSeek 的 R1 模型是“在我们的测试里,它表现得与美国最好的模型相当”。
  10. Coursera 和 Deep 创始人 Andrew Ng 表示“中国在生成式 AI 领域正快速缩小与美国的差距”。
  11. 微软 CEO Satya Nadella 指出“我们应非常认真地看待来自中国的这一进展”

从以上评价可以看出 DeepSeek R1 发布的重大意义。很多人可能比较好奇,一家中国的小型创业公司,为什么能做出如此重大的突破?下面我们来揭秘一下幻方量化、DeepSeek 以及其创始人梁文锋。以下内容整理自互联网,同时参考了暗涌在 2023 年 5 月《疯狂的幻方:一家隐形AI巨头的大模型之路》和 2024 年 7 月份《揭秘DeepSeek:一个更极致的中国技术理想主义故事》对梁文锋的采访。

幻方量化:量化投资的创新实践者

幻方量化不仅是中国领先的量化对冲基金之一,其背后还有一支由顶尖人才组成的创始团队。该团队的核心成员来自浙江大学,他们在2007-2008年全球金融危机期间便开始思考如何用数学和计算机科学来应对金融市场的不确定性。这种早期的探索精神为后来的技术突破和商业化运作奠定了基础。

公司的创始团队最早可追溯至2008年,当时他们尚在读研究生,一群对数学和计算机科学充满热情的同学开始探索如何利用机器学习和数据分析应对金融市场的波动。这段探索经历不仅让他们认识到量化交易的巨大潜力,也为后来从理论到实战的转变奠定了坚实基础。

2015年,幻方量化正式以杭州幻方科技有限公司(后更名为浙江九章资产管理有限公司)成立,标志着团队由早期的探索走向商业化运作。从成立之初,幻方就明确了依托数学、计算机科学和人工智能技术进行全自动量化交易的战略定位。2016年,团队迎来了关键的“0到1”突破:在10月21日,他们成功上线了第一份由深度学习算法生成的交易仓位,正式将研发成果投入到实盘交易中。这不仅验证了团队的技术路线,也为幻方量化赢得了市场初步认可。

成立后不久,幻方量化凭借出色的交易策略和严谨的风控体系迅速获得了市场认可。公司不断投入资源升级技术平台:

  • “萤火一号”:早期的AI训练平台,总投资近2亿元人民币,搭载约1100块GPU,为量化交易策略的研发提供了初步的算力支持,2020 年正式投入使用;
  • “萤火二号”:在 2021 年,幻方量化进一步打造了更大规模的算力平台,通过任务级分时共享和自研分布式系统,实现了算力的大幅扩容,系统性能达到“萤火一号”的18倍。

这些平台的建设,使得幻方不仅能够处理海量数据,还能实时优化和验证交易模型,从而在竞争激烈的量化投资领域脱颖而出。与此同时,团队也不断优化数据采集和处理能力,累计的数据量已超过10PB,为策略研发提供了坚实的数据支撑。

当国内云厂商高性能 GPU 芯片缺货成为限制中国生成式AI诞生的最直接因素时,据《财经十一人》报道,国内拥有超过1万枚GPU的企业不超过5家。而除几家头部大厂外,还包括一家名为幻方的量化基金公司。通常认为,1万枚英伟达A100芯片是做自训大模型的算力门槛。2019年,幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100块GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。

2021年,成立仅六年的幻方,抵达千亿规模,并被称为“量化四大天王”之一。

关于幻方的成长奥秘,幻方内部将之归结为“选用了一批没有经验但有潜能的人,以及有一个可以让创新发生的组织架构和企业文化”,他们认为这也将是大模型创业公司可以与大厂竞争的秘密所在。

DeepSeek:开源 AI 革命的推动者

2023年 5 月,幻方把下场做大模型的独立新组织,命名为“深度求索”,由知名量化对冲基金 高飞资本(High-Flyer)提供资金支持,并由梁文锋亲自创立与担任 CEO,并强调将专注于做真正人类级别的人工智能。他们的目标,不只是复刻ChatGPT,还要去研究和揭秘通用人工智能(AGI)的更多未知之谜。不仅如此,在这个被认为格外依赖稀缺人才的赛道,幻方还试图去集结一批有执念的人,并祭出了他们认为的最大武器:一群人的好奇心。

在成立之初,DeepSeek 就确定了以开发开源大型语言模型(LLM)为核心目标。不同于传统依赖巨额资金投入购买最先进硬件的模式,DeepSeek 采用了一系列创新的工程优化手段,如多头潜在注意力(MLA)和专家混合模型(MoE)等,不仅大幅降低了训练成本(据称仅为 560 万美元左右),同时在数学、代码和自然语言推理等多项基准测试上表现与西方顶级模型相当甚至更优。

2025 年初,DeepSeek 发布的 R1 模型迅速引发国际关注,其免费聊天机器人应用在美国和其他国家的 iOS 应用商店下载量超过 ChatGPT,甚至一度导致 Nvidia 股票大幅下跌(跌幅高达 17%),引起全球科技股市震荡。这一“史普尼克时刻”不仅质疑了美国在 AI 基础设施上数十亿美元投入的合理性,也为中国企业提供了一种全新低成本高效率研发路径的可能性。

梁文锋:一个技术理想主义者

梁文锋,1985 年出生于广东湛江的一个普通家庭,其父母均为小学教师。从小展现出对数学和技术的浓厚兴趣,2022 年 17 岁时凭借优异成绩考入浙江大学电子信息工程专业,2007 年考上浙江大学信息与通信工程专业研究生,师从项志宇,主要做机器视觉研究。,并在 2010 年获得信息与通信工程硕士学位。在校期间,他不仅系统学习了工程技术知识,还敏锐捕捉到了全球金融危机背景下量化投资与机器学习的巨大潜力。

毕业后,梁文锋迅速投身金融领域,并于 2013 年与同学创立了杭州雅克比投资管理有限公司,随后又成立了杭州幻方科技有限公司。这些经历让他在量化投资领域积累了丰富的经验和技术积淀。在 2016 年,他与团队借助数学和 AI 技术,开始探索全自动量化交易,奠定了日后利用大规模计算资源来训练 AI 模型的基础。
进入 2021 年,梁文锋开始大量采购 Nvidia GPU,为未来 AI 研发储备算力。据报道,他曾在美方出口管制生效前囤积了约 10,000 张 A100 芯片。这一战略布局最终促成了 2023 年 DeepSeek 的成立,标志着梁文锋从金融量化领域向 AI 前沿技术跨界转型的重大一步。

梁文锋对 AI 的热情更多出于对基础科学和技术创新的追求,而非短期商业利益。他在接受采访时曾表示,“我创办 DeepSeek 并不是为了短期盈利,而是为了推动技术边界,解决人类面临的最难问题”。这一开放、共享、专注于长远目标的理念,也使得 DeepSeek 在行业内独树一帜。同时,梁文锋非常重视团队建设,他倾向于招聘应届毕业生和具有强烈求知欲的年轻人才,通过营造宽松且富有创新精神的研发环境,激发出更多颠覆性创意。