DeepSeek 模型发布和重大事件时间线一览
这里整理一下 DeepSeek 重大里程碑事件,部分内容参考 DeepSeek 在 HuggingFace 的官方空间。为了方便预览和美观,我做了一个网页版,大家可自行取用。 2023年7月:DeepSeek 公司成立 核心功能:致力于 AGI 功能介绍:由知名量化资管巨头幻方量化创立,其掌门人梁文锋是 DeepSeek 的创始人。 2023年11月:开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型 核心功能:DeepSeek LLM 67B Base 在推理、代码、数学和中文理解等多个领域超越了 Llama2 70B Base。 功能介绍:DeepSeek Coder 是一系列从零在包含 87% 代码和 13% 自然语言的 2T tokens 数据集上从头开始训练的代码语言模型,它旨在提升代码编写的效率和质量,MIT 许可并允许商业用途。 项目地址:https://github.com/deepseek-ai/DeepSeek-LLM 论文地址:https://arxiv.org/abs/2401.02954 论文摘要 本文深入研究了大规模语言模型(LLMs)的扩展规律,并针对两种常用的开源配置 7B 和 67B 模型,提出了独特的发现,以促进模型扩展。研究团队基于长期主义视角,推出了开源语言模型项目 DeepSeek LLM。为了支持预训练,他们构建了一个包含 2 万亿 tokens 并持续扩展的数据集。通过对 DeepSeek LLM Base 模型进行监督微调(SFT)和直接偏好优化(DPO),最终得到了 DeepSeek Chat 模型。评估结果表明,DeepSeek LLM 67B 在一系列基准测试中超越了 LLaMA-2 70B,尤其在代码、数学和推理领域表现突出。此外,开放性评估显示,DeepSeek LLM 67B Chat 的性能优于 GPT-3....