DeepSeek新模型真的要来了？(“MODEL1”曝光

更新时间：2026-01-22 06:45 来源：牛马见闻

如何看待马英九建议郑丽文，如去大陆访问，赶快练毛笔字？

江宁婆婆：辟谣一下牢A说的糖霜苹果做法，请务必考虑自己的san值谨慎阅读

加拿大皇家银行CEO：我们当前的战略中不包括中国，必须重新审视这一点

鱼肥市旺新疆“鲜”达四方

增长目标顺利实现　创新生发新鲜动能——海外人士热议全年经济数据背后的中国信心

但是具体是V4模型还是推理模型R2行业有不同的看法�DeepSeek在2024年12月推出旗舰模型V3�中国模型在Hugging Face上的下载量已超越美国�

在DeepSeek-R1发(布一周年之?际，新模型“MODEL1”的项目名在开源社区悄然出现。近日，DeepSeek官方在GitHub更新了一系列FlashMLA代码，项目文件有数十处都提到了此前未公开的“MODEL1”大模型标识符。 　　在项目中，“MODEL1”标识符与已知的现有模型 “V32”（即 DeepSeek-V3.2）被并列提及。行业认为，根据代码上下文，“MODEL1”很可能代表一个不同于现有架构的新模型。但是具体是V4模型还是推理模型R2行业有不同的看法，也有开发者认为可能是V3系列的终极版。 　　FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具，是DeepSeek模型实现低成本、高性能的关键技术之一，可以在模型架构层面减少内存占用，最大化地利用GPU硬件。 　　根据开发者的分析，“MODEL1”与 “V32”在关键技术上存在区别，主要体现在键值（KV）缓存的布局、稀疏性处理方式以及对 FP8 数据格式的解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。 　　结合目前模型文件结构来看，“MODEL1”很可能已接近训练完成或推理部署阶段，正等待最终的权重冻结和测试验证。这意味着，新模型的上线时间越来越近了。 　　“如果我们能再迎来像DeepSeek那样的突破性时刻，那将是具有里程碑意义的。”有海外博主表示。也有网友期待DeepSeek的发布速度能够更快，这对开源社区来说是个好事。 　　此前已有报道称，DeepSeek将于2月发布新一代旗舰模型DeepSeek V4，且内部初步测试表明，V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。但此次项目曝光或许也印证了传闻。 　　在近一个月里DeepSeek团队陆续发布了两篇技术论文，介绍了名为“优化残差连接（mHC）”的新训练方法，以及一种受生物学启发的 “AI记忆模块（Engram）”。业内猜测，DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。 　　DeepSeek在2024年12月推出旗舰模型V3，凭借高效的MoE架构确立了强大的综合性能基础。此后，又在2025年1月发布了推理模型R1，基于强化学习，在解决数学问题、代码编程等复杂推理任务上表现卓越。距离发布已经过去了一年，行业都在期待DeepSeek的下一代旗舰模型。 　　恰逢DeepSeek R1发布一周年，海外开源社区Hugging Face也发布了博客《“DeepSeek时刻”一周年》，回顾了中国AI力量在过去一年如何重塑全球开源生态。 　　文章指出，DeepSeek-R1是Hugging Face上获赞最多的模型。R1模型的开源不仅降低了推理技术、生产部署与心理三个门槛，更推动了国内公司在开源方向上形成非协同但高度一致的战略走向。 　　过去一年，百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入，中国模型在Hugging Face上的下载量已超越美国。尽管西方寻求替代方案，但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础，中国AI已深度嵌入全球供应链。

编辑：玛丽·切舍姆