最强开源大模型除夕登]场!397B参数千问3.5超越Gemini 3

  更新时间:2026-02-17 02:05   来源:牛马见闻

吉报头条
重要新闻
国内新闻
国际新闻
图片精选

让千问3.让千问3.com/s/xasS3qkNcr8ZwaYWob1KRA 千问3.

<p></p> <blockquote id="4ASV3011">西风 鹭羽 发自 凹非寺<br>量子位 | 公!众号 QbitAI<br> </blockquote> <p id="4ASV2VT0">我滴妈,最卷AI大?模型,今年除夕又上新了!</p> <p id="4ASV2VT1">刚刚,<strong>阿里全新一代大模型Qwen3.5-Plus重磅开源发布</strong>,直接登顶<strong>最强开源模型</strong>宝座。</p> <p class="f_center"><br><br></p> <p id="4ASV2VT3">这一次,“源”神标杆再次被千问拔到了一个新高度:</p> <p id="4ASV2VT4">不仅性能全面领先同级开源模型,更是媲美Gemini-3-Pro、GPT-5.2等顶级闭源模型,多项基准测试甚至直接反超。</p> <p id="4ASV2VT5">更炸裂的是,Qwen3.5-Plus<strong>总参数只有3970亿,激活仅需170亿,性能却比万亿参数的Qwen3-Max还要强</strong></p> <p id="4ASV2VT6">直观对比还包括——</p> <p id="4ASV2VT7">部署显存占用降低60%,最大推理吞吐量可提升至19倍,也就是说部署成本,以及推理效率双双实现大幅优化。</p> <p id="4ASV2VT8">这波“以小胜大”的史诗级PK,千问做到了。</p> <p class="f_center"><br><br></p> <p id="4ASV2VTA">重点还没说完,千问这次直接把技术红利释放给用户,直接让SOTA级模型做到了平民价。</p> <p id="4ASV2VTB">阿里云百炼这次给千问3.5 API的定价极具竞争力:<strong>百万Tokens输入低至0.8元,相当于同级别模型Gemini-3-pro的1/18</strong></p> <p id="4ASV2VTC">并且,千问3.5首次实现<strong>201种语言</strong>的全覆盖,词表规模从150k大幅扩充至250k,小语种编码效率最高提升60%,真正让顶尖大模型走向全球用户。</p> <p id="4ASV2VTD">截至目前,普通用户只需<strong>登录千问APP或PC端</strong>,即可免费体验千问3.5模型;开发者们也可前往魔搭社区或HuggingFace,第一时间下载部署这款最强开源力作。</p> <p class="f_center"><br><br></p> <p id="4ASV2VTF">据悉,<strong>千问3.5还只是阿里春节档的第一弹</strong></p> <p id="4ASV2VTG">接下来几天,他们将继续开源多款千问3.5模型,可部署在本地、端侧等不同场景,无论是开发者还是中小企业,通通都能用上。</p> <p id="4ASV2VTH">旗舰版Qwen3.5-Max也将在年后压轴登场。</p> <p id="4ASV2VTI">u1s1,DeepSeek之后,中国开源模型的“疯狂二月”太顶了。</p> <p class="f_center"><br><br></p> <p></p> <h5>多项能力超越Gemini 3、GPT-5.2,视觉能力横扫权威基准</h5> <p id="4ASV2VTK">话不多说,千问3.5有多强,我们先来看基准测试结果。</p> <p id="4ASV2VTL">在推理、编程、智能体等核心维度上,千问3.5能够以不到40%的参数量比肩国际一流梯队。</p> <p id="4ASV2VTM">比如,在考核综合认知能力的<strong>MMLU-Pro测试中,千问3.5得分87.8分,超过GPT-5.2</strong></p> <p id="4ASV2VTN">在目前公认难度最高的博士级科学推理评测基准<strong>GPQA上,更是一举斩获88.4分,比以严谨逻辑著称的Claude 4.5还要高</strong></p> <p id="4ASV2VTO">这就意味着千问3.5同时兼具推理广度与深度,不仅具备极强的知识迁移能力,还在底层逻辑上实现了突破。</p> <p id="4ASV2VTP">在指令遵循方面,千问3.5表现同样亮眼。它<strong>以76.5分的成绩领跑IFBench榜单</strong>,刷新了该项指标的最高纪录。</p> <p id="4ASV2VTQ">除此之外,千问3.5在<strong>Agent能力</strong>上也是全面发力。无论是考察通用能力的BFCL-V4,还是侧重搜索能力的Browsecomp,其评分均全面超越Gemini-3-Pro,展现出优秀的Agent协同能力。</p> <p id="4ASV2VTR">综合来看,相比前几代的千问模型,千问3.5在性能上更全面,不仅多维度无短板,更重要的是,能够落地实用。</p> <p class="f_center"><br><br></p> <p id="4ASV2VTT">之所以能够实现这种代际跃迁,关键在于它的“眼睛”。</p> <p id="4ASV2VTU">与上一代的纯文本模型千问3不同,千问3.5从预训练第一天起,就是在视觉和文本的混合Token数据上进行的,而且数据量也从原先的36T Tokens进一步提升。</p> <p id="4ASV2VTV">同时新增中英文、多语言、STEM和推理等数据,让千问3.5真正睁眼看世界,拥有了整合复杂世界知识和逻辑推理的<strong>原生多模态理解能力</strong></p> <p id="4ASV2VU0">这一核心能力的进化,在MathVison(多模态推理)、RealWorldQA(通用视觉问答)、CC_OCR(文本识别)、RefCOCO-avg(空间智能)、MLVU(视频理解)等多模态主流评测中得到了有力印证:</p> <p id="4ASV2VU1">千问3.5几乎横扫了所有指标,刷新开源大模型多模态天花板。</p> <p id="4ASV2VU2">其中,在学科解题、任务规划与物理空间推理等高难度场景上,千问3.5也表现出<strong>超越专项模型Qwen3-VL</strong>的综合素养。</p> <p id="4ASV2VU3">众所周知,Qwen3-VL是千问团队推出的旗舰级多模态视觉语言模型,主打超长上下文、强视觉推理、视频理解与视觉Agent能力。</p> <p id="4ASV2VU4">但作为综合模型的千问3.5,其空间定位和图文推理能力得到显著增强,尤其是在处理复杂视觉信息时,Qwen3.5会比Qwen3-VL推理逻辑更严谨,输出结果也更可靠。</p> <p class="f_center"><br><br></p> <p id="4ASV2VU6">千问3.5还突破了传统大模型的视频处理边界:<strong>支持长达2小时的超长视频直接输入</strong>,配合1M Tokens原生上下文,能够轻松应对长视频内容的精准分析与一键摘要。</p> <p id="4ASV2VU7">换言之,无论是情节丰富的影视巨作还是专业的深度讲座,千问3.5都能捕捉到每一处关键细节。</p> <p id="4ASV2VU8">同时,千问3.5还<strong>打通了视觉理解和代码逻辑的原生融合</strong>,让视觉内容能够直接转化为技术产出。</p> <p id="4ASV2VU9">过去要开发一个界面,往往需要经过“原型设计→修改成稿→转译代码”的一系列过程,而千问3.5能够瞬间<strong>将手绘界面草图重构为高质量前端代码</strong>,并支持通过单张截图定位并修复UI缺陷,做到“所见即所得”。</p> <p id="4ASV2VUA">由此,开发门槛被迅速抹平,视觉编程真正变为开发者手中的提效工具。</p> <p id="4ASV2VUB">模型实际表现如何?来看一波官方demo展示。</p> <p id="4ASV2VUC">先看最近很火的<strong>洗车灵魂拷问</strong></p> <p></p> <blockquote id="4ASV3012"><ul>我想去洗车,洗车店距离我家50米,你说我应该开车过去还是走过去?</ul></blockquote> <p id="4ASV2VUD">千问3.5一眼识破陷阱,精准抓住核心,车必须过去洗,逻辑在线:</p> <p class="f_center"><br><br></p> <p id="4ASV2VUF">视频链接:https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA</p> <p id="4ASV2VUG">再来点难度,考考眼力+图像推理能力。</p> <p id="4ASV2VUH">prompt:从所给的四个选项中,选择最合适的填入问号中,使其具有合理性,应该选什么?</p> <p class="f_center"><br><br></p> <p id="4ASV2VUJ">对千问3.5来说小菜一碟,轻松看懂图形规律,并顺利给出了正确答案:</p> <p class="f_center"><br><br></p> <p id="4ASV2VUL">就连IMO竞赛级数学几何题,be like:</p> <p class="f_center"><br><br></p> <p id="4ASV2VUN">也能一步步推理,迅速做出来:</p> <p class="f_center"><br><br></p> <p id="4ASV2VUP">不只会做静态题,出一道滑动方块动态推理:</p> <p class="f_center"><br><br></p> <p id="4ASV2VUR">千问3.5照样拿捏:</p> <p class="f_center"><br><br></p> <p id="4ASV2VUT">视频链接:https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA</p> <p id="4ASV2VUU">多模态生成也很强。让它为Qwen Code生成一个推广视频:</p> <p class="f_center"><br><br></p> <p id="4ASV2VV0">成片效果相当流畅自然,直接发布都很OK。</p> <p class="f_center"><br><br></p> <p id="4ASV2VV2">视频链接:https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA</p> <p id="4ASV2VV3">除了生成视频,做网站也不在话下。</p> <p id="4ASV2VV4">让千问3.5阅读本地视频文件,就能根据内容制作一个网站,分分钟生成完成代码:</p> <p class="f_center"><br><br></p> <p id="4ASV2VV6">无论是产品宣传片,还是核心特性突出,千问3.5都一网打尽。</p> <p class="f_center"><br><br></p> <p id="4ASV2VV8">视频链接:https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA</p> <p id="4ASV2VV9">就连最烫的OpenClaw,千问3.5也可以与之集成,共同完成编程任务驱动。OpenClaw可以作为第三方智能体环境,协助千问3.5进行网页搜索、信息收集和结构化报告生成等内容。</p> <p class="f_center"><br><br></p> <p id="4ASV2VVB">视频链接:https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA</p> <p id="4ASV2VVC">千问3.5还可以作为视觉智能体,自主操控手机与电脑完成日常任务。</p> <p class="f_center"><br><br></p> <p id="4ASV2VVE">视频链接:https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA</p> <p></p> <h5>模型架构全面革新,原生多模态</h5> <p id="4ASV2VVF">不到四千亿参数打赢万亿,API价格打到闭源模型的零头,千问3.5此次的突破,根源在于底层架构层面的升级。</p> <p id="4ASV2VVG">过去两年,大模型行业整体遵循Scaling Law路径演进,即参数规模越大、模型能力越强。从千亿级迈向万亿级,模型在复杂推理和多任务泛化等方面持续取得进展。</p> <p id="4ASV2VVH">但这种路径的代价同样明显——训练依赖超大规模算力集群,推理成本随参数规模同步增长,部署门槛不断提高,使得中小企业难以负担,也限制了端侧的落地。</p> <p id="4ASV2VVI">模型能力持续增强的同时,计算效率与可扩展性逐渐成为新的瓶颈。</p> <p id="4ASV2VVJ">在这一背景下,<strong>千问3.5不再单纯扩大模型规模,而是对Transformer经典架构进行了一次深度重构</strong>,通过多项关键技术协同优化,在强性能与高效率之间找到了新的平衡点。</p> <p class="f_center"><br><br></p> <p id="4ASV2VVL">据官方介绍,千问3.5引入了四项关键技术。</p> <p id="4ASV2VVM"><strong>首先,是注意力机制的结构优化。</strong></p> <p id="4ASV2VVN">Transformer的核心是自注意力机制,但传统实现存在一个固问题:无论信息是否重要,每个Token都需要与全部上下文进行计算关联,复杂度随上下文长度持续增长。</p> <p id="4ASV2VVO">这使得长文本处理的计算成本迅速上升,也成为限制模型长上下文能力的主要因素之一。</p> <p id="4ASV2VVP">千问3.5为此引入了混合注意力机制,不再对所有信息一视同仁,而是根据重要程度动态分配计算资源——关键信息高精度处理,次要信息低成本带过。在保持理解精度的同时,显著压低了计算开销,长上下文处理效率也随之提升。</p> <p id="4ASV2VVQ"><strong>第二,是极致稀疏的MoE架构设计。</strong></p> <p id="4ASV2VVR">如果说注意力优化解决的是“怎么读信息”的问题,那MoE架构解决的是“用多少参数来回答”的问题。传统稠密模型每次推理必须激活全部参数,参数越多成本越高。</p> <p id="4ASV2VVS">MoE架构的思路是将模型拆分为大量专家子网络,每次推理只激活其中最相关的一部分。</p> <p id="4ASV2VVT">千问3.5把这一思路推向极致:总参数3970亿,单次推理激活仅170亿,激活比例不到5%。大规模参数积累的知识优势被保留,但规模带来的成本负担被大幅卸掉。</p> <p id="4ASV2VVU"><strong>第三,是原生多Token预测机制。</strong></p> <p id="4ASV2VVV">传统语言模型逐Token生成,每次输出一个再预测下一个,串行结构直接限制了推理速度。千问3.5在训练阶段就学习联合预测多个未来Tokens,使模型从逐字输出变为批量输出,而非单点预测。推理速度接近翻倍,对话响应明显加快。</p> <p id="4ASV3000"><strong>第四层突破是系统级训练稳定性优化。</strong></p> <p id="4ASV3001">稀疏架构虽然效率极高,但训练难度远高于传统稠密模型。为了解决训练稳定性问题,千问团队将此前获得NeurIPS 2025最佳论文的注意力门控机制,引入到了千问3.5之中。</p> <p class="f_center"><br><br></p> <p id="4ASV3003">该机制可以理解为注意力输出端的“智能开关”。它实时控制信息流强度,强化有效信号,抑制噪声干扰。避免训练过程中的梯度异常和信息失衡。</p> <p id="4ASV3004">除此之外,归一化策略、专家路由初始化等深层优化手段也被引入,分别解决不同环节的稳定性难题,共同保证前述架构创新在超大训练规模下稳定运行。</p> <p id="4ASV3005">四大杀招齐出,千问3.5实现了颠覆性的效率飞跃。官方数据显示,<strong>新架构训练成本降幅高达90%</strong></p> <p id="4ASV3006">与Qwen3-Max相比,<strong>Qwen3.5-Plus部署显存占用降60%</strong>,意味着节算力部署成本大幅降低;<strong>最大推理吞吐量可提升至19倍</strong>,大幅提升推理效率。</p> <p id="4ASV3007">架构创新解决的是效率问题,而千问3.5的另一重跃迁,指向的是智能本身——<strong>它要让大模型真正“看得见”</strong></p> <p id="4ASV3008">目前行业里不少所谓的多模态方案,做法其实是分步拼接:</p> <p id="4ASV3009">先把语言模型训好,再把视觉模块接上去,中间加一层对齐网络把两边的表征勉强拉到一起。更直接的做法甚至连对齐都省了,前端看起来是一个统一入口,后端其实是不同任务调不同模型,本质上就是个路由器。</p> <p id="4ASV300A">这类方案能用,但谈不上真正的融合,而且一个常见的副作用是:视觉能力加上去了,语言能力可能反而往下掉。</p> <p id="4ASV300B"><strong>千问3.5选择了更彻底的原生多模态路径</strong>。预训练阶段就不再区分“先学文字、再学图像”,而是把文本和视觉数据混在一起,让模型从第一步就在同一参数空间里同时消化这两种信息。这样训出来的模型,处理图片和处理文字走的是同一条神经通路,不需要中间再做翻译或对齐。</p> <p id="4ASV300C">这种融合在工程上极具挑战。图像和文本的数据结构差异很大,如果强行套用同一套并行策略,计算资源的浪费会很严重。千问3.5的处理方式是让两种模态在训练过程中各自按最适合自己的方式走,只在必要的环节进行信息交汇。</p> <p id="4ASV300D">最终,哪怕同时输入文本、图像和视频三种数据,整体训练吞吐量和纯文本基座模型几乎没有差别。</p> <p id="4ASV300E">同时,团队还加上了一套针对性的混合精度方案,在不同环节灵活切换FP8和FP32,激活内存砍掉了大约一半,训练速度还额外快了10%。这套精度策略不只用在预训练阶段,强化学习和推理环节也统一部署了进去。</p> <p id="4ASV300F">在智能体训练这块,团队又专门造了一套大规模强化学习框架,纯文本、多模态、多轮对话全都能跑,训练效率直接拉高了3到5倍。</p> <p id="4ASV300G">当然,上述能力的实现,最底层离不开<strong>阿里云AI基础设施</strong>的支撑。超大规模混合数据训练的稳定性、多模态并行策略的工程落地、训练到推理全链路的精度优化,每一项都需要底层算力平台的深度配合。</p> <p id="4ASV300H">最最关键的是,千问不光技术能打,更是在开源的路上一路狂飙。</p> <p></p> <h5>阿里是真“源”神</h5> <p id="4ASV300I">不知道还有没有人记得啊,去年阿里就在春节期间连发好几个模型,春晚直播进行时,掐着点甩出Qwen2.5-Max,直接把DeepSeek V3给反超了。</p> <p id="4ASV300J">当时网友们的评论是:杭州这群人,不睡觉也要送上新春大礼包。</p> <p id="4ASV300K">一年过去了。又是除夕,又是千问。<strong>从2.5到3.5,千问再把“开源”两个字做到了极致。</strong></p> <p id="4ASV300L">回顾千问开源之路:</p> <p id="4ASV300M">自2023年开源以来,阿里<strong>已累计开源400多个模型</strong>。从0.5B到235B全尺寸覆盖,从端侧到云端全面布局,涵盖文本生成、视觉理解与生成、语音理解与生成、文生图、视频模型等全模态领域……千问直接把开源模型货架,摆的满满当当。</p> <p id="4ASV300N">而且,每一代、每一个尺寸,都在稳定输出天花板级产品,换来实打实的战绩:</p> <p id="4ASV300O"><strong>全球下载量突破10亿次,单月下载量超过第2名到第8名的总和</strong>,开发者基于千问开发的<strong>衍生模型已超过20万个</strong></p> <p id="4ASV300P">千问目前已稳居全球最大AI大模型族群。“<strong>最强开源得投千问一票</strong>”,从一部分人的判断,变成了全球开发者的共识。</p> <p id="4ASV300Q">不论是开源开放,还是把API价格打到0.8元/百万Tokens,亦或是将支持语言扩展到186种,千问的意图很明显:让更多人能用上、用得起最顶尖的模型。</p> <p id="4ASV300R">当开源模型在核心能力上追平甚至反超闭源,而且免费可商用,竞争的逻辑就变了。这不再是一个模型和另一个模型之间争跑分的游戏,而是两种生态路径的选择。</p> <p id="4ASV300S">Linux没有靠卖系统成为商业巨头,却成为了全球服务器领域的主流支撑。Android也不靠系统授权盈利,却让智能手机真正普及到每一个人。</p> <p id="4ASV300T">千问想走的路,大概也是这一条。</p> <p id="4ASV300U">最后别忘了,这些只是模型礼盒!今年春节请喝奶茶、红包雨还没算在内。</p> <p id="4ASV300V">阿里千问这过年的排面,太疯狂了。</p>

编辑:龚菲