News
时间:2026-02-16
今天,通义千问今天正式发布 Qwen3.5,并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的开放权重版本。沐曦股份曦云C系列GPU 完成对Qwen 3.5模型的Day 0 适配。
在此次模型适配中,曦云C系列GPU及MXMACA软件栈凭借对主流编程生态的底层高度兼容能力,实现对线性注意力两类核心内核(C++内核与Triton内核)的“零修改”适配,大幅降低国产算力平台部署前沿算法的门槛。
对于C++软件内核,沐曦自研的MXMACA软件栈实现了对编程模型的原生级兼容,并非通过简单的指令翻译模拟,而是从编译器前端到运行时后端的全栈贯通。这种“即插即用”能力,让底层软件无缝迁移至国产平台,适配周期从传统数周压缩至小时级。
对于Triton内核,沐曦自主研发了Triton-MXMACA编译后端。它直接从Triton的Python抽象语法树生成沐曦GPU指令,实现高级语言到底层硬件的直达优化。原有Triton代码能自动适配沐曦GPU架构,并获得针对其张量核心与存储层次的专项加速。如同为Triton配备了一位精通沐曦“母语”的同声传译,既保证语义精准,又实现性能高效。
沐曦GPU以“硬件通用、软件兼容”的技术路径,得以让新模型算子在沐曦GPU上实现无缝适配,兼具快速适配、功能正确与性能满意三重优势,从而加速Qwen3.5模型在国产算力平台的落地。
除了Qwen3.5,近期沐曦股份曦云 C 系列产品还是国内首先完成与智谱AI GLM-5、阶跃星辰最新旗舰基座模型 Step 3.5 Flash 实现深度协同适配的国产算力;也在第一时间完成与 PaddleOCR-VL-1.5 等模型的 Day 0 适配。
作为原生视觉-语言模型,Qwen3.5-397B-A17B 在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异,助力开发者与企业显著提升生产力。该模型采用创新的混合架构,将线性注意力(Gated Delta Networks)与稀疏混合专家(MoE)相结合,实现出色的推理效率:总参数量达 3970 亿,每次前向传播仅激活 170 亿参数,在保持能力的同时优化速度与成本。千问还将语言与方言支持从 119 种扩展至 201 种,为全球用户提供更广泛的可用性与更完善的支持。
自然语言
千问在多种评估任务与模态下,对 Qwen3.5 与前沿模型进行全面对比评估。
相对于 Qwen3 系列模型,Qwen3.5 的 Post-training 性能提升主要来自于千问对各类 RL 任务和环境的全面扩展。其更加强调 RL 环境的难度与可泛化性,而非针对特定指标或狭隘类别的 query 进行优化。下图展示了在通用 Agent 能力上,模型效果随 RL Environment scaling 带来的增益。整体性能由各模型在以下基准上的平均排名计算得出:BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon 和 MCP-Mark。更多任务的 scaling 效果将在千问即将发布的技术报告中详述。
体验Qwen3.5
Qwen Chat:https://chat.qwen.ai/
更多Qwen3.5详情,请点击此处。
|
往期回顾
曦云C500/C550 24小时内完成MiniMax M2.5 适配 曦云C系列GPU Day 0 适配智谱全新一代大模型GLM-5 |