沐曦股份曦云C系列GPU 完成通义千问Qwen 3.5 Day 0 适配新闻中心

企业新闻

News

新闻中心

沐曦股份曦云C系列GPU 完成通义千问Qwen 3.5 Day 0 适配

时间：2026-02-16

通义千问今天正式发布 Qwen3.5，并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的开放权重版本。沐曦股份曦云C系列GPU 完成对Qwen 3.5模型的Day 0 适配。

在此次模型适配中，曦云C系列GPU及MXMACA软件栈凭借对主流编程生态的底层高度兼容能力，实现对线性注意力两类核心内核（C++内核与Triton内核）的“零修改”适配，大幅降低国产算力平台部署前沿算法的门槛。

对于C++软件内核，沐曦自研的MXMACA软件栈实现了对编程模型的原生级兼容，并非通过简单的指令翻译模拟，而是从编译器前端到运行时后端的全栈贯通。这种“即插即用”能力，让底层软件无缝迁移至国产平台，适配周期从传统数周压缩至小时级。

对于Triton内核，沐曦自主研发了Triton-MXMACA编译后端。它直接从Triton的Python抽象语法树生成沐曦GPU指令，实现高级语言到底层硬件的直达优化。原有Triton代码能自动适配沐曦GPU架构，并获得针对其张量核心与存储层次的专项加速。如同为Triton配备了一位精通沐曦“母语”的同声传译，既保证语义精准，又实现性能高效。

沐曦GPU以“硬件通用、软件兼容”的技术路径，得以让新模型算子在沐曦GPU上实现无缝适配，兼具快速适配、功能正确与性能满意三重优势，从而加速Qwen3.5模型在国产算力平台的落地。

除了Qwen3.5，近期沐曦股份曦云 C 系列产品还是国内首先完成与智谱AI GLM-5、阶跃星辰最新旗舰基座模型 Step 3.5 Flash 实现深度协同适配的国产算力；也在第一时间完成与 PaddleOCR-VL-1.5 等模型的 Day 0 适配。

关于Qwen 3.5

作为原生视觉-语言模型，Qwen3.5-397B-A17B 在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异，助力开发者与企业显著提升生产力。该模型采用创新的混合架构，将线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）相结合，实现出色的推理效率：总参数量达 3970 亿，每次前向传播仅激活 170 亿参数，在保持能力的同时优化速度与成本。千问还将语言与方言支持从 119 种扩展至 201 种，为全球用户提供更广泛的可用性与更完善的支持。

Qwen3.5-Plus性能表现

模型表现

自然语言

千问在多种评估任务与模态下，对 Qwen3.5 与前沿模型进行全面对比评估。

视觉语言

相对于 Qwen3 系列模型，Qwen3.5 的 Post-training 性能提升主要来自于千问对各类 RL 任务和环境的全面扩展。其更加强调 RL 环境的难度与可泛化性，而非针对特定指标或狭隘类别的 query 进行优化。下图展示了在通用 Agent 能力上，模型效果随 RL Environment scaling 带来的增益。整体性能由各模型在以下基准上的平均排名计算得出：BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon 和 MCP-Mark。更多任务的 scaling 效果将在千问即将发布的技术报告中详述。