News
时间:2026-06-12
6月12日,MiniMax正式开源新一代原生多模态旗舰模型M3。沐曦股份曦云C系列GPU凭借全栈自研的软硬一体技术优势,完成对M3的Day 0深度适配,成为率先支持该模型的国产算力平台,持续领跑国产GPU极速适配赛道。
这是近期继M2.5、M2.7之后,曦云C系列又一次对MiniMax旗舰大模型实现极速适配。此次Day 0适配的快速实现,持续源于沐曦股份"自研GPU硬件+MXMACA全栈软件"的软硬一体核心优势。
曦云C系列GPU基于沐曦自主核心GPU IP打造,具备高能效比与高通用性,精准匹配大模型的超大规模参数处理及长上下文推理需求。MXMACA软件栈作为连接硬件算力与上层应用生态的核心枢纽,全链路覆盖底层驱动、用户态接口、MXCC编译器、算子深度适配及主流训练/推理框架对接,原生兼容 PyTorch、TensorFlow、vLLM与SGLang等 40 余种主流 AI 框架,支持 500+ AI 模型稳定运行,大幅缩短传统模型适配周期。曦云C系列GPU依托沐曦自研MXMACA软件栈的深度优化能力,成功实现M3的高效部署与稳定运行,为其前沿能力提供澎湃算力支撑。
在国产GPU Day 0适配赛道,沐曦股份持续保持行业领先地位。截至目前,沐曦已累计完成Day 0适配模型达26个,全面覆盖MiniMax、智谱、阿里千问、阶跃星辰、百度、DeepSeek等国内头部厂商的最新旗舰模型,品类涵盖语言、多模态、OCR、文生图、3D生成等全领域,构建起"模型发布—芯片适配—产业落地"的高效闭环。
MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力。它使用了全新注意力架构 MSA (MiniMax Sparse Attention),最高支持 1M 超长上下文。它也是一个原生多模态模型,支持图片和视频的输入,并能操作电脑桌面。这三种能力是海外闭源前沿模型所必须拥有的。M3 是国内第一个齐备这些要素的模型,也是目前唯一的开源模型。
在 Artificial Analysis 综合智能指数排行榜上,M3 取得了全球开源模型的最高排名。
MSA 是一个简洁且易于扩展的全新稀疏注意力架构,让 context 真正成为又一个可被 scale 的维度。稀疏注意力机制普遍通过增加一个初筛阶段来避免复杂度爆炸问题。与 DSA 和 MoBA 等方案相比,MSA 可以更精确为 KV 分块,实现更高的有效上下文覆盖。
同时,MiniMax团队还在算子层直接优化,采用以 KV 块为外层来聚合命中 query 的 KV outer gather Q。每块只读一次、访存连续,在 M3 的 head 配比下计算访存比显著优于通行方法,比开源的 Flash-Sparse-Attention、FlashMoBA 快 4 倍以上。
简洁可扩展、易于实现且硬件友好的特点,使它的理论收益能真正落地:在 100 万上下文下,M3 每 token 计算量仅为上代模型的 1/20。在 prefilling 阶段,MiniMax团队实现了超过 9 倍的加速倍率,在 decoding 阶段有超过 15 倍的加速优势。而且在多个对照实验中,MSA 的绝大部分能力与全注意力打平。
Coding 与 Agent 能力是 M3 重点提升之处,在涵盖软件工程、终端执行等多个维度的国际权威评测中,M3 均达到国际领先水平:
下一代 Agent Coding 比的不仅是代码生成,更要比拼长期协作能力、规划能力以及人与 Agent 的协同效率。M3 把真正对 Coding 和 Agent 至关重要的数据 Scale up,目标不仅是在 Benchmark 上取得领先,更是在真实研发流程中成为开发者可靠的协作伙伴。
M3 是一个从 Step 0 开始进行多模态混合训练的模型。这种原生多模态的路线能让不同模态数据的语义空间更天然、更高度的融合。
同时,在数据配比和构成上,MiniMax团队的大量实验显示,Interleaved data(交错数据)对模型性能带来的提升,比一般认为的更加关键。
这些文本和图像或其他模态在序列中交替自然排列的数据,对于整体训练数据的规模扩展也很重要。在MiniMax团队为这些数据重构整套数据管线后,已可以将训练数据 Token 规模提升至更大量级。
模型API 调用指南:
platform.minimaxi.com/docs/api-reference/api-overview
模型体验链接及开源地址:
https://huggingface.co/MiniMaxAI/MiniMax-M3
欢迎前往沐曦开发者社区Day 0版块获取推理镜像:
https://developer.metax-tech.com/softnova/Day0