News
时间:2026-06-08
6月6日,由沐曦股份联合SGLang开源社区、阿里云、龙蜥社区、腾讯云及融科资讯中心举办的“沐曦芯生,开源共创——SGLang技术交流Meetup”,在北京圆满举办。
本次Meetup不仅集结了沐曦股份、SGLang开源社区、阿里云、龙蜥社区与腾讯云的多位核心开发人员与技术专家,还定向邀请了100多名独立开发者与高校学生到场。围绕SGLang开源生态演进、大模型推理性能优化与工程落地、异构算力适配等核心议题,整场技术交流活动展开了深入探讨与思维碰撞。
今年以来,OpenClaw“龙虾”Agent智能体风靡全球,PD分离、长上下文的KV Cache显存利用、多智能体推理成为了AI行业热议话题。本次Meetup活动共设置五场主题演讲与一场圆桌对话,从底层可观测性到上层多智能体推理架构,从社区前沿演进到落地工程实践,完整勾勒了SGLang推理生态的技术版图。
SGLang Core Maintainer(SGLang社区核心维护者)童心源率先登台,带来了《SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统》主题演讲。演讲系统介绍了SGLang 开源推理框架的发展历史,并重点讲解了SGLang在 PD分离、多模态模型与硬件支持、以RL/post-training(强化学习/后训练)部署等关键技术场景的创新突破,以及其在开源社区协作的进展与最新性能优化路线图。
阿里云工程师、SGLang Developer苏峰与常怀鑫则分享了题为《从全链路可观测到智能分析:AI性能分析范式的演进与实践》的演讲。两位嘉宾在演讲中回顾了SGLang Tracing的可观测性建设历程,并结合具体案例探讨如何利用AI Agent实现SGLang框架的性能优化。
活动下半场,阿里云高级技术专家马腾上台发表了《记忆感知驱动:基于Mooncake的多智能体推理架构优化》主题演讲深入剖析了Mooncake如何以KV Cache显存为“物理工作记忆”载体,并通过PD分离架构与全局共享KV Cache显存池,实现多智能体场景“一次计算、全局共享”的记忆复用。
沐曦股份SGLang推理引擎核心开发者杨鑫压轴登场,带来《沐曦GPU对SGLang的深度适配与工程实践》主题演讲,详细介绍了SGLang在沐曦GPU上的适配流程、沐曦自研MXMACA软件栈、最新模型适配情况与性能优化实践。
针对主题演讲的硬核分享,现场观众踊跃提问,结合实际开发部署中遇到的具体问题,与嘉宾现场积极探讨各种可能的解决方案。

圆桌环节由沐曦AI研究院院长李兆石主持,童心源、常怀鑫、马腾、陈凯悦与沐曦股份SGLang项目核心开发者王志鹏五位技术专家共同参与,围绕“异构算力下的推理效能革命:SGLang前沿优化与企业落地实践”展开展开讨论。针对百万长下文的KV Cache利用策略、AI存储需求的趋势走向、AI云端与本地部署的方案选择等热点话题,圆桌嘉宾分享了各自的洞察与思考。
本次SGLang技术交流Meetup是沐曦股份在开源生态建设中的一次深度实践。
作为国产高性能GPU企业,沐曦股份始终秉持“全栈自研+生态兼容”战略,围绕MXMACA软件栈持续投入上游开源社区建设。从MXMACA软件栈深度兼容SGLang、vLLM在内的40多种AI框架,到公司与阿里云、腾讯云、龙蜥开源社区等伙伴的联合创新,沐曦股份正以“技术共建者”之姿,推动国产GPU在大模型推理基础设施中的实质性落地。
面向未来,沐曦股份将持续深化与SGLang等开源社区的技术协同,在推理性能优化、模型适配广度、开发者工具链等维度加速迭代,为国产算力从“能用”走向“好用”提供坚实的底座。