News
时间:2026-01-29
PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上线,沐曦曦云C500/C550 Day 0 适配PaddleOCR-VL-1.5模型,助力PaddleOCR-VL-1.5第一时间面向企业与开发者提供模型服务。
PaddleOCR-VL-1.5创新性地支持了文档元素的异形框定位,使得PaddleOCR-VL-1.5 在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实落地场景中均表现卓越,实现了全面的 SOTA。此外,模型进一步集成了印章识别与文本检测识别任务,关键指标持续领跑主流模型。
曦云C系列基于沐曦自主研发的高性能核心GPU IP,具备高能效和高通用性的天然优势。曦云C系列支持大模型训练及推理,可广泛应用于推荐系统、自动语音识别、语音合成、图像分割检测、数据库加速、大语言模型、文生图、文生视频等多种场景。作为沐曦主力训推一体GPU产品,曦云C500/C550具备强劲的算力支撑与灵活的部署优势,支持多种混合精度计算,可充分释放PaddleOCR-VL-1.5的模型潜力,实现推理效率与部署体验的双重提升,降低企业与开发者的模型应用门槛。
目前,沐曦已构建了从硬件架构到软件栈的完整自研技术体系。为了让长周期迭代的硬件适配短周期更新的应用与算法,沐曦打造了全栈自主可控的MXMACA软件栈原生兼容主流生态,这意味着AI应用可以几乎零成本地迁移到沐曦的平台上,基本做到“即插即用”。MXMACA软件栈于2025年2月份开源,现已拥有超过15万用户。
在 OmniDocBench v1.5 上以 0.9B 的参数量实现 94.5% 的精度,超越了上一代 SOTA 模型 PaddleOCR-VL,表格、公式及文本识别能力大幅提升。
全球首个支持异形框定位的文档解析模型,可精准返回倾斜、弯折场景下的多边形检测框。在扫描、弯折、倾斜、屏幕拍照、光线变化 5 个场景下,精度均优于目前主流的开源与闭源模型。
新增文本行定位/识别与印章识别能力,各项技术指标均刷新领域 SOTA。
精进特殊场景及多语种识别能力。优化了生僻字、古籍、多语种表格、下划线及复选框的识别效果,并扩展了藏语和孟加拉语的识别支持。
支持跨页表格自动合并与跨页段落标题识别,解决了长文档解析中的断层问题。
推理速度进一步提升。
在线使用:https://www.paddleocr.com
开源项目地址:https://github.com/PaddlePaddle/PaddleOCR
模型下载地址:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
PaddleOCR-VL-1.5使用步骤(详情可点击此处):
(可选): 快速测试PaddleOCR-VL-1.5原生推理(基于paddlex)
注:model_dir为下载的PaddeOCR-VL-1.5模型的路径
方式一:通过CLI调用
注:model_dir为下载的PaddeOCR-VL-1.5模型的路径
方式二:通过Python API调用