> 技术 > AI/人工智能

IBM 发布轻量级视觉语言 AI 模型 Granite-Docling-258M:用于文件转换、支持中文

人阅读 2025-09-20 20:57:50

9 月 20 日消息,IBM 现已正式发布了小型视觉语言模型 Granite-Docling-258M,定位于端到端文件转换场景用途,相应模型采用 Apache 2.0 开源协议,目前已在 Hugging Face 上线(点此访问)。

获悉,该模型参数量为 2.58 亿,号称是一款专为文档表格设计的轻量级模型,输出结果能够完整保留版面、表格、数学公式、列表和代码块等结构,同时准确度相比传统 OCR 软件识别准确性更高。

IBM 透露,Granite-Docling 的核心在于 DocTags,这是由 IBM Research 设计的一套通用文件结构标记语言,能够精确描述页面元素的类型、坐标、阅读顺序及跨元素关系,同时可将内容与版面结构分离,实现“先识别元素范围再执行 OCR 识别”,在完成转换后,DocTags 还能够直接将内容导出为 Markdown、JSON、HTML 等格式,也可以进一步进入 Docling 库进行处理。

目前,Granite-Docling 支持中文、阿拉伯语和日语等语言,不过尚未达到“企业级”水准,IBM 称未来开发人员将逐步扩展语言覆盖范围并提升模型可靠性。同时还将进一步增强 DocTags 与 IBM watsonx.ai 模型的兼容性,并计划把 DocTags 词汇表纳入 Granite 分词器和训练流程。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。

LOT物联网

iot产品 iot技术 iot应用 iot工程

Powered By LOT物联网  闽ICP备2024036174号-1

联系邮箱:support1012@126.com