高质量数据是AI大模型训练与应用的基础,更是企业向AI转型升级的“燃料”。然而,许多企业在开发AI应用时,因大模型难以理解非结构化数据而陷入困境。

能否让更多的企业级用户拥有趁手的数据工具,实现AI-Ready数据自由?

近日,OpenDataLab与钉钉基于MinerU共同推出面向企业用户的文档解析工具DLU(Document Language Understanding),旨在帮助企业破解AI-Ready数据难题,降低AI应用开发门槛,加速AI技术在各行业的规模化落地。

MinerU是由上海人工智能实验室(上海AI实验室)OpenDataLab推出的智能文档解析引擎,凭借精准的解析能力和广泛的兼容性深受用户欢迎,GitHub星标数已超过4万。

作为国际级人工智能科研机构,上海AI实验室在大模型和数据智能领域具备深厚技术积累。其自主打造的OpenDataLab平台是国内领先的人工智能大模型数据平台,集结超过7700个开源精标数据集,已为超过10万用户提供逾200万次数据服务。最新发布的MinerU 2.0在解析速度与精度上均有显著提升,仅以0.98B参数量即达到媲美72B主流大模型的性能。

钉钉作为阿里巴巴集团旗下的企业级智能移动办公平台,拥有丰富的企业文档产品和庞大的用户基础。钉钉文档、AI表格等产品已深度集成MinerU能力,并通过开放平台向生态开发者提供文档解析功能,为DLU的联合研发奠定了坚实的技术与场景基础。

基于MinerU打造的DLU即将开源,具备出色的文件格式兼容性、深层内容理解能力以及精准的结构化输出。它不仅支持主流的Office文档、PDF、Markdown和代码文件,还涵盖钉钉自有的文档、表格及AI表格格式;同时可提取纯文本内容,精准解析图表、公式、插图乃至化学分子式等复杂视觉元素,并将其高效转化为适合大模型训练的高质量语料。

DLU将深度融合钉钉办公协同生态,实现AI应用全流程闭环

未来,DLU将依托钉钉在企业服务场景的优势,深度融入办公协同生态,支持用户在同一平台完成从文档创建、解析提取、知识库管理、数据标注到定制化模型训练的完整流程,全面提升AI应用开发与日常办公效率。

上海人工智能实验室青年科学家、OpenDataLab/MinerU开源项目创始人何聪辉表示:「MinerU拥有广泛用户基础,我们希望进一步拓展其在企业场景的应用,充分发挥OpenDataLab平台价值,携手合作伙伴打造『数据工具中的PyTorch』,助力更多企业实现AI-Ready数据自由。」

钉钉CTO朱鸿表示:「通过开源DLU,能有效解决企业在AI时代的数据准备难题,筑牢智能化转型根基。钉钉正积极构建AI新生态,期待与更多技术伙伴和行业力量携手,为千行百业的数字化与智能化升级提供强劲支撑。」

We dedicated to serving clients with professional DingTalk solutions. If you'd like to learn more about DingTalk platform applications, feel free to contact our online customer service or email at 该邮件地址已受到反垃圾邮件插件保护。要显示它需要在浏览器中启用 JavaScript。. With a skilled development and operations team and extensive market experience, we’re ready to deliver expert DingTalk services and solutions tailored to your needs!