Dữ liệu chất lượng cao là nền tảng cho việc huấn luyện và ứng dụng các mô hình AI lớn, đồng thời cũng là "nhiên liệu" giúp doanh nghiệp chuyển đổi và nâng cấp sang AI. Tuy nhiên, nhiều doanh nghiệp khi phát triển ứng dụng AI lại rơi vào bế tắc do các mô hình lớn khó hiểu dữ liệu phi cấu trúc.

Làm thế nào để nhiều người dùng doanh nghiệp hơn có thể sở hữu công cụ xử lý dữ liệu phù hợp, từ đó đạt được sự tự do về dữ liệu sẵn sàng cho AI (AI-Ready)?

Gần đây, OpenDataLab và DingTalk đã cùng ra mắt công cụ phân tích tài liệu DLU (Document Language Understanding) dành cho người dùng doanh nghiệp dựa trên nền tảng MinerU, nhằm giúp các doanh nghiệp giải quyết bài toán dữ liệu AI-Ready, giảm rào cản phát triển ứng dụng AI và thúc đẩy việc ứng dụng quy mô công nghệ AI trong các ngành nghề.

MinerU là công cụ thông minh xử lý tài liệu do Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải (Phòng thí nghiệm AI Thượng Hải) thuộc OpenDataLab phát triển, được người dùng yêu thích nhờ khả năng phân tích chính xác và tính tương thích rộng rãi, hiện đã đạt hơn 40.000 sao trên GitHub.

Là một tổ chức nghiên cứu khoa học hàng đầu thế giới trong lĩnh vực trí tuệ nhân tạo, Phòng thí nghiệm AI Thượng Hải sở hữu nền tảng kỹ thuật vững chắc trong các lĩnh vực mô hình lớn và trí tuệ dữ liệu. Nền tảng OpenDataLab do đơn vị này tự phát triển là nền tảng dữ liệu mô hình AI hàng đầu tại Trung Quốc, tập hợp hơn 7.700 bộ dữ liệu mã nguồn mở đã được gán nhãn kỹ lưỡng, đã phục vụ hơn 100.000 người dùng với hơn 2 triệu lượt dịch vụ dữ liệu. Phiên bản mới nhất MinerU 2.0 đã cải thiện đáng kể về tốc độ và độ chính xác phân tích, chỉ với 0,98 tỷ tham số nhưng hiệu suất sánh ngang các mô hình lớn phổ biến 72B.

DingTalk, nền tảng văn phòng di động thông minh cấp doanh nghiệp thuộc Tập đoàn Alibaba, sở hữu hệ sinh thái sản phẩm tài liệu doanh nghiệp phong phú cùng cơ sở người dùng khổng lồ. Các sản phẩm như Tài liệu DingTalk, Bảng tính AI... đã tích hợp sâu chức năng của MinerU, đồng thời cung cấp khả năng phân tích tài liệu cho các nhà phát triển trong hệ sinh thái thông qua nền tảng mở, tạo nền tảng vững chắc về công nghệ và ứng dụng thực tế cho việc hợp tác phát triển DLU.

DLU được xây dựng dựa trên MinerU sẽ sớm được mã nguồn mở, sở hữu khả năng tương thích định dạng tệp xuất sắc, khả năng hiểu nội dung sâu và đầu ra cấu trúc hóa chính xác. Công cụ không chỉ hỗ trợ các định dạng tài liệu Office phổ biến, PDF, Markdown và tệp mã nguồn, mà còn bao gồm các định dạng tài liệu riêng của DingTalk như tài liệu, bảng tính và bảng tính AI; đồng thời có thể trích xuất nội dung văn bản thuần, phân tích chính xác biểu đồ, công thức, hình minh họa thậm chí cả công thức phân tử hóa học và các yếu tố thị giác phức tạp khác, sau đó chuyển đổi hiệu quả thành dữ liệu chất lượng cao phù hợp cho việc huấn luyện mô hình lớn.

DLU sẽ tích hợp sâu vào hệ sinh thái cộng tác văn phòng DingTalk, hoàn thiện vòng khép kín cho toàn bộ quy trình ứng dụng AI

Trong tương lai, DLU sẽ tận dụng lợi thế của DingTalk trong các kịch bản dịch vụ doanh nghiệp, tích hợp sâu vào hệ sinh thái cộng tác văn phòng, hỗ trợ người dùng hoàn tất toàn bộ quy trình từ tạo tài liệu, trích xuất phân tích, quản lý kho kiến thức, gán nhãn dữ liệu đến huấn luyện mô hình tùy chỉnh trên cùng một nền tảng, từ đó nâng cao đáng kể hiệu quả phát triển ứng dụng AI và làm việc văn phòng hàng ngày.

Ông Hà Thông Huy (He Conghui), nhà khoa học trẻ của Phòng thí nghiệm Trí tuệ Nhân tạo Thượng Hải, người sáng lập dự án mã nguồn mở OpenDataLab/MinerU, cho biết: “MinerU có cơ sở người dùng rộng rãi, chúng tôi mong muốn mở rộng hơn nữa ứng dụng của nó trong môi trường doanh nghiệp, phát huy tối đa giá trị nền tảng OpenDataLab, hợp tác cùng các đối tác để tạo nên ‘PyTorch trong các công cụ dữ liệu’, hỗ trợ nhiều doanh nghiệp hơn đạt được sự tự do về dữ liệu AI-Ready”.

Ông Chu Hồng (Zhu Hong), CTO của DingTalk, cho biết thêm: “Việc mã nguồn mở DLU có thể giải quyết hiệu quả bài toán chuẩn bị dữ liệu cho doanh nghiệp trong thời đại AI, củng cố nền tảng chuyển đổi thông minh. DingTalk đang tích cực xây dựng hệ sinh thái AI mới, hy vọng hợp tác cùng nhiều đối tác công nghệ và lực lượng ngành nghề khác nhau, mang lại sự hỗ trợ mạnh mẽ cho quá trình số hóa và thông minh hóa ở mọi lĩnh vực”.

We dedicated to serving clients with professional DingTalk solutions. If you'd like to learn more about DingTalk platform applications, feel free to contact our online customer service or email at This email address is being protected from spambots. You need JavaScript enabled to view it.. With a skilled development and operations team and extensive market experience, we’re ready to deliver expert DingTalk services and solutions tailored to your needs!