Data berkualiti tinggi adalah asas untuk latihan dan penggunaan model AI berskala besar, malah menjadi "bahan api" bagi perusahaan dalam transformasi dan peningkatan ke arah AI. Namun begitu, ramai perusahaan menghadapi kesukaran dalam pembangunan aplikasi AI kerana model besar sukar memahami data tidak terstruktur.

Adakah lebih banyak pengguna perusahaan boleh memiliki alat data yang sesuai untuk mencapai kebebasan data siap-AI?

Baru-baru ini, OpenDataLab dan DingTalk telah bersama-sama melancarkan alat analisis dokumen DLU (Document Language Understanding) berdasarkan MinerU khusus untuk pengguna perusahaan, bertujuan membantu perusahaan menyelesaikan masalah data siap-AI, mengurangkan halangan pembangunan aplikasi AI, serta mempercepat penerapan teknologi AI secara besar-besaran merentasi pelbagai industri.

MinerU ialah enjin analisis dokumen pintar yang dilancarkan oleh OpenDataLab, Makmal Kecerdasan Buatan Shanghai (Shanghai AI Laboratory), yang sangat digemari pengguna berkat ketepatan analisis dan kompatibiliti luasnya, dengan jumlah bintang GitHub melebihi 40,000.

Sebagai institusi penyelidikan kecerdasan buatan antarabangsa, Shanghai AI Laboratory memiliki kekuatan teknikal yang mendalam dalam bidang model besar dan inteligen data. Platform OpenDataLab yang dibina sendiri merupakan platform data model AI terkemuka di negara ini, mengumpulkan lebih daripada 7,700 set data sumber terbuka berkualiti tinggi, serta telah menyediakan lebih daripada 2 juta perkhidmatan data kepada lebih 100,000 pengguna. MinerU 2.0 yang terkini menunjukkan peningkatan ketara dari segi kelajuan dan ketepatan analisis, mencapai prestasi setanding model besar utama berskala 72B walaupun hanya menggunakan 0.98B parameter.

DingTalk, sebagai platform pejabat mudah alih pintar perusahaan milik Alibaba Group, memiliki produk dokumen perusahaan yang lengkap dan asas pengguna yang besar. Produk seperti DingTalk Docs dan Jadual AI telah berjaya mengintegrasikan fungsi MinerU, serta menyediakan fungsi analisis dokumen kepada pembangun ekosistem melalui platform terbuka, memberikan asas teknikal dan konteks aplikasi yang kukuh bagi pembangunan bersama DLU.

DLU yang dibina berasaskan MinerU akan segera dibuka sumbernya, dengan ciri kompatibiliti format fail yang hebat, kemampuan memahami kandungan secara mendalam, serta output terstruktur yang tepat. Ia tidak sahaja menyokong format dokumen Office biasa, PDF, Markdown dan fail kod, tetapi juga merangkumi format dokumen, jadual dan jadual AI eksklusif DingTalk; pada masa yang sama mampu mengekstrak kandungan teks biasa, menganalisis secara tepat elemen visual kompleks seperti carta, formula, ilustrasi hingga formula molekul kimia, dan menukarkannya secara efisien kepada korpus berkualiti tinggi yang sesuai untuk latihan model besar.

DLU akan diintegrasikan rapat dengan ekosistem kerjasama pejabat DingTalk untuk mencapai kitaran tertutup sepenuh proses aplikasi AI

Pada masa hadapan, DLU akan memanfaatkan kelebihan DingTalk dalam senario perkhidmatan perusahaan, menyatu secara mendalam ke dalam ekosistem kerjasama pejabat, serta menyokong pengguna menyelesaikan keseluruhan proses — dari penciptaan dokumen, ekstraksi analisis, pengurusan pangkalan pengetahuan, pelabelan data sehingga latihan model tersuai — dalam satu platform yang sama, meningkatkan secara menyeluruh kecekapan pembangunan aplikasi AI dan operasi pejabat harian.

He Conghui, saintis muda Makmal Kecerdasan Buatan Shanghai dan pengasas projek sumber terbuka OpenDataLab/MinerU, menyatakan: "MinerU mempunyai asas pengguna yang luas. Kami berharap dapat memperluaskan lagi aplikasinya dalam konteks perusahaan, memaksimumkan nilai platform OpenDataLab, serta bekerjasama dengan rakan kongsi untuk membina 'PyTorch dalam alat data', membantu lebih banyak perusahaan mencapai kebebasan data siap-AI."

Zhu Hong, CTO DingTalk, berkata: "Dengan membuka sumber DLU, kita dapat menyelesaikan masalah penyediaan data perusahaan di era AI secara berkesan, mengukuhkan asas transformasi pintar. DingTalk sedang aktif membina ekosistem AI baharu, dan berharap dapat bekerjasama dengan lebih banyak rakan teknologi dan tenaga industri untuk memberikan sokongan kuat kepada pengembangan digital dan pintar merentasi pelbagai sektor."

We dedicated to serving clients with professional DingTalk solutions. If you'd like to learn more about DingTalk platform applications, feel free to contact our online customer service or email at This email address is being protected from spambots. You need JavaScript enabled to view it.. With a skilled development and operations team and extensive market experience, we’re ready to deliver expert DingTalk services and solutions tailored to your needs!