ข้อมูลคุณภาพสูงเป็นพื้นฐานสำหรับการฝึกอบรมและประยุกต์ใช้โมเดล AI ขนาดใหญ่ และถือเป็น "เชื้อเพลิง" สำคัญที่ช่วยให้ธุรกิจปรับตัวสู่ระบบปัญญาประดิษฐ์อย่างมีประสิทธิภาพ อย่างไรก็ตาม บริษัทจำนวนมากประสบปัญหาในการพัฒนาแอปพลิเคชัน AI เนื่องจากโมเดลขนาดใหญ่ไม่สามารถเข้าใจข้อมูลที่ไม่มีโครงสร้างได้อย่างถูกต้อง

จะทำอย่างไรให้ผู้ใช้ระดับองค์กรจำนวนมากมีเครื่องมือจัดการข้อมูลที่เหมาะสม เพื่อให้บรรลุเป้าหมายด้านข้อมูลที่พร้อมใช้งานกับ AI ได้อย่างอิสระ?

เมื่อเร็ว ๆ นี้ OpenDataLab และ DingTalk ได้ร่วมกันเปิดตัวเครื่องมือวิเคราะห์เอกสาร DLU (Document Language Understanding) สำหรับผู้ใช้ระดับองค์กร โดยอาศัยเทคโนโลยี MinerU ซึ่งมีเป้าหมายเพื่อช่วยเหลือองค์กรแก้ปัญหาด้านข้อมูลที่พร้อมใช้งานกับ AI ลดอุปสรรคในการพัฒนาแอปพลิเคชัน AI และเร่งการนำไปใช้งานจริงในภาคอุตสาหกรรมต่าง ๆ อย่างแพร่หลาย

MinerU เป็นเครื่องมืออัจฉริยะสำหรับแยกวิเคราะห์เอกสารที่เปิดตัวโดย OpenDataLab ภายใต้ห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ (Shanghai AI Laboratory) ซึ่งได้รับความนิยมสูงจากความสามารถในการแยกข้อมูลอย่างแม่นยำและการรองรับรูปแบบไฟล์หลากหลาย โดยได้รับดาวบน GitHub กว่า 40,000 ดวง

ในฐานะสถาบันวิจัยระดับนานาชาติด้านปัญญาประดิษฐ์ Shanghai AI Laboratory มีความเชี่ยวชาญลึกในด้านโมเดลขนาดใหญ่และข้อมูลอัจฉริยะ แพลตฟอร์ม OpenDataLab ที่พัฒนาขึ้นเองเป็นแพลตฟอร์มข้อมูลสำหรับโมเดล AI ขนาดใหญ่อันดับต้น ๆ ของประเทศ รวบรวมชุดข้อมูลโอเพ่นซอร์สที่ได้รับการกำกับดูแลอย่างดีกว่า 7,700 ชุด ให้บริการข้อมูลมากกว่า 2 ล้านครั้งแก่ผู้ใช้กว่า 100,000 ราย MinerU เวอร์ชัน 2.0 ที่เปิดตัวล่าสุด มีความเร็วและความแม่นยำในการวิเคราะห์เพิ่มขึ้นอย่างชัดเจน โดยใช้พารามิเตอร์เพียง 0.98 พันล้านหน่วย แต่กลับให้ประสิทธิภาพเทียบเท่ากับโมเดลขนาดใหญ่หลักที่ใช้พารามิเตอร์ถึง 72 พันล้านหน่วย

DingTalk ซึ่งเป็นแพลตฟอร์มการทำงานบนมือถืออัจฉริยะระดับองค์กรภายใต้ Alibaba Group มีผลิตภัณฑ์จัดการเอกสารครบวงจรและฐานผู้ใช้ขนาดใหญ่ ผลิตภัณฑ์เช่น เอกสาร DingTalk และตารางข้อมูลอัจฉริยะ (AI Table) ได้ผสานเทคโนโลยี MinerU เข้าไปอย่างลึกซึ้ง และเปิดฟังก์ชันการวิเคราะห์เอกสารผ่านแพลตฟอร์มสำหรับนักพัฒนาในระบบนิเวศ ซึ่งกลายเป็นรากฐานทางเทคนิคและสถานการณ์การใช้งานที่แข็งแกร่งสำหรับการพัฒนาร่วมกันของ DLU

DLU ที่พัฒนาบนพื้นฐานของ MinerU จะเปิดซอร์สโค้ดในไม่ช้า โดยมีจุดเด่นด้านการรองรับรูปแบบไฟล์หลากหลาย ความสามารถในการเข้าใจเนื้อหาเชิงลึก และการแปลงข้อมูลเป็นโครงสร้างได้อย่างแม่นยำ นอกจากจะรองรับรูปแบบเอกสาร Office, PDF, Markdown และไฟล์โค้ดทั่วไปแล้ว ยังครอบคลุมรูปแบบเอกสารเฉพาะของ DingTalk เช่น เอกสาร ตารางงาน และ AI Table อีกด้วย นอกจากนี้ยังสามารถแยกข้อความธรรมดาออกมาได้ พร้อมทั้งวิเคราะห์องค์ประกอบภาพซับซ้อน เช่น แผนภูมิ สูตรทางคณิตศาสตร์ ภาพประกอบ และแม้แต่สูตรโมเลกุลทางเคมี แล้วแปลงเป็น语料คุณภาพสูงที่เหมาะกับการฝึกอบรมโมเดลขนาดใหญ่

DLU จะผสานรวมอย่างลึกซึ้งกับระบบนิเวศการทำงานร่วมกันบน DingTalk เพื่อสร้างกระบวนการปิดวงจรสำหรับการประยุกต์ใช้ AI

ในอนาคต DLU จะอาศัยข้อได้เปรียบของ DingTalk ในสถานการณ์การให้บริการองค์กร โดยผสานเข้ากับระบบนิเวศการทำงานร่วมกันอย่างล้ำลึก เพื่อให้ผู้ใช้สามารถดำเนินการทุกขั้นตอนภายในแพลตฟอร์มเดียว ตั้งแต่การสร้างเอกสาร การแยกและดึงข้อมูล การจัดการคลังความรู้ การกำกับข้อมูล ไปจนถึงการฝึกอบรมโมเดลเฉพาะทาง ซึ่งจะช่วยยกระดับประสิทธิภาพในการพัฒนาแอปพลิเคชัน AI และการทำงานประจำวันอย่างครอบคลุม

เหอ ฉงฮุ่ย นักวิทยาศาสตร์หนุ่มจากห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ และผู้ก่อตั้งโครงการโอเพ่นซอร์ส OpenDataLab/MinerU กล่าวว่า "MinerU มีฐานผู้ใช้ที่กว้างขวาง เราหวังว่าจะขยายการประยุกต์ใช้ในบริบทองค์กรให้ลึกยิ่งขึ้น ปลดปล่อยศักยภาพของแพลตฟอร์ม OpenDataLab อย่างเต็มที่ และร่วมมือกับพันธมิตรเพื่อสร้าง 'PyTorch แห่งเครื่องมือข้อมูล' ที่จะช่วยให้องค์กรจำนวนมากบรรลุเป้าหมายด้านข้อมูลที่พร้อมใช้งานกับ AI อย่างแท้จริง"

จู หง หัวหน้าเจ้าหน้าที่เทคโนโลยีของ DingTalk กล่าวว่า "การเปิดซอร์ส DLU จะช่วยแก้ปัญหาการเตรียมข้อมูลในยุค AI ได้อย่างมีประสิทธิภาพ และเสริมสร้างรากฐานของการเปลี่ยนผ่านสู่ระบบอัจฉริยะ DingTalk กำลังสร้างระบบนิเวศใหม่ด้าน AI และหวังว่าจะได้ร่วมมือกับพันธมิตรทางเทคนิคและผู้มีส่วนเกี่ยวข้องในหลากหลายอุตสาหกรรม เพื่อสนับสนุนการปรับปรุงดิจิทัลและอัจฉริยะให้กับทุกอุตสาหกรรมอย่างแข็งแกร่ง"

We dedicated to serving clients with professional DingTalk solutions. If you'd like to learn more about DingTalk platform applications, feel free to contact our online customer service or email at This email address is being protected from spambots. You need JavaScript enabled to view it.. With a skilled development and operations team and extensive market experience, we’re ready to deliver expert DingTalk services and solutions tailored to your needs!