البيانات عالية الجودة هي الأساس لتدريب وتطبيق نماذج الذكاء الاصطناعي الكبيرة، كما أنها "الوقود" الذي يُمكّن الشركات من التحول والارتقاء باستخدام تقنيات الذكاء الاصطناعي. ومع ذلك، تجد العديد من الشركات صعوبة في تطوير تطبيقات ذكاء اصطناعي بسبب عدم قدرة النماذج الكبيرة على فهم البيانات غير المنظمة.
هل يمكن تمكين المزيد من المستخدمين المؤسسيين من الحصول على أدوات بيانات فعالة لتحقيق حرية البيانات الجاهزة للذكاء الاصطناعي (AI-Ready)؟
في الآونة الأخيرة، أطلقت OpenDataLab ومنصة دينغ تانغ (DingTalk) بالتعاون بينهما أداة تحليل الوثائق DLU (Document Language Understanding) الموجهة للمستخدمين المؤسسيين، وذلك بالاعتماد على محرك MinerU، بهدف مساعدة الشركات على التغلب على مشكلة توافر البيانات الجاهزة للذكاء الاصطناعي، وتقليل عتبة تطوير تطبيقات الذكاء الاصطناعي، وتسريع نشر هذه التقنيات على نطاق واسع عبر مختلف القطاعات.
يُعدّ MinerU محركًا ذكيًا لتحليل الوثائق طوّرته مختبر شنغهاي للذكاء الاصطناعي (Shanghai AI Lab) من خلال منصة OpenDataLab، ويحظى بشعبية كبيرة بفضل دقته العالية وقدرته العريضة على التوافق مع التنسيقات المختلفة، حيث تجاوز عدد النجوم التي حصل عليها على GitHub 40 ألف نجمة.
بصفتها جهة بحثية دولية رائدة في مجال الذكاء الاصطناعي، تمتلك مختبر شنغهاي للذكاء الاصطناعي خبرة تقنية عميقة في مجالي النماذج الكبيرة والبيانات الذكية. وتُعد منصة OpenDataLab التي طورتها ذاتياً إحدى أبرز منصات البيانات الخاصة بالنماذج الكبيرة في الصين، حيث تجمع أكثر من 7700 مجموعة بيانات مفتوحة المصدر ومصنفة بدقة، وقدّمت أكثر من مليوني خدمة بيانات لأكثر من 100 ألف مستخدم. وحقق الإصدار الأخير MinerU 2.0 تحسناً كبيراً في السرعة والدقة، حيث استطاع تحقيق أداء يضاهي نماذج كبيرة بحجم 72 مليار معلمة باستخدام 0.98 مليار معلمة فقط.
تُعد دينغ تانغ (DingTalk)، التابعة لمجموعة علي بابا، منصة عمل متنقلة ذكية للشركات، تمتلك منتجات وثائق مؤسسية متقدمة وقاعدة مستخدمين ضخمة. وقد تم دمج قدرات MinerU بشكل عميق في منتجات مثل وثائق دينغ تانغ وجداول البيانات الذكية (AI Sheets)، والتي تقدم أيضاً عبر منصتها المفتوحة وظائف تحليل الوثائق للمطورين في النظام البيئي، مما شكّل أساساً تقنياً وعملياً متيناً لتطوير أداة DLU بالتعاون المشترك.
ستُطرح أداة DLU، المبنية على محرك MinerU، قريبًا كمشروع مفتوح المصدر، وتتميّز بتوافقها الممتاز مع تنسيقات الملفات المختلفة، وقدرتها العميقة على فهم المحتوى، وإنتاجيتها الدقيقة للبيانات المنظمة. فهي لا تدعم فقط التنسيقات الشائعة مثل مستندات Office وPDF وMarkdown وملفات الأكواد، بل تشمل أيضًا التنسيقات الخاصة بمنصة دينغ تانغ مثل وثائقها وجداولها والجداول الذكية (AI Sheets). كما تستطيع استخراج النصوص العادية، وتحليل الرسوم البيانية والمعادلات والرسوم التوضيحية وحتى الصيغ الجزيئية الكيميائية المعقدة، ثم تحويلها بكفاءة إلى مواد لغوية عالية الجودة تصلح لتدريب النماذج الكبيرة.
ستتكامل DLU بشكل عميق مع النظام البيئي للعمل التعاوني في دينغ تانغ لتحقيق دورة متكاملة في التطبيقات الذكية
في المستقبل، ستعتمد DLU على مزايا دينغ تانغ في بيئات الخدمات المؤسسية لتندمج بشكل أعمق في النظام البيئي للعمل التعاوني، مما يسمح للمستخدمين بإكمال كامل العملية ضمن منصة واحدة: من إنشاء الوثائق واستخلاص المحتوى، وإدارة قواعد المعرفة، ووضع العلامات على البيانات، حتى تدريب النماذج المخصصة، وبالتالي تحسين كفاءة تطوير تطبيقات الذكاء الاصطناعي والعمل اليومي بشكل شامل.
صرّح هه تشنغ هوي، العالم الشاب في مختبر شنغهاي للذكاء الاصطناعي، ومؤسس مشروعَي OpenDataLab وMinerU المفتوحين: "يتمتع MinerU بقاعدة مستخدمين واسعة، ونأمل في توسيع استخدامه أكثر في البيئات المؤسسية، والاستفادة القصوى من قيمة منصة OpenDataLab، والعمل مع الشركاء لبناء 'أداة بيانات على غرار PyTorch'، ومساعدة المزيد من الشركات على تحقيق حرية البيانات الجاهزة للذكاء الاصطناعي."
وأضاف تشو هونغ، كبير المهندسين التقنيين في دينغ تانغ: "إن طرح أداة DLU كمشروع مفتوح المصدر سيساهم بشكل فعّال في حل مشكلة إعداد البيانات التي تواجهها الشركات في عصر الذكاء الاصطناعي، وسيوطّد أسس التحوّل الذكي. ونحن في دينغ تانغ نعمل بنشاط على بناء نظام بيئي جديد للذكاء الاصطناعي، ونتطلع للتعاون مع المزيد من الشركاء التقنيين والقوى العاملة في مختلف القطاعات، لتقديم دعم قوي لتحديث وتحويل الصناعات المختلفة رقمياً وذكياً."
We dedicated to serving clients with professional DingTalk solutions. If you'd like to learn more about DingTalk platform applications, feel free to contact our online customer service or email at

اللغة العربية
English
Bahasa Indonesia
Bahasa Melayu
ภาษาไทย
Tiếng Việt
简体中文