بالتعاون مع أكثر من عشر جهات رسمية: إطلاق مؤشر "بلسم" لتقييم النماذج اللغوية الضخمة العربية (LLM)
في خطوة هامة نحو تطوير الذكاء الاصطناعي واللغة العربية، تم الإعلان عن إطلاق مؤشر بلسم، وهو مجموعة بيانات اختبار متخصصة تهدف إلى تقييم أداء النماذج اللغوية الضخمة العربية. يهدف المؤشر إلى توفير إطار معياري لاختبار قدرات هذه النماذج في فهم وتوليد اللغة العربية على نحو أكثر دقة وجودة.
التعاون بين أكثر من 10 جهات
المؤشر هو نتاج تعاون بين أكثر من 10 جهات أكاديمية وحكومية من داخل المملكة العربية السعودية، مما يعزز الجهود المشتركة لدفع عجلة الابتكار في تقنيات الذكاء الاصطناعي والتعلم الآلي، وخاصة تلك المتعلقة باللغة العربية.
المهام اللغوية المغطاة
يغطي مؤشر بلسم 67 مهمة لغوية عبر أكثر من 50,000 سؤال، مما يجعله أداة قوية لتقييم النماذج اللغوية في مجموعة متنوعة من المهام. فيما يلي 10 من المهام اللغوية التي يتم تقييمها ضمن المؤشر:
- التصحيح النحوي (Grammar Correction): تهدف إلى قياس قدرة النموذج على اكتشاف وتصحيح الأخطاء النحوية في النصوص.
- الإجابة على الأسئلة (Question Answering): تختبر قدرة النماذج على الإجابة بشكل صحيح على الأسئلة بناءً على نص معين.
- استخراج المعلومات (Information Extraction): تختبر قدرة النموذج على استخراج معلومات معينة من النصوص، مثل الأسماء أو التواريخ أو الأماكن.
- توليد النصوص (Text Generation): تختبر قدرة النماذج على توليد نصوص جديدة بناءً على مدخلات معينة.
- الترجمة الآلية (Machine Translation): تقييم دقة النماذج في ترجمة النصوص من وإلى اللغة العربية.
- التعرف على الكيانات المسماة (Named Entity Recognition): تختبر قدرة النماذج على التعرف على الكيانات المسماة مثل الأشخاص أو المنظمات أو المواقع.
- تحليل المشاعر (Sentiment Analysis): تختبر هذه المهمة قدرة النموذج على تحديد نبرة النصوص سواء كانت إيجابية أو سلبية أو محايدة.
- ملء الفراغ (Fill in the Blank): تختبر هذه المهمة قدرة النموذج على إكمال النصوص بناءً على سياق الجملة.
- التلخيص (Summarization): تختبر قدرة النماذج على تلخيص نصوص طويلة إلى نقاط أساسية دون فقدان المعنى.
- التعرف على الموضوع (Topic Identification): تختبر قدرة النماذج على التعرف على الموضوعات الرئيسية في النصوص المختلفة.
أهمية مؤشر بلسم
يمثل مؤشر بلسم خطوة كبيرة نحو تحسين جودة النماذج اللغوية الضخمة العربية، حيث يوفر قاعدة بيانات اختبارية موحدة وقابلة للقياس لمطوري الذكاء الاصطناعي. سيساعد هذا المؤشر في تحديد نقاط القوة والضعف في النماذج الحالية، مما يدفع بالتالي لتطوير تقنيات أكثر دقة وكفاءة لخدمة المستخدمين الناطقين باللغة العربية.
للمزيد من التفاصيل، يمكن زيارة الموقع الرسمي لمؤشر بلسم.
صفحة أحد المطورين لبلسم: https://www.linkedin.com/in/qunaieer/