نحو بناء معجم آلي للغة العربية، نموذج الدكتور نبيل علي
د. عبدالعزيز بن عبدالله المهيوبي
يعد الدكتور نبيل علي من أبرز الباحثين الذين استطاعوا وضع نموذج معلومياتي “لمعالجة اللغة العربية”. وقد أصدر في هذا الشأن كتابا مهما تضمن تصوره لمعالجة اللغة العربية إضافة إلى مشاركته في العديد من الندوات والمؤتمرات الدولية التي انعقدت حول اللسانيات الحاسوبية.
لقد اعترف نبيل علي بصعوبة معالجة اللغة العربية بالنظر إلى اللغات الأوروبية، لأن العربية في اعتقاد الباحث أعقد اللغات السامية وأغناها صوتا وصرفا ومعجما، كما عزى تأخر دراسة اللغة العربية آليا إلى طبيعة هذه اللغة نفسها، مما أدى إلى ظهور مواقف متباينة ومتضاربة تتأرجح بين مؤيدين يرون في هذا التعقد والغنى تحديا حضاريا وعبقرية استثنائية، ومعارضين (مستشرقون بالخصوص) يتهمونها بالقصور والعجز. وفي هذا النطاق عمل نبيل علي على دحض هذه المزاعم وتجاوز هذه الأحكام المجانية، فقام بإبراز خصائص اللغة العربية وخلص إلى فكرة مؤداها أن اللغة العربية لغة طبيعية قابلة للحوسبة والمعالجة الآلية شأنها في ذلك كشأن اللغات الطبيعية الأخرى. ونشير أن الباحث حصر خصائصها العامة فيما يلي:
التوسط اللغوي: المقصود بهذه الخاصية، من وجهة نظر طوبوغرافيا اللغات، أن اللغة العربية تتسم بتوازن في معظم خصائصها يضعها في منطقة الوسط، فهي تنحاز نحو الشائع اللغوي وتكره الشاذ والشارد وتجمع بين كثير من الخصائص اللغوية المشتركة مع لغات أخرى.
الخاصية الصرفية: تتسم اللغات السامية بخاصية الاشتقاق الصرفي الجنسي على أنماط الصيغ، فهي تتميز بالاطراد الصرفي شبه المنتظم الذي أدى بالبعض إلى وصفها بالجبرية (نسبة إلى علم الجبر) بدرجة تقترب من حد الاصطناع. وإلى جانب اطراد الاشتقاق هناك أيضا ظاهرة التعدد الصرفي مثل (كاتبون- كتاب- كتبة- حاملون- حملة- حمالون).
المرونة النحوية: يقصد نبيل علي بالمرونة النحوية تلك الحرية التي تتمتع بها المقولات التركيبية داخل الجملة (التقديم والتأخير) إذ يصعب الحديث عن رتبة عربية محفوظة وقارة. تمثل هذه المرونة –في نظر نبيل علي- تحديا حقيقيا للتنظير العربي والمعالجة الآلية للنحو، يعود سبب هذه الصعوبة إلى كون النماذج اللغوية المتوفرة وضعت أصلا لمعالجة اللغات الأوروبية (الفرنسية، الإنجليزية..) التي تتوفر على رتبة محفوظة من نمط (VSO)، وهذا يعني أن الباحث ينبغي له أن يراعي جميع الاستعمالات الممكنة لأنماط الجملة العربية بفعل عمليات التقديم والتأخير، والحذف، والإبدال، والإضمار. لإبراز الخصائص الملازمة لنحو اللغة الإنجليزية مثلا يحتاج الدارس –حسب نبيل علي- إلى ما يقرب من 1000 قاعدة رياضية، في حين يبلغ عدد قواعد نحو اللغة العربية غير المشكلة إلى ما يزيد على 12 ألف قاعدة رياضية.
الانتظام الصوتي: يتسم نظام اللغة العربية المقطعي والنبري بالبساطة، حيث تبدأ جميع المقاطع بالصامت ولا يمكن أن نجد مقطعا مؤلفا من صامتين متعاقبين، أما تحديد موضع النبر في الكلمة العربية فيتوقف على سلسلة حروف الكلمة دون اعتماده على عوامل خارجية.
تعد هذه الخاصية –في نظر نبيل علي- ذات أهمية كبيرة في توليد المعجم وتمييزه آليا، حيث يسهل تطريز أنماط النبر في الكلمات المولدة آليا. إذ يبدو الصوت في المولد طبيعيا لا ميكانيكيا، يمكن استغلال انتظام قواعد النبر في تمييز الكلمات المنطوقة آليا حيث يسهل نسبيا من عملية التعرف على مواضعه التي تساعده بدورها على التعرف على بنية الكلمة المنطوقة.
الحاسية السياقية:
يعني نبيل علي بالحساسية الساقية تآخي العناصر اللغوية مع ما يحيط بها أو ما يرد بها. تتميز اللغة العربية بحساسية سياقية عالية، تتمثل هذه الخاصية في مستويات متعددة: على مستوى الكتابة يتوقف شكل الحرف العربي على الحرفين السابق واللاحق له، على مستوى النحو تبتدئ مظاهر هذه الحساسية في علاقة المطابقة كتطابق الصفة مع الموصوف وتطابق الفعل والفاعل والمبتدأ مع خبره.
تعتبر هذه الخاصية في نظر نبيل علي من أهم الخصائص التي تعيق المعالجة الآلية للغة العربية، فاستغلال الحاسوب في نسق الكاليغرافيا اللاتينية ذات الأبجدية المنفصلة أمر بسيط مقارنة مع الكاليغرافيا العربية التي تفتقد إلى ما يسمى بالحروف الكبيرة Majuscules بالإضافة إلى انفرادها بالشكل.
6 – ثراء المعجم واعتماده على الجذر:
يرى نبيل علي أن تنظيم المعجم في أي لغة يرتبط بصلات وثيقة مع طبيعة عمليات تكوين الكلمات بها، أما تنظيم المعجم العربي فيتوقف على الجذر. انطلاقا من الجذر الثلاثي (ف.ع.ل) يمكن اشتقاق خمسة عشر صيغة من مزيدات الأفعال، تتيح كل صيغة منها صيغة مطردة.
لقد عمل نبيل علي على إظهار الخصائص العامة التي تتميز بها اللغة العربية لتكون أرضية منهجية ومعرفية لوضع نموذج معلومياتي يأخذ بعين الاعتبار بنية اللغة العربية النحوية والصوتية والصرفية ويتجاوز كل الأعطاب الإبستمية التي قد تعيق مشروعه العلمي.
في ضوء خصائص اللغة العربية المذكورة سلفا، وضع نبيل علي نموذجا آليا لحوسبة هذه اللغة التي لا زالت لم تستفد، بما فيه الكفاية، من الثورة المعلومياتية التي غزت مختلف المجالات. نظرا لضيق المجال سنكتفي بعرض الخطوط العريضة للنموذج الآلي الذي اقترحه الدكتور نبيل علي لمعالجة اللغة العربية آليا.
معالجة الكتابة العربية آليا:
أ – شق تحليلي: تمييز آلي للكتابة العربية المنسوخة والمطبوعة واليدوية.
ب – شق تركيبي: توليد أشكال الحروف العربية آليا وفقا لأنماط الكتابة المختلفة.
معالجة الصرف العربي آليا:
أ – شق تحليلي: محلل صرفي آلي متعدد الأطوار قادر على تحليل الكلمة العربية على اختلاف أنواعها وتشكيلها إلى عناصرها الاشتقاقية والتصريفية والإعرابية.
ب – شق تركيبي: مركب صرفي آلي قادر على تكوين الكلمات العربية من الجذور والصيغ الصرفية أو المعطيات الصرف – نحوية للكلمة (الإفراد – التثنية – الجمع – المتكلم – المخاطب – الغائب – المذكر – المؤنث – حالات إعرابية أخرى).
ميكنة المعجم العربي:
أ – شق الخدمات: معجم عربي مميكن على أساس صرفي ومزود المعجمية بالمعطيات النحوية والدلالية على هيئة مجموعة متسقة ومتكاملة من السمات والملامح اللغوية.
ب – شق التطوير: قاعدة نصوص منتقاة لدعم البحث المعجمي مزودة بوسائل آلية لفرز النصوص وتصنيفها والترميز لها بمؤشرات نحوية ودلالية التي تساعد على كشف بنية هذه النصوص.
معالجة النحو العربي آليا:
أ – شق التحليل: نظام آلي لإعراب الجملة العربية تلقائيا بغض النظر عن مستوى تشكيلها.
ب – شق التركيب: مركب آلي للجملة العربية قادر على توليد الأنواع المختلفة للجمل العربية، وإعادة صياغتها وتشكيلها بالقدر المطلوب، وذلك على أساس البنية المنطقية العميقة لهذه الجمل.
معالجة الدلالة آليا:
أ – شق التحليل: نظام آلي للفهم الأوتوماتي للجمل العربية مزود بوسائل متعددة لفك اللبس الناجم عن غياب التشكيل مستغلا المعالجات الصرفية والنحوية السالفة الذكر.
ب – شق التركيب: وسائل آلية لتحويل المعاجم والنصوص العربية إلى شبكات دلالية لتوليد جمل عربية.
معالجة السياق العربي المتصل آليا:
أ – شق التحليل: نظام آلي للفهم الأوتوماتي العميق للنصوص العربية يبنى على أساس الأساليب الحديثة لعلم الدلالة باستخدام الأطر والسيناريوهات التي تعتمد على الافتراضات المسبقة والمتوقعة.
ب – شق التركيب: مولد للنصوص العربية قادر على التعامل مع المفاهيم لتأليف النصوص. ترتبط هذه المعالجات بعضها مع بعض بصلات وثيقة وتحث المستعمل على التأمل في حدود العلاقات الموجودة في مختلف المستويات المعالجة. وبالنسبة لتطبيقات المعلوميات فقد صنفها نبيل علي في مستويين من التطبيقات: تطبيقات أساسية وتطبيقات مركبة أو “فوقية” تشمل الأولى نظم المعلومياتية التالية والتي تم تفريع كل منها إلى شقين رئيسيين:
معالجة البيانات (المعطيات).
ـ نظم قواعد البيانات.
ـ نظم نقل البيانات.
معالجة النصوص:
ـ تحليل النصوص (تحليل أساليب الكتاب، فهرسة آلية..).
ـ تأليف النصوص.
استرجاع المعلومات:
ـ قواعد النصوص الكاملة.
ـ تخاطب مع قواعد البيانات باللغة الطبيعية.
معالجة المعارف:
ـ إنشاء قواعد المعارف.
ـ آلة الاستدلال المنطقي.
الترجمة الآلية:
ـ الترجمة من العربية إلى اللغات الأجنبية.
ـ الترجمة من اللغات الأجنبية إلى العربية.
معالجة الكلام العربي آليا:
ـ توليد الكلام آليا.
ـ تمييز الكلام وفهمه أوتوماتيا.
لقد قام الدكتور نبيل علي بتبسيط هذا النموذج الآلي المعروض –بإيجاز شديد- في رسم بياني وأكد في هذا النطاق أن اللسانيات الحاسوبية تخول للباحث عدة أدوات ووسائل هائلة تمكنه من حوسبة اللغات الطبيعية في الآتي:
وسائل آلية لـ”تعمية” النصوص العربية بغية حفظ سرية المعلومات.
ضغط النصوص العربية بأسلوب صرفي.
اكتشاف الأخطاء الإملائية تلقائيا بأسلوب صرفي.
اكتشاف الأخطاء النحوية وتصويبها تلقائيا.
قراءة النصوص العربية آليا.
التشكيل التلقائي للنصوص العربية.
تحليل الفائض الصرفي للنصوص العربية.
تحليل الفائض النحوي للنصوص العربية.
توليد الجمل العربية آليا.
تأليف النصوص العربية في شكل شبكات دلالية.
تطبيق وسائل الدلالة التفضيلية في قراءة النصوص العربية غير المشكلة.
تحديد أنماط النبر والتنغيم للكلمات والجمل العربية.
تخمين الكلمات في نظم وتمييز وفهم الكلام آليا.
تحليل “لغة المصدر” في نظم الترجمة الآلية من العربية إلى اللغات الأجنبية وتوليد لغة الهدف في الترجمة من اللغات الأجنبية إلى اللغة العربية.