بحوث في اللسانيات الحاسوبية

نماذج مختلفة من أساليب معالجة التحليل الصرفي للغة العربية مع تصنيفها

غير معروف

1- المقدمة:

1-1- نظرة عامة إلى المشكلة

يهتم الباحثون في العديد من مجالات علوم الحاسب بتطوير أنظمة لتحسين التفاعل بين البشر والحاسبات. وتمثل أنظمة معالجة اللغة الطبيعية أحد أهم مجالات البحث لخدمة هذا الاهتمام. فتقنية التحليل الصرفي هي معالجة حسابية تحلل الكلمة الطبيعية إلى أجزائها الصرفية. وتشكل تقنيات التحليل الصرفي الأساس لمعظم أنظمة معالجة اللغة الطبيعية. وهي بالعادة تؤثر على مستويات أخرى أعلى للتحليل مثل التحليل النحوي والدلالي. ومثل هذه التقنيات تفيد بشكل كبير في العديد من التطبيقات ، مثل استرجاع المعلومات، تصنيف النصوص، القاموس الآلي ، ضغط النصوص، تشفير البيانات و مساعدات الإملاء والضبط بالشكل.

يؤدي بنا النمو السريع لكمية المعلومات المتوفرة هذه الأيام إلى عصر المعلومات. وقد سبب التوسع في المعلومات بعض الصعوبات في البحث عن معلومات محددة. وتم تطوير العديد من الأدوات للمساعدة في إدارة المعلومات والتحكم بها خلال العقود القليلة الأخيرة. ويمكن تعريف نظام استرجاع المعلومات على أنها مجموعة من الأدوات التي تهتم بتمثيل وتخزين وترتيب و الوصول إلى مواد المعلومات.

وبعد عدة عقود من نشاطات البحوث المتعمقة في محللات الجذوع الإنجليزية، أصبحت تقنيات التحليل الصرفي العربية مجالا دارجا للبحث. واللغة العربية هي إحدى اللغات السامية التي لها بنية صرفية منتظمة، ولكنها معقدة حيث تستخدم أنظمة الجذر والوزن. نظراً لطبيعتها غير اللصقية، تعتبر معالجة اللغات السامية مثل اللغة العربية مهمة غير سهلة. فبالرغم من أن الكلمات العربية يمكن بناؤها من ربط الوحدات الصرفية، إلا أنه يتم بناؤها عادةً عن طريق نظام الجذر والوزن . فعلى سبيل المثال، كلمة كاتب مثلاً تتكون من الجذر ك ت ب + وزن فاعل . كما أن اللغة العربية لغة معقدة وغنية من الناحية الصرفية. فمن الممكن بناء عشرات، بل مئات الكلمات باستخدام جذر واحد، ببضعة أساليب وبضعة زيادات. بالإضافة إلى ذلك، فإن اللغة العربية لديها درجة عالية من الغموض، لعدة أسباب، منها إهمال حروف العلة والحركات القصيرة في الكتابة العادية والتشابه بين حروف الزيادة وحروف الجذر.

 تؤثر السمات المميزة للغة العربية بشدة على عملية الاسترجاع. فتعقد مثل هذه السمات المهام المرتبطة بعمليات الاسترجاع. لذلك يجب البحث عن طرق جديدة لأنظمة استرجاع المعلومات العربية لاستغلال ومهاجمة المشاكل المتعلقة بالبنية الصرفية للغة العربية. كما أن لتقنيات التحليل الصرفي مشاكلها الخاصة بها. فيلاحظ أن مختلف تقنيات التحليل الصرفي المقترحة للغة العربية تعتمد على عمليات حسابية معقدة وتواجد كمية كبيرة من المعلومات ذات العلاقة. كما أن استغلال التقنيات الصرفية المتوافرة يقلل بشدة من فعالية أنظمة استرجاع المعلومات.

نتيجة لذلك، فإن كمية المعلومات الكبيرة المتوفرة باللغة العربية والحاجة لمختلف التطبيقات اللغوية الحسابية، تزيد من الحاجة لتطوير تقنيات تحليل صرفية عربية فعالة. لقد تم خدمة اللغة الإنجليزية ولغات أخرى لوقت طويل، بينما العمل على اللغة العربية لا يزال في مرحلة البزوغ. وهذه تزيد من أهمية تصميم تقنيات تحليل صرفية عربية فعالة تزيد من أداء الاسترجاع.

وتعتبر خدمة اللغة العربية بحد ذاتها هدفا أساسيا، فهي لغة القران الكريم والسنة النبوية الشريفة وهي اللغة التي يتحدث بها ملايين الناس حول العالم كما أنها حافظت على التراث والثقافة العربية لقرون طويلة. وفي هذه الأيام يظهر عدد كبير من مجالات البحث مثل أنظمة استرجاع المعلومات المتعددة اللغات. وتتطلب مثل هذه المجالات فهما عميقا للغات الموجهة  بما في ذلك اللغة العربية.

1-2- الهدف من الدراسة :

تهدف هذه الدراسة إلى عرض موجز لنماذج مختلفة من أساليب معالجة التحليل الصرفي للغة العربية مع تصنيفها ، ثم محاولة تقديم عرض أكثر تفصيلا لإحدى هذه الجهود الجديدة .

2- خلفية الموضوع:

2-1 أهم التعريفات:

الوحدة الصرفية:        هي أصغر وحدة لها معنى.

الجذر:          هو وحدة صرفية واحدة تحمل المعنى الأساسي للكلمة مثل : ك ت ب [1].

الجذع:         هو وحدة صرفية أو مجموعة وحدات صرفية متسلسلة والتي تقبل زائدة لاشتقاق الكلمة في شكلها النهائي، مثل “كتاب” و”استغفار” .

الزائدة:          هي وحدة صرفية يمكن إضافتها  قبل أو بعد أو في داخل الجذر أو الجذع كسابقة أو لاحقة أو زائدة وسطية بالتتابع لإنشاء كلمات جديدة أو معاني جديدة ، مثل الواو والنون في “مسلمون”  [3,2].

الصرف:        هو فرع اللغويات الذي يتعامل مع البنية الداخلية للكلمات.

تقنية تحليل صرفية:      هي عملية حسابية تحلل الكلمات الطبيعية عن طريق الأخذ بالاعتبار بنياتها الداخلية.

التحليل إلى جذوع:      هي طريقة لجعل الكلمة قياسية تستخدم لربط بعض الكلمات المرتبطة صرفياً، مثل  تحليل كتبوا ويكتبون وتكتبين إلى الفعل “كتب”.

الصرف ذو المستويين: هو نظام للتعرف على الكلمة والتي تحتوي مرحلة منتهية ذات مستويين صوتية وصورية [4،5]

2-2- قياس فاعلية أسلوب التحليل الصرفي:

إن قياس فاعلية أي محلل للصرف تعتمد على عدة عوامل أهمها: الفاعلية، صحة النتائج، السرعة، قلة نسبة الخطأ، ثنائية الاتجاه، صغر الحجم، وحسن الأداء في الاسترجاع.

تعتبر الفاعلية من أهم العوامل التي تستخدم عادة في ترتيب مدى فاعلية خوارزميات التحليل الصرفي. فيعتبر مدى تعقيد المعالجة وحجم الجداول المستخدمة هي أكثر الأسباب المساهمة في البطء. بعض الدراسات تقترح استعمال عامل التكرار لقياس الفاعلية الذي يمكن حسابه عن طريق قسمة عدد التقسيمات الممكنة للكلمة على عدد التقسيمات المقترحة من قبل البرنامج. وتوجد هناك علاقة وطيدة ببن عامل التكرار هذا والسرعة.

أما الدقة، فهي القدرة على تحليل جميع الكلمات المدخلة، وإعطاء تقسيم صحيح واحد على الأقل. والدقة تتأثر بالقدرة على تمييز كلمات التوقف، والكلمات الأجنبية وبالنسبة للغة العربية: فإن إمكانية التعامل مع بعض الظواهر المعقدة مثل التشكيل، والإدغام (كالذي في التشديد)، والإعلال، والإبدال، والأسماء والأفعال الجامدة، وقدرة التعامل مع كل من الجذور الثلاثية والرباعية والخماسية لها تأثير مباشر على مدى الدقة.

وبالنسبة لصغر الحجم، فهو يدل على حسن استخدام الخوارزمية لموارد الحاسوب. كما تمثل ثنائية الاتجاه القدرة على كل من التحليل والتوليد. بالتالي استطاع بعض الباحثين ضغط  النصوص باستخدام خوارزميات التحليل الصرفي، ومن هنا يمكن استخدام نسبة الخطأ لتقييم فاعلية محلل الصرف.

2-3- لغات الصرف:

تختلف اللغات بشكل واضح من ناحية التعقيد الصرفي، فاللغة الإنجليزية على سبيل المثال هي أبسط من بعض اللغات الأخرى مثل العربية والعبرية من الناحية الصرفية. واللغات الأوربية عموماً هي أكثر تعقيداً من اللغة الإنجليزية من الناحية الصرفية. فاللغة السلوفينية على سبيل المثال, هي لصقية مثل اللغة الإنجليزية إلا أنها أكثر تعقيداً من الناحية الصرفية. عملية إزالة الزوائد في اللغة الإنجليزية وغيرها من اللغات المشابهة لها أبسط مما هي في اللغة العربية. وفي بعض اللغات الأكثر تعقيداً فإن إزالة اللواحق وحدها لن يكون كافياً لكي تستخدم من قبل تطبيقات اللغة الطبيعية.

والفرق الرئيسي بين اللغة العربية وغيرها من اللغات هي أنها اشتقاقية أما اللغات الأخرى فهي لصقية.

2-4- التحليل الصرفي واسترجاع المعلومات:

يتم حالياً تطوير أبحاث عديدة للتحليل الصرفي للغة العربية. ولكن حتى الآن، لم تظهر أي خوارزمية قياسية لاسترجاع المعلومات، بينما تستخدم الطرق المتوفرة حالياً في مجال محدد لاسترجاع المعلومات [6،7].

استنتج الباحثون أن استرجاع المعلومات العربية يمكن تطويره، حينما تستخدم الجذور في عملية الفهرسة والبحث. ولكن الصرف العربي معقد، والتعرف على الجذر يمكن أن يقلل من الفعالية، عندما يستخدم في أنظمة استرجاع المعلومات. فسر السويني [8]  نظرياً أن استعمال التحليل الذي يوصل إلى الجذر يمكن أن يكون مفيداً في المعاجم وتطبيقات أخرى للغة الطبيعية ولكن ليس لمهام استرجاع المعلومات. السبب وراء ذلك هو أن استخدام الجذر يسبب دمج عدد أكبر من العبارات وإنشاء مجموعات (أصناف) مدموجة خاطئة، والتي تقلل من الأداء من خلال تقديم عبء إضافي.

الدراسات المنشورة للمقارنة بين استخدام الجذور واستخدام الجذوع لاسترجاع المعلومات متباينة ومختلفة. فالدراسات القديمة تكشف أن الكلمات التي تشترك في الجذر مرتبطة دلالياً، كما يذكر أن فهرسة الجذر يتفوق في الأداء على فهرسة الجذع في أداء عملية الاسترجاع ]9،10،11[. إلا أن الأعمال الأخيرة تبين نتيجتين مختلفتين. أما درويش لم يجد اختلاف شديد بين الجذور والجذوع (2001 كما ذكر في [7] ) بينما أظهر الجليل وفريدر  [12]أن الاسترجاع المعتمد على الجذع أكثر فعالية من الاسترجاع المعتمد على الجذر. فالدراسات القديمة التي تظهر تفوق الجذور على الجذوع تعتمد على مجموعة اختبارات صغيرة وغير قياسية تؤدي إلى نتائج غير مبررة.

المشكلة الرئيسية للخوارزمية المعتمدة على الجذر في عملية استرجاع المعلومات هي أن العديد من التهجئات المختلفة للكلمة ليس لديها تفسيرات دلالية متشابهة. أي بالرغم من أن هذه الكلمات تنشأ وتنتج من نفس الجذر, إلا أنها مختلفة في المعنى. لذا، استخدام الخوارزميات المعتمدة على الجذر في الاسترجاع تزيد من غموض الكلمة. كما أن فك الغموض من ناحية حس الكلمة هو أمر ضروري لتطوير أي نظام لاسترجاع المعلومات العربية [6،7،10،12،13].

2-5-  الخاتمة:

  • السمات المميزة والمعقدة للغة العربية واللغات السامية الأخرى، تجعل من تطوير أنظمة اللغة الطبيعية مهمة غير سهلة.
  • نظراً لتعقيد اللغة العربية، فإن استخدام تقنيات التحليل الصرفية المصممة بشكل ممتاز، كجزء من أنظمة استرجاع المعلومات، أداة مفيدة جداً.
  • على مستويات عدة لا توجد مقاييس. فلا يوجد أي منها للمصطلحات اللغوية العربية الأساسية وتعريفاتها، كما لا توجد للمصطلحات وترجماتها إلى اللغة الإنجليزية، ولا توجد أي مقاييس لمجموعات الاختبار وتقييمات الأداء.

لا تزال بعض المجالات مفتوحة للبحث والتحقيق، والتطويرات المستقبلية قد تكون متصورة. وبعض المسائل والقضايا المهمة يمكن تلخيصها كالتالي:

  • تطوير مقاييس للمصطلحات اللغوية العربية، تعريفاتها وترجماتها، قوائم كلمات شاملة وإجمالية ومجموعات اختبار.
    • تطوير تقنيات التحليل الصرفي العربية العامة والخاصة.

3- دراسة مسحية للتحليل الصرفي للغة العربية:

3-1-  تصنيف أساليب تحليل الصرف العربي:

هنا، سوف نعرض مراجعة للتصنيفات المقترحة لتقنيات التحليل الصرفي للغة العربية، مع ملاحظات مختصرة ووصف تفصيلي لكل تقنية. التصنيف المقترح معطى في نهاية هذا الفصل.

3-1-1- التصنيفات المقترحة:

الفديغي والعنزي [14] صنفاً الخوارزميات إلى أساليب لغوية وأساليب توليفية . الأسلوب اللغوي يتطلب عدداً كبيراً من الجداول والقوائم. والنتيجة هي نظام صرفي عربي متطور. يحتاج من أجل تطويره مجموعة من القواعد لإيجاد التفكيكات المناسبة، هذا الأسلوب يعتمد على تحليل صرفي موسع ومتعمق  للغة العربية. على الجانب الآخر،  الأسلوب التوليفي ، يولد جميع الصيغ والترتيبات للحروف من الكلمة المختبرة. ويتم مقارنة الصيغ الناتجة ضد مجموعات من الجذور، وعند إيجاد الشبيه، يتم استخلاص الجذور المقبولة.

ويبدو أن التصنيف الذي اقترحه الفديغي معقول،  وهو يعكس الأنواع الرئيسية من المحللات.

اقترح Larkey et al. [7]  تصنيف محللات الجذوع العربية إلى أربعة أنواع مختلفة، هي المعاجم المنشأة يدوياً، محللات الجذوع الخوارزمية الخفيفة، المحللات الصرفية و محللات الجذوع الإحصائية.  Buckwalter [15] ، الذي يمثل مثال واحد على المعاجم المنشأة يدوياً، طور مجموعة من المعاجم لجذوع عربية، سوابق، لواحق، مع جداولها التوافقية. التحليل الخفيف إلى الجذوع يشير إلى عملية تجريد مجموعة صغيرة من السوابق و/أو لواحق، بدون محاولة التعامل مع الزوائد الوسطية، أو التعرف على الصيغ وإيجاد الجذور. المحللات الصرفية تحاول إيجاد الجذور بينما محللات الجذوع الإحصائية تجمع الصور المختلفة للكلمة باستخدام تقنيات التجميع. هذا التصنيف هو خليط من أسلوبين تصنيفيين مختلفين.  

3-1-2- تصنيفات مقترحة أخرى:

كما هو موضح في الشكل 3.1، يعتقد أن تقنيات التحليل الصرفي للغة العربية يمكن تصنيفها إلى أربعة أنواع رئيسية، وهي أسلوب جدول البحث، أسلوب لغوي، أسلوب توليفي والأسلوب المعتمد على القواعد.

في أسلوب جدول البحث، جميع الكلمات العربية المقبولة بالإضافة إلى تفكيكاتها الصرفية مخزنة في جدول كبير جدا. الكلمة المعطاة تحلل ببساطة عن طريق دخول الجدول واسترجاع المعلومات المتعلقة بذلك المدخل.

 الأساليب اللغوية، على الجانب الآخر، تستفيد من القواعد اللغوية التي يتم استخراجها واستنتاجها عن طريق التحليل العميق للنظام الصرفي العربي. هذه العملية تمثل تصرف عالم لغوي خلال تحليل كلمة عربية معطاة.

 الأساليب التوليفية هي عمليات تجربة وخطأ، حيث أن جميع الصيغ لحروف من كلمة معطاة يتم اختبارها ومقارنتها مع مجموعة من الجذور.

 وأخيرا، فإن الأسلوب المعتمد على القواعد هو أسلوب جديد مقترح، حيث يستغل هذا الأسلوب التشابه الملحوظ للكلمات العربية الطبيعية المولدة. يتم توليد تعبير عادي لكل تشكيلة عربية مميزة ويتم توسيعها عن طريق إضافة جميع الزوائد المقبولة.

3-2-  نظرة عامة على أساليب تحليل الصرف العربي:

في هذه الفقرة، يتم إجراء دراسة مسحية للتحليل الصرفي للغة العربية والتي تتضمن وصف الخوارزمية، طريقة تنفيذها ومميزاتها ومساوئها.

3-2-1- أسلوب جدول البحث:

يعتمد أسلوب جدول البحث خصوصاً على جداول كبيرة جداً لتخزين الكلمات العربية التي توجد في النصوص الطبيعية مع أجزائها الصرفية المقابلة. هذه الأجزاء تتضمن الجذع، الجذر والزوائد. ويمكن لهذه الكلمات أن تتضمن الكلمات العملية والفعلية، الكلمات الأجنبية والأسماء الصحيحة حيث تستخدم كل كلمة مدخل مميز في الجدول كما هو موضح في الشكل 3.2 . يمكن أن توجد المدخلات المتعددة بالنسبة للكلمات التي تكتب بنفس الطريقة، لكي تعكس إمكانية تحليلات متعددة.

يتم ترتيب مدخلات الجدول حسب الترتيب الهجائي. ويمكن استخدام جدول أو قائمة بحث ثنائية لتحسين عملية البحث. بالإضافة إلى ذلك، يمكن استخدام تقنية الضغط لتخفيض متطلبات التخزين. تكون سهولة التحليل الصرفي حين إذ، كسهولة دخول جدول أو شجرة البحث الثنائية.

حتى وان كانت هذه الأساليب دقيقة، فإن المشاكل المتعلقة بها تتضمن نقص مثل هذه البيانات المضغوطة، الحاجة إلى شغل كثير جدا: يتضمن جهد لغوي لتطويرها، والوقت اللازم للتخزين الإضافي والوقت اللازم لاسترجاع مثل هذه البيانات [5،6].

الكلمةالجذعالجذرالسوابقاللواحق
التحليلتحليلح ل لال 
    
تحليلتحليلح ل ل  
    
تحليلهتحليلح ل ل هـ
    
والتحليلتحليلح ل لوال 
    
وبتحليلاتتحليلح ل ل ات
    
الجدول 3,2 مداخل الكلمات في جدول البحث  

3-2-2- الأسلوب التوليفي:

تقارن الأساليب التوليفية الكلمات المختبرة مع قوائم تم إعدادها مسبقاً للجذور والصيغ، والزوائد. المقارنة تعتمد على خوارزمية تختبر جميع الصيغ لثلاثة أو أربعة حروف لكلمة معطاة من أجل استخلاص الجذر. وبشكل عام، تعتبر مثل هذه الأساليب بسيطة ولكنها تأخذ وقت طويل للمعالجة وتتطلب قوائم كبيرة جداً.

الفديغي والعنزي [14]  طورا خوارزمية اقترحت سابقاً من قبل الفديغي والسعدون. تعالج الخوارزمية الكلمات ذات الجذور الثلاثية فقط، وهي بسيطة جداً وواضحة ولكنها بطيئة جداً (هي من ترتيب  O(n3) حيث n هو طول الكلمة). التطوير يتم تحقيقه عن طريق حل بعض المشاكل الصوتية أو الكتابية المهمة، مثل الإدغام، الإبدال، التشكيل والتشديد. الخوارزمية المطورة تستخدم قوائم من الجذور الثلاثية والصيغ مع جميع الترتيبات للزوائد. وهي تبدأ بمقارنة الكلمة المدخلة مع قائمة الصيغ لاستخلاص الجذر. بعد ذلك الخوارزمية تنفذ في أربعة أنماط لتغطية جميع الحالات الصوتية أو الكتابية الممكنة. حالات تغطي حذف أي حرف واحد، أي حرفين والتعامل مع الكلمات التي لم تتغير. إلا عند التعامل مع حذف حرفين، والتي تنتج أقل من  % 0.1  من الكلمات المختصرة، الخوارزمية سريعة إلى حد معقول. الفديغي والعنزي استنتجاً أن بعض القواعد اللغوية يمكن إضافتها إلى الخوارزميات التوليفية من أجل إنتاج خوارزمية غير متجانسة التي تجمع مميزات الاثنين.

الميزة الرئيسية من عملهما هو استخدام مجموعات من بيانات الاختبار، وتوفير معدل النجاح. أما العيوب الرئيسية من عملهما تتضمن معدل نجاح غير كافي، التقيد بالجذور الثلاثية ، البطء والوقت اللازم لتخزين الصيغ [8].

3-2-3- الأسلوب اللغوي:

تتطلب الأساليب المعتمدة على اللغة تحليلاً عميقاً للنظام الصرفي العربي. وتمثل هذه العملية تصرف عالم لغوي خلال تحليل كلمة عربية معطاة. في هذا الأسلوب، تتم مقارنة الكلمات المختبرة ضد قوائم من الزوائد أو كلمات توقف لاستنتاج ولاستخلاص الجذوع وبعد ذلك تقارن مع قوائم من الصيغ والجذور من أجل استخلاص الجذور

بشكل عام، مثل هذه الأساليب اللغوية هي أكثر دقة ولكنها تتطلب عدداً كبيراً جداً من القوائم التي يجب أن يتم إعدادها والتأكد منها لغويا. مثل هذه القوائم تتطلب وقتاً إضافياً للدخول إليها. بالإضافة إلى ذلك، الميكانيكية لإزالة الزوائد هي تقريباً عملية تجربة وخطأ، حيث أن دقة النتائج ليست مضمونة.

الأفندي [16] أعطى إطاراً للعمل، لأسلوب لغوي معتمد على مصفوفات التوافق. في هذا الإطار من العمل، وحيث أنه لا توجد قاعدة واضحة لربط الجذور إلى الصيغ، المصفوفات الموضحة في الشكل 3.5 يمكن استخدامها لمساعدة عملية التحليل. لاحظ أن “1” تدل أن التشكيلة المقابلة هي متوافقة مع الجذر الحالي و “0” تدل على زوج غير متوافق.

الجذر رقم110    10
الجذر رقم201    11
الجذر رقم س-111    01
الجذر رقم س00    10
الجدول 3,5 مصفوفات التوافق  

في اللغة العربية، هناك تقريباً 10,000 جذر و 900 تشكيلة. ليس كل جذر متوافق مع كل تشكيلة. الخبراء اللغويون يجب استشارتهم عند إنشاء مصفوفات توافق شاملة.

إذا كانت مصفوفات التوافق لجميع الجذور متوفرة، عندئذ يمكن استخدام الخوارزمية اللغوية العامة. وعندما يتم إيجاد الجذور، يجب التأكد منها في المصفوفات للتأكد من التوافق بين الجذور والصيغ المقترحة.

4- برامج تحليل الألفاظ العربية المبنية على القواعد:

في هذا القسم من البحث نناقش بشيء من التفصيل أحدث برنامج للتحليل الصرفي للغة العربية عن طريق القواعد، وهو المشروع الذي قام به عماد الصغير.

نظراً إلى طبيعة اللغة العربية غير اللصقية، فإن معالجة اللغة العربية ليست مهمة سهلة. الفرق الرئيسي بين اللغة العربية وأكثر اللغات الأخرى هو تعقيدها وبنيتها الصرفية الغنية. اللغة العربية هي لغة اشتقاقية بينما أكثر اللغات الأخرى تسلسلية. أكثر الكلمات العربية يتم بناؤها وإنشاؤها اعتماداً على بنية الجذور والأوزان. توليد الكلمة العربية تتأثر بشدة بسماتها الصرفية.

فعشرات أو مئات الكلمات تولد باستخدام جذر واحد، بعض الصيغ وبعض الزوائد اعتماداً  على الجذر والوزن. بالإضافة إلى ذلك، اللغة العربية لديها درجة عالية من الغموض لعدة أسباب مثل نقص حروف العلة والحركات وكذلك التشابه بين الحروف الزائدة وحروف الجذع أو الجذر. تبين رسم بياني للتحليل العربي وعمليات التوليد والإنشاء.

4-1- المادة اللغوية لتصميم المحللات الصرفية واختبارها:

يتم تطبيع الكلمات المستخلصة بإزالة حروف العلة ثم تخزن في ملف ثنائي بنفس ترتيب النص الأصلي. بما أن ترتيب الكلمة محفوظ، يسهُل استنتاج المعنى النصي لأي كلمة وذلك عن طريق سرد بعض الكلمات التي تسبق وبعض الكلمات التي تلحق الكلمة الحالية. ثم التحقق من كل كلمة في الملف يدويا منً حيث الجذع، يتم توليد السوابق واللواحق يدوياً وتخزينها في نفس الملف.

بنية ملف الكلمة في الملف الثنائي مبينة في الشكل 4.2. كل كلمة في المادة اللغوية يتم إعطاؤها رقم تعريف. هذا الرقم يمثل في خانة (هوية الكلمة). خانة (الكلمة) تمثل الكلمة نفسها بينما خانات (السوابق)، (الجذع) و (اللواحق) تمثل المكونات الصرفية للكلمة. بقية الخانات تستخدم أثناء مرحلة إنشاء القاعدة. خانة (عدد القواعد المؤدية إلى التحليل) تعطي عدد القواعد المؤدية إلى التحليل لهذه الكلمة. خانة (سلسلة القواعد المتشابهة) تعطي ترتيب القاعدة المشابهة من بين القواعد المؤدية إلى التحليل بينما خانة (هوية القاعدة الصحيحة) تعطي رقم التعريف للقاعدة المشابهة أو الصحيحة. أخيراً، خانة (الحالة) تبين ما إذا كانت الكلمة جديدة أو مكررة. كل كلمة في المادة اللغوية يتم التحقق منها يدوياً لإنتاج المكونات الصرفية بما في ذلك الجذع والزوائد.

هذه المادة اللغوية يمكن استخدامها لدراسات لغوية مثل تقنيات التحليل الصرفي، التوافق مع الزوائد وتحاليل لغوية أخرى.

عادةً، يكون النص الطبيعي المجمع المستخدم في اللغة العربية المعاصرة مليء بالأخطاء الإملائية والإملاءات المختلفة. والأخطاء تصحح جزئياً أثناء مرحلة المعالجة اليدوية ومن ثم تتم تكملة تصحيحها شبه أوتوماتيكياً.

سنتبع ذلك ببعض السمات الإحصائية للمادة اللغوية. الشكل 4.4 يبين توزيع الطول للكلمات. أكثر الكلمات ذات الحرفين، وبعض الكلمات ذات الثلاثة أحرف، هي في الحقيقة كلمات توقف. بالإضافة إلى ذلك، أكثر الكلمات ذات الأطوال العالية هي كلمات أجنبية. المتوسطات تم حسابها عن طريق إيجاد درجة الشيوع لكل كلمة في المادة اللغوية، عدد الكلمات الكلي لكل من درجات الشيوع وأخيراً متوسط إحصاء الكلمات لكل عشرة درجات شيوع متتابعة. الأشكال تبين توزيعاً طبيعياً على طقم المادة اللغوية. أكثر الكلمات والجذوع مكررة أقل من عشر مرات وبالتالي تعطي ثقة أكبر على المادة اللغوية.

4-2- تركيب البيانات:

يتم توليد قاعدة معتمدة على التعابير العادية تميز مجموعة من الكلمات العربية المتشابهة والتعابير العادية هي صيغ صغيرة من الحروف أو مجموعات بحث عن كلمة رئيسية بسيطة, تستخدم لإيجاد الشبيه لصيغ معقدة في كلمات نصية. وهي تعابير قوية تصف تشكيلة من النص بدلاً من مجموعة حرفية فرعية. ويمكن استخدامها بطريقة معقدة للبحث وإيجاد الشبيه للصيغ في النصوص وقواعد البيانات، وعند إيجادها، الصيغ تطور، تستخلص، أو تستبدل مع كلمات أخرى.

القواعد تستخدم لوصف البنية الصرفية الداخلية للكلمات العربية وتوجيه عملية التفكيك لكلمة معطاة إلى مكوناتها الأساسية مثل جذع، سوابق ولواحق. القواعد تكتب من اليمين إلى اليسار لمطابقة اتجاه الكتابة النصية في اللغة العربية. تشكيلة القاعدة يمكن أن تحتوي إلى ثلاثة أجزاء منفصلة ومختلفة. الجزء الأول والأخير تصف خصائص الزوائد للكلمة بينما الجزء الأوسط يتحكم في عملية استخلاص الجذع. زوج من الأقواس المثلثية تحيط بأجزاء الزوائد. غياب السوابق أو اللواحق في صيغ القاعدة يتم ترميزه في بعض الأحيان بأقواس مثلثية فارغة. ذلك ضروري من أجل تفريقهما عن الأقواس المثلثية التي هي جزء من الجذع.

تختلف درجة تعقيد القاعدة من قواعد سهلة، إلى قواعد في غاية التعقيد، والتي تتعامل مع التصريفات الصرفية المعقدة. بعد تحليل عميق للمادة اللغوية التي تم اختيارها عشوائياً مع البنية التالية:

جزء السوابق    جزء الجذع      جزء اللواحق

حيث:

جزء السوابق    يمثل السوابق المرتبطة، إذا وجدت، ويمكن رسمه من قائمة منتهية من السوابق المبينة في الجدول 4.6  .

جزء الجذع      يمثل بنية الجذع ويقود عملية استخلاص شكله الأصلي.

جزء اللواحق    يمثل اللواحق المرتبطة، إذا وجدت، ويمكن رسمه من قائمة منتهية من اللواحق المبينة في الجدول 4.7  .

وسوكفال
ولوالكالفالب
وللوبلفسبال
وبالللفلس 
الجدول 4,6 قائمة للسوابق الموجودة في نص  
ياتوكتا
يةواكمةات
يتناونماتاناتكم
يتهاونناناتماتنا
ينونهنيتموهااته
يهوههتنااتها
يهاوهاهاتهاتهم
يونوهمهمتهااتيية
يينيهماتهمان
ياهنتينالجدول 4,7 قائمة للواحق الموجودة في نص   اها

محتوى جزء الجذع يمكن المرور بعمليات تبديل، حذف و/أو إضافة. جزء اللواحق، يمكن المرور بعمليات تحسين و/أو مطابقة بسيطة. في جزء السوابق، هناك فقط عمليات مطابقة بسيطة.

صيغ القاعدة يتم بناؤها باستخدام الوسائل التالية:

<str>         لمطابقة سلسلة الحروف str  ولحذفها إذا كانت في جزء الجذع أو اعتبارها

               سوابق/لواحق إذا كانت في جزء السوابق/اللواحق.

<s1 ^s2>    لاستبدال s1 ب s2 في أجزاء الجذع واللواحق. هذه العلامة تستخدم أيضا                                   

               للإضافة <^s2> .    

<>            قوس فارغ لتمثيل عدم وجود سوابق أو لواحق. هذا ضروري لتفريق    

               السوابق/لواحق عن بداية/نهاية جزء الجذع.   

.n            لمطابقة عدد n  من الحروف حيث n  رقم صحيح أكبر من الواحد. حرف واحد

               يرمز له بنقطة واحدة. الحروف المطابقة تستخدم لبناء الجذع.   

مجموعة من القواعد البسيطة يتم إنشاؤها للتعامل مع الكلمات التي في هيئة الجذع من الآن، أسماء مناسبة وكلمات أجنبية. على سبيل المثال القاعدة “.4” تطابق أي كلمة ذات أربعة حروف وتمرره كجذع مقبول بدون أي معالجة إضافية.

هناك قواعد أخرى تستخدم لمعاملة الكلمات ذات البنية الصرفية التي تتراوح من بسيطة جداً إلى معقدة جدا. فمثلاً القاعدة “<و>.2<ا>.2<^ة><> ” تطابق أي كلمة ذات ستة أحرف تبدأ بحرف “و” متبوعة بأي حرفين، حرف “ا”  منتهية بأي حرفين. الحرف “و” يستخلص كسوابق، والحرف “ة” يضاف من أجل تكملة عملية إنشاء الجذع.

في التشكيلة التالية “<><ي>.3<أي^ء><>”  الجزء <أي^ء> يستخدم لاستبدال “أي” بالحرف “ء”. أجزاء الأقواس الفارغة في البداية والنهاية ترمز إلى غياب السوابق بالإضافة إلى اللواحق. الجدول 4.8 يعرض بعض القواعد المستخلصة من قائمة من 1200 قاعدة تقريباً تم توليدها باستخدام المادة اللغوية.

بعض القواعد المطورة يمكن أن تحتاج إلى تصفية أكثر فيما يتعلق بسهولة القراءة. على سبيل المثال القاعدة “<ب>.5” يمكن إعادة كتابتها على الشكل “<ب>.5<>” ليفرق بوضوح بين جزء الجذع وجزء اللواحق بصرياً.

محركات التعابير العادية الأخرى يمكن تصميمها لتطوير صيغ القاعدة. على سبيل المثال، تقويساً (#) هو محرك مقترح يمكن استخدامه لربط حرفين متشابهين. فعلى سبيل المثال تشكيلة القاعدة (#<و>#) سوف يتعرف على المعنى للكلمات (سدود، حدود،… ) لإنتاج الجذوع (سد،حد،… ) .

القاعدة المطبقةالكلمةالنتائج
السوابقالجذوعاللواحق
3.على على 
<ال>.3<ية>الناريةالنارية
<ال><أ>.2<^ا>.<ة><>الأتربةالتراب 
<><ت><و^ا>.تموتتمات 
<ب><ه>بهب هـ
<وال><أ><ئ^ؤا>.<ة><>والأفئدةوالفؤاد 
<><آ^أ>.<ا>.<ها>آمالها أملها
<ولل>.3<ات^ة>وللمسراتومسرةات
.2<^ي>.<ائ><هم>وزرائهم وزيرهم
<><أ>.2<^ا>.<ة><>أجهزة جهاز 
<ال>.2<و>.الرموزالرمز 
<ب>5,بزراعةبزراعة 
.6<ة>متكاملة متكاملة
<وس><ي>.<و^ا>.وسيقولوسقال 
<وال>.2<ي^ية><>والرؤىوالرؤية 
<><أ>.2<^اء><ية><>أوعية وعاء 
الجدول 4.8 أمثلة على بعض القواعد  

4-3-  برنامج الإعراب حسب القواعد:

قام الدكتور عماد الصغير بتطوير برنامج إعراب حسب القواعد سهل جداً ليقوم بعملية التحليل لمعالجة واستخلاص المكونات الصرفية للكلمة. أثناء عملية إنتاج القواعد، برنامج الإعراب هذا يقوم بإيجاد الشبيه بين القاعدة المدخلة وكلمة عربية معطاة. عملية إيجاد الشبيه يتم تحقيقها عندما يقوم برنامج الإعراب بتحليل الكلمة المدخلة بشكل صحيح ويقوم بتفكيكها، وفقاً إلى قواعد برنامج الإعراب، إلى أجزائها المقبولة. بالإضافة إلى قائمة القواعد، برنامج الإعراب حسب القواعد يمثل لب محلل الألفاظ العربية حسب القواعد.

برنامج الإعراب حسب القواعد يقسم إلى ثلاثة أجزاء واضحة لمعالجة السوابق، اللواحق و الجذع. استخلاص الأجزاء الصرفية لكلمة معطاة يتم عن طريق فهم الجزء المقابل من القاعدة. مبدئيا، برنامج الإعراب يقرأ القاعدة المقترحة للتعرف على حدود كل جزء. مجموعة حروف فرعية بين أقواس مثلثية في بداية أو نهاية مجموعة حروف قاعدية تميز أجزاء السوابق واللواحق. الجزء الأوسط المتبقي من القاعدة هو الجذع. كل جزء يقود برنامج الإعراب أثناء عملية استخلاص الأجزاء الصرفية للكلمة.

السوابق واللواحق يتم استخلاصها باستخدام عملية بسيطة لإيجاد الشبيه لسلسلة من الحروف ما بين بداية/نهاية الكلمة وسلسلة الحروف في الجزء الخاص  بالسوابق/اللواحق من القاعدة. اللواحق يمكن إن تحتوي على شفرة تؤثر على الجذع المستخلص. الجذع يتم توليده عن طريق النسخ التسلسلي من منتصف الكلمة مع احتمال المرور بتقاطع، حذف و/أو استبدال. شفرة مبسطة لبرنامج الإعراب موضح في 4.9. والشكل 4.10 يوضح مخطط تدفق (Flowchart) لعملية إنتاج القواعد.

Parser(word)

for every rule

if word length = rule length

identify rule prefix boundaries

identify rule stem boundaries

identify rule suffix boundaries

if rule prefix = word beginning

      copy word beginning to prefix

else

      match fail

end if

while rule stem

      if dot

                  copy n symbols from the word proper position to stem

end if

                        if angle-bracketed ^ expression

                              copy to stem with substitution or insertion

                        end if

                  end while

                  if rule suffix = word end

                        copy word end to suffix

                        if ^ expression

append to stem

                        end if

                  else

                        match fail

                  end if

                  if whole rule AND word were scanned

                        match succeed

                  else

                        match fail

                  end if

                  end if

end for

end parser

الشفرة 4.9 شفرة لبرنامج يعمل على إنتاج القواعد  

4-4- محلل الألفاظ العربية حسب القواعد

محلل الألفاظ تم تطويره باستخدام C++  وذلك باستخدام  ++Borland C.  وهو صغير جداً في الحجم ويمكن استخدامه لوحده أو كوحدة نموذجية في نظام آخر. يقبل محلل الألفاظ ملف إدخال يحتوي على نص عادي وينتج ملف يحتوي على قائمة من كلمات تم تحليلها. لكل كلمة مستخلصة، يتم تنفيذ عملية تصفية. عملية التصفية تتضمن إزالة الحروف الساكنة والكشيدة وإزالة علامات التشكيل والحروف غير العربية. لاحظ أن عدم اكتمال الكتابة السطحية في أكثر اللغة العربية المكتوبة القياسية خاصة في الانترنت تجعل الكلمات العربية المكتوبة غامضة. وبالتالي، إزالة الحروف الساكنة ذو أهمية كبيرة للنص [12].

يعرض ملف الإخراج كل كلمة عربية وجذوعها المقترحة. محلل الألفاظ يمكن تطويره بسهولة حتى يمكن إنتاج الزوائد أيضاً. ويمكن مقارنة محلل الألفاظ العربية حسب القواعد مع أنواع مختلفة من محللات

  • الهدف: مستوى التحليل المرغوب فيه من قبل أكثر محللات الألفاظ المقترحة هو إيجاد الجذر بينما المستوى المرغوب فيه لمحللات الألفاظ حسب القواعد هو إيجاد الجذع.
  • الطريقة: أكثر محللات الألفاظ المقترحة تتطلب عدداً كبيراً من القوائم و/أو حسابات معقدة.

لهذه الأسباب، محلل الألفاظ العربية حسب القواعد هو صغير وسريع. على الرغم من أنه ليس دقيق 100% لغوياً، إلا أن محلل الألفاظ يعتقد أنه دقيق كفاية للتطبيقات العادية مثل أنظمة استرجاع المعلومات. فلقد أثبت بعض الباحثين للغة العربية وللغات الأخرى النظرية التي تنص على أن أنظمة استرجاع المعلومات لا تحتاج إلى درجة عالية من الدقة. على سبيل المثال، Larky et al. استنتج أنه ليس ضرورياً على محلل الألفاظ أن ينتج الجذر الصحيح أو هيئات الجذع. بل إن تجميع معظم الصيغ التي تنتمي إلى بعضها البعض مناسب له. أيضاً، استنتج أن اختباراته على اللغة اليونانية الحديثة تبين أن عملية تحليل ألفاظ بسيطة هي فعالة جداً في استرجاع المعلومات [7].

4-5- الخاتمة:

  • تقنيات التحليل الصرفي للغة العربية المعروفة تعاني من بعض المشاكل بما في ذلك الحاجة إلى قوائم معدة مسبقاً والبطيء في المعالجة. محلل الألفاظ حسب القواعد تم تقديمه على أنه تقنية تحليل ألفاظ جديدة للغة العربية  التي لا تتطلب، لا قوائم معدة مسبقاً ولا حسابات مطولة.
  • تم تقديم مفهوم دمج القواعد لمحلل الألفاظ العربية حسب القواعد. محلل الألفاظ تم توسيعه للتعامل مع القواعد المدمجة. مع المحافظة على الاستفادة من الوقت تقريباً كما هو، القواعد المدمجة تقلل من حجم قائمة القواعد بشكل كبير وملحوظ وتزيد من تغطية اللغة.
  • بالإضافة إلى ذلك، القواعد المدمجة تظهر أداء أفضل فيما يتعلق بمتوسط عدد القواعد التي تم إيجاد الشبيه لها لكل قاعدة. مفهوم الدمج يفتح إمكانية زيادة تغطية النظام عن طريق توسعة أكثر القواعد الموجودة حالياً.

المراجع:

[1]       Andrew Spencer. “Morphological Theory”. Basil Blackwell. 1991. [2]       Botrous Thalouth and Abdullah Al-Dannan. “A Comprehensive Arabic Morphological Analyzer / Generator”. IBM Kuwait Scientific Center. Feb 1987. [3]       محمد علي الخولي. “معجم علم اللغة النظري، إنجليزي-عربي مع مسرد عربي–إنجليزي” مكتبة لبنان. 1991م.              [4]       K. Beesley. “Finite-state Description of Arabic Morphology”. In Proceeding of the Second Conference on Bilingual Computing in Arabic and English. Cambridge, UK: Literary and Linguistic computing centre, Cambridge University. 1990. [5]       Martin Kay. “Nonconcatenative Finite-State Morphology”. In Proceedings of the Second Conference of the European of the Association for the Computational Linguistics, Copenhagen, 2-10. 1987. [6]       Anne N. De Roeck, Waleed Al-Fares. “A Morphologically Sensitive Clustering Algorithm for Identifying Arabic Roots”. ACL 2000, 38th Annual Meeting of the Association for Computational Linguistics , Hong Kong, China, 1-8 October 2000. [7]       Leah S. Larkey, Lisa Ballesteros, and Margaret E. Connel. “Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis”. SIGIR 2002: Proceedings of the 25th Annual Information ACM SIGIR Conference on Research and Development in Information Retrieval, August 11-15, 2002. pp. 275-282. Tampere, Finland. [8]       Ali Sulayman Alsuwayea. “Information Retrieval in Arabic Languages”, King Fahad National Library. 1415 H. [9]       M. Lennon D. S. Pierece, B.D. Tarry, and P. Willett. 1981: “An evaluation of some conflation algorithms for information retrieval”, Journal of Information Science, 3, 177-193 (1981). [10]     Kareem Darwish. “Building Shallow Arabic Morphological Analyzer in One Day”, Association for Computational Linguistics. 40th Anniversary Meeting. July 6-12, 2002. pp. 47-54. University of Pennsylvania. [11]     Hani Abu-Salem, Mahmoud Al-Omary, and Martha Evens. “Stemming Methodologies Over Individual Query Words for and Arabic Information Retrieval Systems”, Journal of the American Society for Information Science . 50(6): 524-529, 1999. [12]     Mohammed Aljalayl and Ophir Frieder. “On Arabic Search: Improving the Retrieval Effectiveness via Light Stemming Approach”, Proceedings of the eleventh ACM international conference on information and knowledge management. Nov. 2002. [13]     Jinxi Xu, Alexander Fraser, and Ralph M. Weischedel. “Empirical studies in strategies for Arabic Retrieval”. SIGIR 2002: Proceedings of the 25th Annual Information ACM SIGIR Conference on Research and Development in Information Retrieval, August 11-15, 2002. pp. 269-274. Tampere, Finland. [14]     S. S. Al-Fedaghi and F. S. Al-Anzi. “A new algorithm to generate Root-pattern Forms”, Proceedings of the 11th National Computer Conference, KFUPM, pp.391-400. 1989. [15]     The Buckwalter. Buckwalter Arabic Morphological Analyzer Version 1.0, Linguistic Data, Linguistic Data consortium (LDC) catalog number LDC2002L49 , ISBN 1-58563-257-0. [16]     M. El-Affendi. “Building An Arabic Distribution Collaboration Environment”. The final report research project: AR-16-94, King Abdulaziz City for Science and Technology 1999.

0 Reviews

Write a Review

مقالات ذات صلة

زر الذهاب إلى الأعلى