بحوث في اللسانيات الحاسوبية

اللغة العربية وأهمية حوسبة الصرف

غير معروف

يعد علم الصرف أساسا متيناً في التعامل مع اللغة العربية . أما حوسبة الصرف فتعد مطلباً أساسياً لكثير من التطبيقات اللغوية التي تعتمد على النظم الآلية . لقد اهتم العرب الأقدمون بالصرف كثيراً حيث كان للصرف دوراً رئيساً في بناء المعاجم وتبويبها وتنظيمها . ولم يقتصر اهتمامهم بالصرف على ذلك بل استثمروه في دراسة العلاقة بين مباني الكلمات ومعانيها وخصائصها النحوية والصوتية . كما قام الأقدمون باستخدام علم الصرف وعلوم أخرى كجزء من أجزاء علم التعمية واستخراج المعمَّى .

لقد أدى ظهور الحواسيب المركزية في أواسط القرن الميلادي السابق إلى ثورة في نظم المعلومات . وقد كان التعامل بين الإنسان والحاسوب يتم عبر لغات البرمجة الصناعية إلا أن التطور السريع للحواسيب ساهم بشكل كبير في اتساع نطاق مستخدميها وبالتالي ظهور الحاجة الماسة لوسائل تفاعل بين الإنسان والحاسوب تكون اكثر ملائمة ومقاربة لطبيعة البشر . ولقد تركزت الجهود في هذا المجال على اللغات اللاتينية وخصوصاً اللغة الإنجليزية مما يضيف عبئاً اكبر على المختصين في الحاسوبيات واللغويات الناطقين بلغة الضاد في إدخال هذه التقنية وتطويعها لتخدم الحاجة المحلية .

من المعلوم  بداهة أن خصائص أي نظام طبيعي يراد بناؤه ستؤثر بشكل كبير على طريقة تصميمه وتنفيذه آليا، وتتجلى هذه الحقيقة في بناء تطبيقات معالجة اللغات الطبيعية natural language processing, NLP   وخصوصاً اللغات السامية منها  وأهمها اللغة العربية . تعتمد اللغة العربية – كما هو حال جميع اللغات السامية – على الصرف اعتماد كبيراً بل إنها تعتبر من فئة اللغات الطبيعية الأكثر تعقيداً والأغنى صرفياً . ويتجلى غناها الصرفي في إمكانية بناء عدة مئات من الكلمات النهائية وبمعاني مختلفة من جذر واحد وذلك باستخدام الموازين والسوابق واللواحق الصرفية المختلفة .

علم الصرف والميزان الصرفي

لم يكتف بعض الباحثين بالميزان الصرفي بل قاموا بتعريف مقاييس آخر مثل : النمط الصرفي ( أو الصيغة الصرفية ) ويعرفونه بأنه القالب الذي يشمل الحركات وحروف الزيادة ( حروف سألتمونيها ) ومواضع حروف الجذر بتسلسل ورودها داخل القالب . أما الهيكل الصرفي فيعرفونه بالصيغة الصرفية دون تشكيل . وعلى خلاف الميزان الصرفي فإن الصيغة الصرفية تشمل دائما الحروف (ف,ع,ل) . ولمعرفة العلاقة بين الصيغ والموازين الصرفية فيمكن القول أن الصيغة الصرفية تمثل البنية العميقة Deep Pattern . أما الميزان الصرفي فيمثل البنية السطحية Surface Pattern حيث يمكن استنتاج الميزان الصرفي من الصيغة الصرفية بعد إجراء عمليات الإبدال والإعلال عليها , وكمثال على ذلك فكلمة ( سماء ) ميزانها الصرفي ( فعاء ) وجذرها ( س،م،و) أما صيغتها الصرفية فهي ( فعال ) حيث قبلت الواو المتطرفة همزة عن طريق عمليات الإبدال والإعلال . ومن جهة أخرى فإن الصيغ الصرفية تختلف فيما بينها من حيث إمكانية تطبيقها على مختلف الجذور .

تمثل هذه الصيغ مقاييس لغوية لنمذجة الكلمات من حيث حروفها الأصلية والزائدة وعلامات التشكيل كما تمثل دوالاً مستخدمة تطبق على الجذور لاشتقاق كلمات منها . تمكن هذه المقاييس الباحث من إيجاد قواعد منضبطة في التعامل مع الصرف العربي وبالتالي التحكم بجميع الحالات المؤثرة على تكوين واشتقاق الكلمات مع مراعاة جميع التغيرات الصرفية والنحوية والصوتية .

أهمية حوسبة الصرف

أدى ظهور الحواسيب الآلية في النصف الثاني للقرن العشرين إلى  انتشار استخدامها كوسائل لتخزين المعلومات ومعالجتها وكوسائل وأدوات للتعلم والتعليم . وقد شاب التعامل مع الحواسيب استخدام لغات صناعية أو استفهامية مما أدى لإضفاء درجة من الصعوبة في التعامل معها . بل إن كثيراً من المتعاملين مع الحواسيب لاحظوا كيف أن اللغات وبالذات العربية قد سخرت لخدمة الحاسوب لا العكس من ذلك , حيث إن من الواجب أن يساعد الحاسوب وأن يسخر لخدمة اللغة .

نشأ عن هذه المعطيات منذ عدة عقود ما يسمى باللسانيات الحاسوبية Computational Linguistics والتي تسعى ابتداءً إلى تمكين الإنسان من التعامل مع الحواسيب باللغات الطبيعية . ولاشك أن معالجة الصرف العربي آليا يعد من أهم وأوجه الحقول الواجب العناية بها لبناء نظم لغوية حاسوبية عربية حيث يمثل الصرف الأساس التي تنبني عليها مختلف النظم الفرعية الأخرى للغة العربية كالنحو والسياق والدلالة . ومن المعلوم انه كلما كان نظام وقواعد الصرف لأي لغة محدداً ومنهجياً كلما كانت هذه اللغة أكثر قابلية للمعالجة الآلية . ويرتاب دارس للصرف في اللغة العربية وغيرها بأنه النظام الأكثر منهجيه مقارنة بجميع اللغات الحية .

قام عدد من الباحثين والشركات بعمل محاولات جادة لبناء نظم آلية للإعراب وتحليل المعاني الدلالية وكذلك نظم الاستفسار الطبيعية Natural Language Query Systems ونظم الترجمة الآلية Computer Translation ونظم التعليم بالحاسوب Computer Aided Instruction ونظم توليد وتعرف على الأصوات Speech Recognition and Synthesis إلا أن الصعوبة كانت ظاهرة خاصة مع الاعتماد على أسس لغوية متينة ومع عدم البدء بعمل نظم التحليل الصرفي الآلي .

وتتجلى أهمية المعالجة الآلية للصرف العربي في التعرف على الاستخدامات الممكنة والتي من أهمها : ميكنة المعاجم , وضغط النصوص وتشكيلها وتشفيرها , واسترجاع النصوص وتحليلها , وتمييز الكلام وتوليده , وتصحيح الأخطاء الإملائية , والترجمة الآلية , والتعليم بالحاسوب . ويبقى القول أن فائدة المعالجة الآلية للصرف في كثير من هذه التطبيقات تبدو ظاهرة على أن فائدتها في بعض هذه التطبيقات تبقى محل جدل بين الباحثين مثل جدوى استخدام التحليل الصرفي لاسترجاع المعلومات . وسبب ذلك يعود لما تتمتع به اللغة العربية من وفرة المعاني المختلفة المشتقة من مصدر واحد . فعملية الاسترجاع باستخدام الجذور تؤدي لزيادة نطاق المواد المسترجعة بما يشمل معلومات غير مطلوبة وذلك لأن جذر الكلمة يمثل نطاقاً أوسع من المعاني من معنى الكلمة المراد الاسترجاع بها .

الصرف العربي والإنجليزي

لا يقتصر الفرق بين اللغة العربية واللغات الأوربية على شكل واتجاه كتابة الكلمات بل يمس ما هو اكثر جوهرية منه وهو بنية اللغة ذاتها . تمتاز اللغة العربية بأنها لغة اشتقاقية تتدرج ضمن اللغات الصرفية وليست لغة لصقية أو تركيبية كاللغات الأوروبية . وبمعنى آخر يمكن القول أن الصرف هو أساس بناء اللغة العربية أما اكثر اللغات اللاتينية فهي مبنية على النحو . ولا يعني هذا خلو اللغة العربية من ظاهرة التصريف بالإلصاق ولكن بشكل عام يمكن القول أن اللغة العربية لغة اشتقاقية أما اكثر اللغات اللاتينية فتركيبية . ويبين الجدول التالي حجم الفرق بين اللغة العربية واللغة الإنجليزية من جهة الصرف وذلك بعمل مقارنات في بعض الجوانب اللغوية .أنظر الجدول ( 1 ).

وجه المقارنةاللغة العربيةاللغة الإنجليزية
1) الاشتقاقمبني على الأنماط الصرفية عدد قليل من حروف الزيادةاساسه تلاحق اللواصق عدد كبير نسبياً من اللواصق
2) التصريفاطراد تام مع بعض الاستثناءاتحالات شذوذ متعددة
3) الجذرأساس دلالي مدخل أساس للمعجم العربيلا تتعامل مع الجذر أساسا تستخدم الكلمات والجذوع للمعجم
4) دمج الأدوات والضمائر مع الكلماتممكنةقليلة
5) التعديلات الصرف – صوتيةبارزة كالإعلال والإبدالمحدودة

مواضيع حوسبة الصرف العربي

يتناول الباحثون في معالجة الصرف العربي جزأين رئيسين هما الاشتقاق والتحليل، للاشتقاق عدة أنواع أهمها صرفياً الاشتقاق الصغير . عادة يتم الاعتماد عند القيام بالاشتقاق على المعجم من أجل الحصول على الجذور المستعملة في اللغة العربية إضافة للمفردات غير القياسية . كما يعتمد على قواعد الاشتقاق للتمكن من توليد المفردات القياسية من أفعال وأسماء ومصادر وصفات وغيرها . ولكي يُتمكن من حوسبة  الصرف بشكل فعال لأغلب التطبيقات فقد يحتاج إلى مرجع كامل لقواعد الاشتقاق . مثل قواعد اشتقاق الفعل المضارع والماضي والأمر من الجذر , آخذاً في الاعتبار جميع حالات التثنية والجمع والتأنيث والتذكير والتعريف … الخ , كما يجب اخذ قواعد الإبدال والإعلال والإدغام في الحسبان عند بناء مثل هذه القواعد .

تفقد الكلمات في الاشتقاق بعضاً من حروفها الأصلية أو قد يزاد عليها وقد تكون الكلمة معتلة أو حصل لها قلب . كل هذه الحالات تستلزم أن تكون الموازين الصرفية المستخدمة في نظام الصرف الآلي منضبطة لغوياً وذلك بمراعاتها لجميع هذه الحالات . قد يشتق الفعل الرباعي من الأسماء للدلالة على معاني الاتخاذ أو مشابهة المفعول به لما اخذ منه , أو الإصابة أو الصيرورة … الخ . وهذا يظهر فائدة المعالجة الصرفية للمستويات الأخرى من مستويات معالجة اللغة الطبيعية حيث أفاد الصرف هنا بفوائد تساهم بشكل كبير في تحليل دلالة النص .

يمكن تقسيم الكلمات في اللغة العربية إلى كلمات بناء وكلمات محتوى . أما كلمات البناء فقصد بها حروف الجر وأدوات النفي والاستفهام وأسماء الإشارة … الخ وهي محصورة غير قابلة للزيادة . وهذه قد تحلل خطأ على أنها كلمات محتوى . ومن كلمات المحتوى ما يعرف بالكلمات الأجنبية والتي قد تسبب مشاكل عند تحليلها مثل كلمات ( سيبيريا , كمبيوتر , جيولوجيا …) . لذا يجب على نظام الصرف الآلي أن يتمكن من التفريق بين هذه الأنواع وأن يتعامل معها بشكل صحيح .

بعض الكلمات قد يشابه أولها أو آخرها اللواصق الموجودة في اللغة العربية ( مثل العاب قد تحلل إلى (أل) و ( عاب ) بدلاً من جمع لعبة ) كما أن بعض السوابق قد تعالج خطأ على أنها جزء من كلمة ( مثل ( أدار ) قد تحلل على أنها فعل ماض من يدير بدل من الاستفهام عن دار بمعنى بيت ) . لذا يجب على نظام الصرف الآلي أن يتمكن من التفريق بينها ومعالجتها بشكل صحيح .

وحيث إن للكلام أقسام وتفرعات لذا يجب على النظام أن يكون قادراً على التفريق بين أقسام الكلام وكذلك أقسامه الفرعية مثل التفريق بين الأفعال والأسماء وكذلك والتفريق بين الفعل الصحيح والمعتل والجرد والمزيد … الخ . كما يجب أن يكون قادراً على اشتقاق وتحليل الأسماء والتفريق بينها مثل اسم الفاعل واسم المفعول والصفة المشبهة واسم الزمان والمكان واسم الآلة والمصادر … الخ . وأن يكون قادراً على تثنية وجمع وتأنيث وتذكير الأسماء صحيحها ومنقوصها ومقصورها وممدودها , إضافة إلى تحليل ذلك .

تحتاج الأفعال الشاذة لمعالجة خاصة أما مصدر الشذوذ فله عدة أسباب أهمها ظاهرة الإعلال والإبدال ثم الإدغام ثم طريقة رسم الهمزة وتفاوتها في تصريف بعض الأفعال ولاشك أن حل هذه المشاكل يتطلب إيجاد قواعد صرفية وصوتية تغطي جميع هذه المشاكل .

ومن مواضيع الصرف دراسة إسناد الأفعال إلى الضمائر . إذ تحدث تغييرات داخل الأفعال عند الإسناد خاصة عند إسناد الأفعال المعتلة والمضعفة . وهذا يوجب على النظام الصرفي الآلي أن يُعنى بمختلف هذه الحالات . كما يلاحظ كيف أن نظام اللغة العربية صرفياً منضبط حتى في حالاته الشاذة .

ومن اللواحق الصرفية والتي تؤدي إلى معنى معيناً لاحقة نون التوكيد . والتي تعمل على تقوية الفعل وجعل زمانه مستقبلاً ومن قواعدها : منع توكيد الفعل المضارع إذا كان منفياً وهو في جواب القسم دالا على الزمن الحاضر مفصولا عن لام جواب القسم بـ( قد, أو السين , أو سوف ) وتظهر هذه القاعدة بجلاء حجم التفاعل المطلوب بين مختلف مستويات المعالجة الطبيعية للغة العربة . ومما يؤكد ذلك ما يعرف بأن المثنى يرفع وعلامة رفعه الألف وينصب وعلامة نصبه وجره الياء . كما أن للجمع حالات مشابهة وكذلك الأسماء الخمسة والأفعال الخمسة . فعلى نظام الصرف الآلي أن يستفيد من هذه المعطيات , فمثلاً إذا سبقت الكلمة بحرف جر وكان آخرها حرفا ( ين ) فهذا مؤشر قوي على إنها إما مثنى مجرور أو جمع مذكر سالم مجرور . وقس على ذلك حالة الفاعل إذا كان مؤنثاً فإنه تلحق أخر فعله الماضي تاء ساكنة تدل على تأنيثه .

مصاعب في حوسبة الصرف

نشأت تقنيات الحواسيب ونظم المعلومات ابتداءًً في بلاد ناطقة باللغة الإنجليزية مما يجعل اللغة الإنجليزية هي اللغة الشائعة في هذه التقنيات . ثم تبع ذلك بناء نظم آلية لمعاجلة اللغة حيث تم تحجيم دور الصرف فيها وذلك لما للغة الإنجليزية من خصائص صرفية مبسطة جداً إذا ما قورنت بغيرها كاللغة العربية بل إن المتتبع لأغلب نظم المعالجة الصرفية للغة الإنجليزية يرى بوضوح كيف أن الصرف قد همش فيها كثيراً من قبل الباحثين . وقد كان في عرض الفروق الصرفية للغة العربية والإنجليزية بياناً واضحاً في إشكالية مناسبة الحلول المبنية على اللغة الإنجليزية للغة العربية فالواجب بناء نظم تراعي هذه الخصائص والفروقات . ولعل من أهم الخصائص والتي تدعو للاستعانة بالمعالجة الصرفية في بناء نظم معالجة اللغة العربية أن 80% من كلمات اللغة العربية تم إنتاجها من جذور ثلاثية أو رباعية أو خماسية . كما أن هذه الكلمات يتم تكوينها بإضافة سوابق أو لواحق على الجذر مع تطبيق عدد من القواعد الصرفية وباستخدام الأنماط الصرفية . وقد يتم في هذه العملية حذف أو تعديل بعض حروف الجذور .

وقد يتساءل البعض عن إمكانية تخزين جميع مفردات اللغة ومن ثم الاستفادة منها في نظم معالجة اللغة الطبيعية . والجواب على هذا ينصب في أمرين : الأول عن توفر مثل هذا الجمع للمفردات حيث يصعب إيجاده فعلياً . والثاني حول حجم هذه المفردات . فلو تخيلنا جذراً واحداً كم نستطيع أن نطبق عليه من صيغ وموازين صرفية مختلفة ! لاشك انه سينتج لنا مئات بل آلاف من الكلمات النهائية ومن المقطوع به أنه كلما زاد حجم القاموس الحاوي لمثل هذه المفردات كلما زاد حجم التخزين اللازم وزاد الوقت اللازم للبحث فيه .

ظهر في العقود الأخيرة عدد من حلول معالجة الصرف العربي المبنية على أسس لغوية . وقد تفاوتت فيما بينها فبعضها يقترح الاقتصار على استخدام الموازين الصرفية والبعض الآخر يرى إضافة الصيغ الصرفية كذلك . وقد اقترح بعض الباحثين عمل تغييرات بسيطة على هذه الأنماط الصرفية خلاف ما اقترحه اللغويون العرب على مر العصور .

وتبنى معظم هذه الحلول المقترحة على فكرة استخدام نظام قواعد البيانات المعجمية والتي تتكون من مجموعة من المعاجم الصغيرة للجذور في اللغة العربية مع مجموعة من القواعد الصرفية اللازمة للتحليل والتركيب . ويبقى التفاوت فيما بين هذه الحلول في كيفية تنفيذ قواعد البيانات والقواعد الصرفية وعن مدى التزامها بأصول لغوية منضبطة .

 واقع حوسبة الصرف

سيتم في هذا المبحث بإذن الله استعراض عدد من النشاطات المتعلقة بالصرف العربي .حيث قام بعض الباحثين بعمل خوارزميات ونظم للتحليل والتوليد الصرفي للغة العربية حيث يمكن تقسيمها إلى أربعة طرق هي:

طريقة الجدولة table lookup واللغوية linguistical والتباديل combinatorial والأنماط pattern-based .

يتم في طريقة الجداول تخزين جميع الكلمات الطبيعية مع مكوناتها الصرفية في جدول كبير يتم من خلاله تحليل أي كلمة بالبحث عنها في هذا الجدول . إما في الطريقة اللغوية – وهي الأكثر انتشاراً – فيتم فيها الاستفادة من قواعد لغوية تم استنباطها بالتحليل العميق للنظام الصرفي للغة العربية . وممن بحث في هذا النوع حجازي والشرقاوي  حيث شرحا نظاماً صرفياً حاسوبياً للنص العربي المشكل . وقد تم بناء عملهما على قواعد صرفية وصوتية للغة العربية . قدم كل من غيث والسعدني  محللا صرفياً يمكنه تحديد الجذر والتركيب الصرفي لأي كلمة مشكلة ولها جذر ثلاثي . أعطى هلال طريقة اكثر تفصيلاً لتحليل النص العربي غير المشكل . قدم ثالوث والدنان  وكذلك صليبا والدنان  طريقة اكثر قابلية للتطبيق لتحليل النص العربي غير المشكل . قام علي والشامي ببناء نموذج للتحليل الصرفي وتم تنفيذه في النظام المعروف بالمعالج الصرفي متعدد الأطوار Multi Mode Morphological Processor ويقوم هذا النظام بالتعامل مع حالات التشكيل المختلفة للكلمة العربية .

تشترك معظم هذه الخوارزميات في الخطوات التالية :

•       استخراج جذع الكلمة ( أساسها ) وذلك باستبعاد اللواصق .

•       يتم مقارنة الصيغ الصرفية المستنبطة لجذع الكلمة بقائمة من الصيغ الصرفية الممكنة .

•       عند تحديد صيغ صرفية يتم استخراج الجذر ومقارنته بقائمة الجذور لموجودة في اللغة العربية .

•       إذا تم تحديد الجذر فإن العملية تنتهي ويكون لدينا الجذر واللواصق والصيغ الصرفية .

•       إذا لم يتم تحديد الجذر فانه يتم اختيار صيغا صرفية أخرى ويتم تجربتها .

•       اذا لم يتم تحديد الجذر باستخدام كل الصيغ فإن عملية إزالة اللواصق يتم إعادتها مع إزالة لواصق أصغر .

أما طريقة التباديل – وهي طريقة عشوائية – فيتم فيها تجربة كل احتمالات تشكيل الحروف لكلمة معينة ومقارنتها بقائمة الجذور . وممن بحث في هذه الطريقة الفداغي والعنزي حيث قاما ببناء طريقة رياضية بسيطة لاستنباط الجذور والصيغ الصرفية للكلمة المعطاة أما الأفندي فقام باقتراح خوارزمية تقريبية للمقارنة sliding window approximate matching وقام بدراسة أدائها ونقاط الضعف والقوة فيها .

أما طريقة الأنماط فتستثمر تشابه الأنماط الخارجية للكلمات الطبيعية لتقسيم الكلمات إلى مجموعات كل مجموعة تشترك في قاعدة واحدة لاستنباط جذوع كلمات هذه المجموعة . وممن عمل بهذه الطريقة كل من الخراشي والصغير حيث اقترحا خوارزمية تمتاز بالفعالية حيث لا تتطلب حسابات كثيرة ولا تخزين كميات كبيرة من المعلومات ولكن على حساب صحة التحليل حيث يرى الباحثان أن هذه الطريقة مناسبة لعدد من التطبيقات كنظم استرجاع المعلومات .وفي الجزء التالي سوف نعرج إلى هذه الخوارزميات بشيء من التوضيح .

طريقة الجداول

تعتمد طريقة الجداول بشكل رئيس على تخزين عدد كبير جداً من الكلمات العربية والأجزاء التصريفية المتعلقة بها في جدول كبير وهذه الأجزاء تمثل الساق stem , الجذر root والسوابق واللواحق . كل كلمة يتم وضعها في صف مستقل في الجدول , يبين هذا الصف معلومات تفصيلية عن هذه الكلمة كما هو موضح في الشكل (  1  ) .

Word typeSuffixinfixPrefixRootStemNatural word

إذا كان لنفس الكلمة (لنفس التهجئة الإملائية ) اكثر من صف الجدول فإن ذلك يدل على أن هناك اكثر من احتمال لتحليل هذه الكلمة . يتم ترتيب هذه الكلمات في الجدول ترتيباً هجائياً , ويستخدم لتسريع عملية البحث إما قائمة بحث ثنائي Binary search list أو جدولHash table , وعلاوة على ذلك تستخدم المقارنات لتقليل من حاجة التخزين . وعليه فإن عملية التحليل الصرفي أصبحت سهلة لاقتصارها على النظر في جدول هاش أو شجرة ثنائية .

العيوب :

1.      العوز إلى بيانات شاملة .

2.      الحاجة إلى تنظيم الجهود اللغوية.

3.      الحاجة إلى سعة تحزين عالية .

4.      الوقت المستغرق لبحث كل كلمة .

{Table lookup ma ( word )

Find all instants ( word )

Return all instants }

طريقة التباديل

في هذه الطريقة يتم مقارنة الكلمة مع قائمة معدة مسبقاً تحوي الجذور والبنى والسوابق واللواحق .هذه المقارنة تتم وفقاً لخوارزمية تبادلية تقوم باختبار جميع تباديل الحروف للكلمة من اجل استخراج جذرها . وهذه الطريقة تتطلب وقت معالجة طويل وقائمة اختبار كبيرة . وقد عمل بهذا الأسلوب بعض الباحثين مثل الفداغي والسعدون , والشلبي , والأفندي.

خوارزمية الفداغي والسعدون

قام الباحثان بعمل خوارزمية خاصة فقط بالكلمات ذات الجذور الثلاثية . وعليه فقد اتسمت هذه الخوارزمية بالسهولة ولكن عابها البطء () O ( w^3 حيث w تمثل طول الكلمة ) .

خوارزمية الفداغي والعـنزي

قام الباحثان بتحسين وتطوير الخوارزمية السابقة حيث حلاَّ بعض المشاكل المهمة الخاصة بعلم الأصوات الكلامية والخاصة بالإملاء مثل : الإدغام  ، الإعلال والانقلاب. وعليه فإن هذه الخوارزمية المعدلة تستخدم قائمة من الجذور الثلاثية والبنى ( الأوزان ) مع جميع التباديل مع السوابق واللواحق .

تبدأ الخوارزمية بمقارنة الكلمة المدخلة مع هذه القائمة من اجل استخراج الجذر . بعد ذلك تقوم الخوارزمية بتشغيل أربعة أنماط من اجل تغطية كافة الحالات الخاصة بالأصوات الكلامية والخاصة بالإملاء ،وهذه الحالات تمثل إلغاء حرف واحد , أو أي حرفين .تم اختبار هذه الخوارزمية باستخدام القران الكريم وبعض النصوص العربية , وكانت الميزة الأساسية لها أنها تستخدم مجموعة بيانات اختبار وتعطي مقدار معدل النجاح .

العيوب :

1.      العيب الأساس لهذه الخوارزمية هو أن مقدار معدل النجاح غير فعال .

2.      تتعامل فقط مع الكلمات ذات الجذور الثلاثية .

3.      بطيئة وتحتاج إلى سعة تخزين عالية.

خوارزمية الشلبي

قام الباحث بتطوير الخوارزمية السابقة بحيث أمكنها التعامل مع الجذور الرباعية , وعلاوة على ذلك قدم الباحث خوارزمية جديدة تتعامل مع الجذور الثلاثية والرباعية على حد سواء. في هذه الخوارزمية الجزء الأكبر من السوابق يتم حذفه , وبالتالي تفترض الخوارزمية أن حروف الجذر موجودة في الأحرف الأربعة أو الخمسة الأولى من باقي الكلمة . بعد ذلك , يتم إيجاد الجذر بعمل اختبارات تباديل مختلفة , ثم يتم الوصول إلى بنية الكلمة بتغيير حروف الجذر في الجزء المتبقي من الكلمة مع الحروف الأصلية للبنية .

استخدمت هذه الخوارزمية بعض الجداول التي تحتوي على :

1.      قائمة بالأفعال المعتلة مع جذورها .

2.      اثني عشر ضميراً من أجل توليد أشكال مختلفة للكلمة .

3.      قائمة بالسوابق .

4.      قائمة بالجذور التي تم استخراجها من مجموعة الاختبار فقط .

مقارنة بين خوارزمية الشلبي وخوارزمية الفداغي :

1.      خوارزمية الشلبي المطورة تعمل بصورة أسرع من خوارزمية الفداغي .

2.      خوارزمية الشلبي المطورة تحتاج إلى سعة تخزين اقل .

3.      خوارزمية الشلبي المطورة تتعامل مع الجذور الثلاثية والرباعية .

4.      مشكلة الإعلال والانقلاب تم حلها باستخدام جدول هاش .

5.      أعطى نظام الشلبي معدل نجاح في التعرف على الأسماء كان بقيمة 19% .

الطريقة اللغوية العربي

هذه الطريقة تتطلب تحليل متعمق لقواعد الصرف في اللغة العربية , حيث يتم فيها مقارنة كلمات الاختبار tested word مع قائمة بالسوابق واللواحق و / أو كلمات نهاية من اجل الوصول إلى الساق ثم مقارنتها مع قائمة الجذور والبنى وكان ممن عمل بهذه الطريقة : الأفندي , العثمان , حجازي والشرقاوي , هلال , البواب .

خوارزمية الأفندي

طور الأفندي خوارزمية عربية من أجل تحليل الكلمات العربية , وتعتمد هذه الخوارزمية على تمثيل رقمي وتتطلب خارطة متكاملة للجذور العربية . تستخدم الخوارزمية الشكل الرئيس للجذر ( s-form) وكذلك الشكل الرئيس للساق  ( ss-form) وكذلك الشكل الرئيس المعمم (gs-form) .

الشكل الرئيس للجذر عبارة عن كلمة وزن من الحروف العربية مثل ( فَعَلَ ) . أما الشكل الرئيس للساق فيمكن الحصول عليه من الشكل الرئيس للجذر بإضافة سوابق أو لواحق غير أصلية و/ أو تعديل بعض الحروف الأصلية مثل (فَعُلُُ ) والشكل الرئيس المعمم يمكن الحصول عليه بإلحاق بعض السوابق واللواحق إلى الشكل الرئيس للأصل مثل ( فعلتموها ) .

رأى الأفندي أن الكلمات العربية يمكن أن يعبر عنها بقيمة عشرية صحيحة PI-value ،وتتم عملية التعبير العددي بالكلمات بواسطة تمثيل كل حرف بعدد صحيح وحيد , وهذا العدد يكون مداه من 1 إلى 31 .لعمل التحليل الصرفي قدم الأفندي نظريتين :

الأولى : تتعرف على الشكل الرئيس المعمم , بينما  الثانية تتعرف على الجذر الخاص بالقيمة العددية الصحيحة المعطاة PI-value .

وبعبارة أخرى , فقد أعطى الأفندي إطار عمل للطريقة اللغوية بحث جعلها تعتمد على مبدأ التوافق , حيث يوجد في اللغة العربية اكثر من 10000 جذر و900 بنية (وزن) وبالتالي فليس كل جذر متوافقاً مع أي بنية والعكس صحيح . وبناءً عليه , فليس هناك قانون واضح يتعلق بالجذور أو البنى ويوضح الشكل ( 2 ) مبدأ التوافق , حيث إن الرقم ( 1 ) يوضح أن البنية متوافقة مع الجذر الحالي , بينما يوضح الرقم ( 0 ) أن البنية متوافقة مع جذر . أما عن مقدار النجاح لهذه الخوارزمية فليس هناك إحصاءات توضح ذلك .

مميزات الخوارزمية :

1.      أنها فعالة جداً مقارنة بغيرها .

2.      تحتاج إلى سعة تخزين اقل .

01    01Root1
11    10Root2
  ………………………….. …… 
10    11Rootn-1
01    00Root n

طريقة الأنماط

مجموعة بيانات الاختبار للتصميم والاختبار العربي السطحي:

واجه الباحثون في مجال الحوسبة اللغوية مصاعب تقنية تتمثل في العوز إلى إطار عمل framework ملائم للتحقيق والاختبار . ولهذا فإن أغلب هذه الأبحاث تعرض وصفاً عاماً يفتقر إلى الدقة والتأثير .

وفي هذا الجزء من بحثنا سنتطرق إلى أسلوب فعال لتحديد إطار عمل يتم من خلاله تحقيق واختبار حوسبة الصرف العربي .

يبنى إطار العمل framework على مجموعة بيانات أولية تستخدم لتصميم وتحقيق محلل صرف عربي وهذه المجموعة من البيانات عبارة عن 23000 كلمة عربية أخذت من اكثر من 100 مقالة عربية تم اختيارها عشوائياً من الإنترنت . بعد ذلك تم تنقيح هذه الكلمات بحذف الحروف الزائدة كحروف العلة ثم خزنت في ملف ثنائي binary وبنفس ترتيب مواقعها في النصوص الأصلية .

ولذلك فإن التعرف على المعنى المقصود لأي كلمة تتم بعمل قائمة للكلمات السابقة والكلمات اللاحقة للكلمة المراد معناها , وهذه العملية تعتبر عملية سهلة لحد كبير نظراً لأن ترتيب الكلمات قدتم حجزه مسبقاً .

إن جميع الكلمات في مجموعة البيانات قد تم تفسيرها يدوياً وذلك للحصول على تركيب صرفي يحتوي على الساق و اللواحق وبناءً على ذلك يعرف الساق  على أنه مفرد مذكر أو فعل ماض بدون زوائد .

بناء القواعد

يولِّد الأسلوب المبني على الوصف النظامي الوحيد regular expression-based من مجموعات متشابهة من كلمات اللغة العربية  شكل ( 4 ) . والوصف النظامي عبارة عن بنية مرصوفة من الحروف ومفاتيح البحث البسيطة للرموز والتي تستخدم لتتطابق مع بنية معقدة في الجملة داخل النص . وهذه الأوصاف النظامية قوية بحيث يمكن استخدامها لطرق معقدة كالبحث في قاعدة بيانات . وإذا تم العثور على البنية (الوزن) , فإنها أما أن تعدل ويزاد عليها , أو أن يتم تغيرها بأخرى .

تستخدم القواعد rules لوصف البناء الصرفي الداخلي للكلمة العربية ولتحليل الكلمة إلى أجزائها الرئيسية , السوابق واللواحق والأصل . وهذه القواعد قد تمت كتابتها من اليمين إلى اليسار لتتناسب مع نسق الكتابة العربية . أما بنية القاعدة فقد تصل إلى ثلاثة أجزاء ، الجزء الأول يوضح السوابق ( انظر الجدول ( 4 ) ) والجزء الثالث يوضح اللواحق ( انظر الجدول ( 5 ) ) , أما الجزء الثاني فإنه يوضح الساق. يُفسَّر غياب السوابق واللواحق لبنية في قاعدة معينة بعلامتي مثلث بينهما فراغ ( <> ) .

تتفاوت درجة تعقيد القواعد , فمنهما المعقد جداً , ومنها البسيط . أما التركيب الشكلي لها syntax فإنه قد أجري بعد عمل دراسة تحليلية عميقة لنصوص عربية تم اختيارها عشوائياً ونتج عن ذلك الهيكلة التالية :

يمكن أن يمر جزء الساق عبر عملية إضافة أو / و حذف … أو تبديل , بينما جزء اللواحق يمر عبر عملية تعديل و/ أو إضافة , بينما جزء السوابق يتم خلاله عملية تطابق فقط .

قواعد البارزر

في هذه الجزئية تم عمل أداة بارزر Parser من أجل تحليل ومعالجة البناء الصرفي للكلمات . يقوم البارزر parser بمطابقة القاعدة المدخلة input rule مع كلمة عربية معطاة وتتم المطابقة بينهما إذا قام البارزر بتحليل سليم للكلمة المدخلة .

يمكن تقسيم البارزر parser إلى ثلاثة أقسام لمعالجة السوابق واللواحق والساق . تتم عملية التوليد الصرفي لكلمة معطاة من خلال معالجتها مع القاعدة المناسبة لها ليحدد حدود كل جزء ( السوابق واللواحق والأصل ) يعرف رمز المثلث الفارغ < >  الموجود في بداية / نهاية القاعدة أجزاء اللواحق والسوابق . وعليه فإن الجزء المتبقي يمثل الساق stem .

يتم توليد السوابق واللواحق بعمل مطابقة بداية / نهاية  الكلمة مع جزء السوابق / اللواحق في القاعدة . قد تحتوي اللواحق على شفرة تؤثر على توليد الساق . يولد جزء الأصل بعمل نسخ تتابعي من وسط الكلمة مع إمكانية عمل إضافة / حذف .. ويمثل الشكل (5) برنامج صغير للبارزر .

Parser ( word )

    For every rule

        If word length=rule length

            Identify rule prefix boundaries

            Identify rule stem boundaries

            Identify rule suffix boundaries

            If rule prefix=word beginning

                     Copy word beginning to prefix

           Else

                    Match fail

          End if

         While rule stem

               If dot

      Copy n symbols from the word proper position to stem

              End if

              If angle-bracketed ^expression

                         Copy to stem with substitution or insertion

             End if

        End while

        If rule suffix =word end

             Copy word end to suffix

             If ^expression

            Append to stem

      Else

           Match fail

     End if

    If empty rule AND empty word

           Match succeed

   Else

          Match fail

  End if

End if

    End for

End parser

الشكل ( 5 )

 نظرة تحليلية للدراسات السابقة

 تبين من خلال مراجعة ودراسة كثير من البحوث المنشورة في حوسبة الصرف العربي العدد من النقاط والتي يمكن إجمالها فيما يلي :

•       عدم وجود معايير قياسية Standards على عدة مستويات . فهناك عدة اختلافات على  مستوى اللغويات وكذلك المصطلحات والتعريب مما يضفي صعوبة على العمل البحثي في هذا المجال .

•       ضعف المستوى العلمي والفني لكثير من هذه البحوث مع تكرار نشر نفس البحث عدة مرات وبعناوين مختلفة أحياناً .إضافة لعدم الإيعاز للمراجع وترتيبها . مع قلة الإشارة للبحوث التي قام بها الآخرون وبيان الفرق . وقلة الإشارة للإضافة العلمية لبعض هذه البحوث .

•       عدم استخدام الوسائل العلمية في تحديد جدوى كثير من الخوارزميات .

•       ضعف التعاون بين الكثير من الباحثين في هذا المجال في تبادل المعلومات والخبرات .

سبق كثير من الباحثين المهتمين باللغات الأخرى في بناء أنظمة التحليل الصرفي . وكان أكثر هذه النظم مصمما للغة الإنجليزية البسيطة في نظامها الصرفي . ومن أمثلة ذلك نظرية مكارثي McCarthy للتقطيع الآلي , ونظرية كوسكينيمي Koskenneime ذات المستويين , وكذلك نظرية الحالات الآلية Finite State Automata . أدت بساطة نظام صرف اللغة الإنجليزية بكثير من الباحثين لرفض مناسبة تطبيق هذه النظريات على اللغة العربية إلا أن الواقع شهد بأن بعض هذه النظريات قد تم تعديلها لكي تناسب خصائص اللغة العربية حيث أعطت نتائج جيدة في تحليل الصرف العربي . ومن أوضح هذه الشواهد الجهود البحثية التي قام بها بيسلي Kenneth R. Beesley في مجال نظرية كوسكينيمي ذات المستويين ونظرية الحالات المحددة الآلية Finite State Automata وقد ساهم بشكل كبير في نجاح هذه المجهودات الدعم الذي وفرته شركة Xerox في هذا الميدان مما ساهم في إيجاد منتج قوي للتحليل الصرفي وهو متاح منذ فترة للتجربة على موقع الشركة على الانترنت . ويبدو أن الشركة قد ضمنته في بعض منتجاتها .

ساهم العديد من مراكز البحوث في دعم البحث العلمي في هذا المجال . ومن هذه المراكز : مختبر المعلومات والعلاج الآلي للغة العربية في المغرب . وكذلك شركة IBM في مصر والكويت . وكمثال على هذه الجهود البحثية الرائدة ما تسعى به مدينة الملك عبدالعزيز للعلوم والتقنية ممثلة بمعهد الإلكترونيات والحاسبات لوضع اللبنات الأساس لنظم معالجة اللغة العربية الطبيعية وتيسيرها للباحثين . ومن ذلك أنها قامت ببناء قاعدة بالخصائص الصرفية للمفردات العربية . ويهدف المشروع إلى إنشاء قاعدة بيانات بجميع الخصائص الصرفية للمفردات العربية ووضع الخوارزميات الصرفية والنحوية والصوتية المتعلقة بتوليد تلك المفردات حاسوبياً . وتشمل مداخل القاعدة على قائمة الجذور والحروف العربية والخصائص المتعلقة بها وكذلك على الأوزان الصرفية المستخدمة في توليد المفردات العربية المفردة مثل الأسماء الجامدة و الأفعال والمشتقات والمصادر . كما تشمل القاعدة على الخصائص الصرفية للمفردات المولدة وتشمل صيغ الجمع والتصغير والنسبة والتأنيث وكذلك أحوال الفعل الزمانية والصيغ الاسمية المولدة من المشتقات والمصادر .

ولاشك أن المساهمة في هذه الجهود البحثية وتظافرها ووجود جهة داعمة للبحث والتطوير في هذا المجال يعد أمراً مهما وحيويا لدفع عجلة البحث قدما ووضع النتائج حيز التنفيذ .

يوجد عدد من الشركات التي تجري بحوثاً في هذا المجال ومنها على سبيل المثال لا الحصر : شركة زيروكس Xerox : حيث قامت هذه الشركة بتطوير محلل صرفي مبني على نظرية الحالات المحددة الآلية Finite State Automata ووضعه على الانترنت للتجربة . كذلك شركة L&H إضافة إلى شركتي العالمية وحرف وغيرها . لم يظهر في السوق سوى عدد محدود جداً من نظم التحليل الصرفي . ومن أشهرها برامج العالمية لمبنية على محللها الصرفي MMMP .

يعقد في العالم عدد من المؤتمرات ذات العلاقة بمعالجة اللغات الطبيعية وتطبيقاتها ومنها مثلاً مؤتمرات الحاسوب في المملكة والكويت . كما تبنت جمعية الحاسبات ومكتبة الملك عبدالعزيز العامة في المملكة إقامة عدد من المؤتمرات ذات العلاقة . إضافة لمؤتمرات اللغة العربية والتقنيات المعلوماتية المتقدمة في المغرب .

كفاءة التحليل الصرفي في استرجاع النصوص العربية

الدراسات السابقة 

إن المهتم بقضية استرجاع المعلومات باللغة العربية يعرف ما تسببه السوابق واللواحق للكلمات من مشكلات عدة . ومن أجل التغلب على هذه المشكلات يرى (الخراشي 1991) أن نظام الاسترجاع ينبغي أن يصمم بحيث تكون له القدرة على نزع السوابق واللواحق من الكلمات الكشفية ( الكلمات الدالة ) قبل أن تخزن في الملف المنقلب ( الملفات الكشفية ) بينما يذهب ( البخيت 1414هـ) إلى أن استخدام البتر بكل صوره سيحد من مشكلة السوابق واللواحق في نظم استرجاع المعلومات العربية . وعلى أية حال , فإن البتر يعد مناسباً بشكل أكبر للغات اللصقية ( اللغة الإنجليزية ) اكثر منه مناسباً للغات غنية الاشتقاق والتصريف ( اللغة العربية ) نظراً لوجود الإحلال والإبدال وجموع التكسير وغيرها من المسائل الصرفية التي لايمكن معالجتها بالبتر وحده .لذا يرى ( علي 1988م) أن حل مثل هذه المشكلات ممكن , وذلك باستخدام المحلل الصرفي القادر على استرجاع جميع أشكال الكلمة , والتخلص من السوابق واللواحق وحتى من الحشو الذي يكون في وسط الكلمة . وهناك عدة فوائد يمكن تحقيقها باستخدام المحلل الصرفي في استرجاع المعلومات لعل من أهمها :

         1.تمكين المستفيد من استرجاع جميع صيغ الكلمة المدخلة , دون الحاجة إلى التفكير في إدخال عدة صيغ للكلمة نفسها من قبل المستفيد .

2.توسيع نطاق البحث .

3.باستخدام المحلل الصرفي في عملية استرجاع المعلومات فإن الاستدعاء سيرتفع .

وعلى الرغم من أهمية التحليل الصرفي في عملية استرجاع المعلومات إلا أنه في أحيان كثيرة يتم استرجاع مواد غير صالحة أو غير مطابقة للاستفسار المدخل من قبل المستفيد .

هناك ثلاث دراسات أكاديمية ناقشت مناهج الاسترجاع الثلاثة باللغة العربية ( كلمة , كلمة مع اللواصق) , ( ساق الكلمة ) , ( وجذر الكلمة ) . فالدراسة الأولى قام بها الخراشي (1991) , حيث صمم نموذجاً لاسترجاع المعلومات باللغة العربية وقام بإجراء عدد من التجارب ( استخدم خلالها 355 عنواناً فقط ) من أجل مقارنة ثلاث مناهج بحثية ( كلمة , ساق , جذر ) . وتوصل إلى أن أداء الاستدعاء بالنسبة للجذر حقق النسبة الأعلى مقارنة بالمناهج الأخرى . وفي دراسة مشابهة قام أبو سالم بإعادة تجريب عينة الخراشي ولكن استخدم في دراسته 120 عنوان ( في مجال الحاسب الآلي ) مع مستخلصاتها . واستخدم أبو سالم في تجاربه نظام الاسترجاع نفسه الذي قام بتصميمه الخراشي ويعرف باسم microcomputrer based AIRS .وتوصل إلى نتائج قريبة من تلك النتائج التي توصل إليها الخراشي في دراسته . والإضافة التي أتى بها أبو سالم أنه قام بمقارنة أداء مناهج البحث الثلاثة بأداء البحث عبر استخدام المكنز الموضوعي . ولمزيد من التفصيل انظر دراسة أبى سالم في (1992) . وفي دراسة حديثة للحمدي (1995) , وصف للتكشيف الآلي وأثره في استرجاع المعلومات باللغة العربية . ومرة أخرى قام حمدي بمقارنة مناهج البحث الثلاثة آنفة الذكر , وقد توصل إلى نتائج قريبة لتلك النتائج التي توصل إليها الخراشي وأبو سالم , وهنا نقطة مهمة يجب  التنبيه عليها وهي أن عملية التكشيف ( المستخدم في الدراسات الثلاث ) لجذور الكلمات الدالة تمت بطريقة يدوية وليست بطريقة آلية . بمعنى أخر , إن إرجاع الكلمة إلى جذورها تم عبر الجهد البشري , وليس هو النظام الآلي ( المحلل الصرفي ) الذي قام بهذا الجهد. ولا يخفى على المتخصص في هذا المجال الفرق الكبير بين التكشيف المعتمد على الجهد البشري وبين التكشيف المعتمد على الآلة ( التكشيف الآلي ) .

منهجية الدراسة ( الإطار التجريبي )    

سبق وان ذكر أن هدف هذه الدراسة هو تسليط الضوء على اثر تحليل الصرفي في أداء استرجاع النصوص العربية ومن اجل التحقق من ذلك تم تصميم وتطبيق الإطار التجريبي التالي :

البحث في موسوعة الحديث النبوي

قد تم إجراء تجارب هذه الدراسة باستخدام موسوعة الحديث النبوي الشريف , وهذه الموسوعة من إنتاج شركة العالمية للبرامج ( صخر  ) . وتضم هذه الموسوعة تسعة من أهم كتب الحديث النبوي الشريف . حيث يقدر العدد الإجمالي لأحاديث هذه الموسوعة ب65000 حديث . وهذه الدراسة استخدمت واحداً من هذه الكتب التسعة ألا وهو صحيح البخاري , والذي يبلغ عدد أحاديثه 7000 حديث تقريباً ويتراوح طول كل حديث من هذه الأحاديث بين 10-80 كلمة تقريباً . وتتميز هذه الموسوعة بميزات عدة ليس هنا مجال لتفصيلها ولكن لعل من أهمها :

1.      الخيارات المتعددة فيما بتعلق بمستوى البحث ( كلمة , كلمة مع اللواصق , جذر … ) .

2.      استخدام تقنية التحلل الصرفي في استرجاع نصوص العربية .

3.      استخدام نصوص كاملة وليست مستخلصات أو عناوين فقط .

4.      استخدام الوصفات الكشفية لنصوص الأحاديث .

وهذا بدوره يخبرنا عن عدد الأحاديث في هذه الموسوعة المتعلقة بأي استفسار يتم البحث عنه . وهذا أسهل من عملية الحكم على بعض الأحاديث ومدى صلاحيتها للاستفسارات العشرة التي تم بحثها . وقد تم تحييد عدد الأحاديث المطابقة لكل استفسار من خلال الرجوع إلى هذه الوصفات في أحيان كثير .

استفسارات البحث 

إن عينة استفسارات البحث المستخدمة في هذه الدراسة عبارة عن مصطلحات تكشيفية تم اختيارها عشوائياً من عدة قوائم ( تم اختيار 4 كتب من كتب الأحاديث الشاملة مثل جامع الأصول , وتم تصوير قائمة المحتويات وترقيمها ) .بلغ عدد المصطلحات التكشيفية 200 مصطلح تكشيفي . وتم اختيار 10 مصطلحات تكشيفية بشكل عشوائي , هي التي تم استخدامها في إجراء تجارب هذه الدراسة ( وهي التي نطلق عليها الاستفسار ). وتم البحث في موسوعة الحديث النبوي عن إجابات لهذه الاستفسارات باستخدام مناهج البحث التالية :

1.      البحث بمستوى الكلمة , من اجل استرجاع الكلمة المدخلة نفسها من قل المستفيد.

2.      البحث بمستوى الكلمة مع اللواصق , لاسترجاع الكلمة مع السوابق أو اللواحق ( دون الحشو الذي يكون في وسط الكلمة ) .

3.      البحث بمستوى الجذر من اجل استرجاع جميع صيغ الاستفسار المدخل .

وقد تم استخدام استراتيجية بحث مبسطة تتمثل في إدخال الاستفسار بصيغتين هما :

الاستفسار مع ( أل التعريف ) .

قياس كفاءة الاداء

هناك مقياسان مشهوران يستخدمان في تقييم أداء نظم استرجاع المعلومات هذان المقياسان يعرفان باسم مقياس الاستدعاء ( Recall ) ومقياس التحقيق ( Precision ) . حيث يستخدم مقياس الاستدعاء في اختبار قدرة النظام عل استرجاع جميع الوثائق أو النصوص الصالحة في نظام ما . بينما يستخدم مقياس التحقيق من اجل التأكد من قدرة النظام على استرجاع الوثائق أو النصوص الصالحة فقط , وحجب غيرها من الوثائق أو النصوص غير الصالحة . وكلا المقياسان تم استخدامها في هذه الدراسة كما هو موضح أدناه :

                          عدد الوثائق ( الأحاديث )الصالحة والمسترجعة

مقياس الاستدعاء  …………………………………….

                          عدد الوثائق ( الأحاديث ) الصالحة في النظام

                          عدد الوثائق ( الأحاديث ) الصالحة والمسترجعة

مقياس التحقيق  ……………………………………….

                          عدد الوثائق ( الأحاديث ) المسترجعــــة

نتائج الدراسة

يوضح الجدول رقم (  7  ) جميع النصوص المسترجعة الصالحة  وغير الصالحة لكل منهج ( كلمة , كلمة مع اللواصق , جذر ) للاستفسارات العشرة . ويلاحظ بشكل عام – من هذا الجدول – أن منهج البحث بمستوى الجذر يسترجع نصوصاً اكثر من المنهجين الآخرين ( كلمة , كلمة مع اللواصق ) , ولعل هذا يعود إلى قدرة البحث بمستوى الجذر على استرجاع جميع الصيغ للاستفسار , والتي تشترك في الجذر نفسه . ويلاحظ أيضا أنه إذا استخدم منهج البحث بمستوى الجذر فإن ثلاثة أرباع (81%) النصوص الصالحة تم استرجاعها عن طريق البحث بمستوى الجذر . أما النصوص المسترجعة من طريق البحث بمستوى الكلمة فإنها تعد اقل النصوص المسترجعة مقارنة بالمنهجين الآخرين .وبإيجاز فإن الجدول رقــم (  7  ) يوضح لنا أن البحث بمستوى الكلمة استرجع نسبة 18% فقط من النصوص الصالحة , واسترجع البحث بمستوى الكلمة مع اللواصق نسبة 29% من النصوص الصالحة , بينما نجد أن البحث بمستوى الجذر استرجع 81% من النصوص الصالحة .

أما فيما يتعلق بالنصوص المسترجعة وغير الصالحة فإن الجدول رقم (  7  ) يوضح أن البحث بمستوى الجذر استرجع نسبة 1:17 من النصوص غير الصالحة مقارنة بالبحث على مستوى الكلمة , ونسبة 1:6 مقارنة بالبحث على مستوى الكلمة مع اللواصق . ومن ناحية أخرى فإن البحث بمستوى الجذر أعطى 1:4 من النصوص الصالحة مقارنة بالبحث على مستوى الكلمة , ونسبة 1:3 من النصوص الصالحة مقارنة بالبحث بمستوى الكلمة مع اللواصق . ويشير الجدول رقم (  7  ) إلى أن نسبة 23% من النصوص الصالحة لم تسترجع بواسطة أي منهج من المناهج الثلاثة .كما يلاحظ أن كل نص صالح تم استرجاعه عن طريق البحث بمستوى الكلمة أو الكلمة مع اللواصق فإنه حتماً سيتم استرجاعه عن طريق البحث بمستوى الجذر .

الجدول رقم (  7 ) مجموع نتائج البحث للاستفسارات العشرة لكل منهج

كلمةكلمة مع اللواصقجذر
ص قم سص رص لغ صم سص رص لغ صم سص رص لغ صالاستفسار
3911380333603331821
181111701515301616702
1711160751222017033
3533320553003533224
18171176311441746171295
203317033170381212266
617754018184305454607
104460664066408
394435044250682712419
41883301313280292912010
29859532456105862121924524259103 

غ ص = عدد النصوص غير الصالحة والمسترجعة .

ص ل = عدد النصوص الصالحة غير المسترجعة .

ص ر = عدد النصوص الصالحة والمسترجعة .

م س = عدد النصوص المسترجعة .

ص ق = عدد النصوص الصالحة في قاعدة النصوص ( صحيح البخاري ) .

ويكشف الجدول رقم (  7 ) أن هناك خلاف واضحاً ومهماً عندما بتم مقارنة جميع النصوص المسترجعة لكل منهج بالنصوص الصالحة . على سبيل المثال فإن عدد النصوص المسترجعة عن طريق البحث بمستوى الكلمة هو 59 نصاً , بينما النصوص الصالحة تصل إلى 298 نصاً . وهذا فرق واضح سيتم مناقشته وتوضيح أسبابه في الفقرات التالية من خلال استخدام تحليل سبب الإخفاق .

يوضح الجدول رقم ( 8  ) قيم الاستدعاء والتحقيق لاستفسارات البحث العشرة حيث قيمة الاستدعاء تتراوح ما بين 0.94 كحد أعلى إلى قيمة 0.02 كحد أدنى . بينما تتراوح قيمة تحقيق ما بين 1.00 كحد أعلى إلى قيمة 0.31 كحد أدنى .

التحقيقالاستدعاء
الاستفسارجذركلمة من اللواصقكلمةجذركلمة من اللواصقكلمة
10.931.001.000.790.070.02
21.001.001.000.880.830.61
30.850.711.000.850.300.05
40.941.001.000.940.140.08
50.370.450.640.940.770.61
60.311.001.000.600.150.15
71.001.001.000.880.290.11
80.361.001.000.600.600.40
90.341.001.000.690.100.10
101.001.001.000.700.310.19

ويلاحظ من الجدول رقم (  9  ) أن متوسط الاستدعاء للجذر هو 0.79 بينما متوسط الاستدعاء بالنسبة للبحث بمستوى الكلمة مع اللواصق هو 0.36 ويوضح الجدول نفسه أن أعلى نسبة تحقيق هي من نصيب البحث بمستوى الكلمة عند مستوى 0.69 يليه البحث عن طريق الكلمة مع اللواصق عند مستوى 0.94 وأخيراً فإن أقل نسبة تحقيق هي من نصيب البحث بمستوى الجذر , وذلك عند مستوى 0,75 .

الجدول رقم (  9  ) متوسط الاستدعاء والتحقيق لمناهج البحث الثلاثة

 جذركلمة مع اللواصق كلمة
متوسط الاستدعاء 0.790.360.18
متوسط التحقيق 0.750.940.96

تحليل سبب الإخفاق

لقد تم في هذه الدراسة تطبيق تحليل سبب الإخفاق لكل من الاستدعاء والتحقيق من اجل الإجابة على الأسئلة التالية :

•       لماذا يوجد إخفاق فيما يتعلق بالاستدعاء أو التحقيق ؟

•       ما أسباب هذا الإخفاق ؟

وكما ذكر (1972 Lancaster ) فإن هناك عدة أسباب للإخفاق مثل استراتيجية البحث , سياسة التكشيف . الاستفسار , حاجات المستفيد … وهنا سيتم التركيز على أسباب الإخفاق المتعلقة بالمسائل اللغوية دون غيرها ويقصد بالمسائل اللغوية تلك المسائل المتعلقة بـ ( الاشتقاق , السوابق واللواحق , التغير الدلالي … ) .

 انظر الجدول رقم (  10 ) حيث يعرض سبب الإخفاق لكل من الاستدعاء والتحقيق . وكما هو واضح من الجدول رقم (  10  ) فإن سبب الإخفاق يمكن تقسيمه إلى ما يلي :

الجدول رقم (  10  ) سب إخفاق التحقيق والاستدعاء لكل منهج

التحقيقالاستدعاء
نوع الاخفاقجذركلمة من اللواصقكلمةجذركلمة من اللواصقكلمة
تعدد أشكال الكلمة152175
المترادفات566061
تعدد المعنى459
السوابق واللواحق9
التغير الدلالي272
التشكيل6

إخفاق أداء الاستدعاء

هذا النوع من الإخفاق يخبرنا عن سبب إخفاق منهج معين (كلمة أو جذر ) في عدم استرجاع نصوص صالحة على الرغم من وجودها في قاعدة النصوص أو قاعدة المعلومات . وعند فحص كل منهج على حدة تبين أن البحث بمستوى الكلمة اخفق في استدعاء 245 نصاً صالحاً من مجموع 298 .أي أن نسبة إخفاق الاستدعاء بنسبة إخفاق الاستدعاء بالنسبة للبحث بمستوى الكلمة هو 83% . بينما نجد نسبة الإخفاق تقل عندما ستخدم البحث بمستوى الكلمة مع اللواصق حيث أخفق هذا المنهج في استدعاء 212 نصاً صالحاً (71%) من مجموع 298 نصاً صالحاً . وبعد الفحص لهذه النصوص تبين أن سبب إخفاق الاستدعاء يعود إلى النقاط التالية :

تعدد اشكال الكلمة

ولعل أغلب أسباب الإخفاق بالنسبة للاستدعاء يعود إلى الحقيقة التالية . وهي أن الكلمة المدخلة من قبل المستفيد برزت في نصوص الأحاديث بعدة أشكال ( أو قل بعدة صيغ ) مثال ذلك الاستفسار رقم (2) عن ( الرهن ) تكررت صيغ هذا الاستفسار بعدة أشكال مثل ( مرهون , رهنه , مرتهن …) بينما كانت الكلمة المدخلة هي ( الرهن , رهن ) , لهذا السبب أخفق هذا المنهج في استرجاع الصيغ الأخرى التي لم يتم إدخالها من قبل المستفيد . ويوضح لنا الجدول رقم ( 10  ) أن مجموع الاسترجاع بواسطة الكلمة هو 245 نصاً صالحا . وبعد فحص هذا النصوص تبين أن 175 نصاً ( 71%) من هذه النصوص يعود سبب الإخفاق إلى تعدد أشكال الكلمة المدخلة في قاعدة نصوص الأحاديث . أما بالنسبة لما يتعلق بالبحث بمستوى الكلمة مع اللواصق فإن مجموع الإخفاق هو 212 نصاً صالحاً , كان من نصيب تعدد أشكال الكلمة المدخلة 152 نص بنسبة 72% ومن هذا يتبين لنا أن نسبة إخفاق الاستدعاء – فيما يتعلق بالصيغ الشخصية للكلمة المدخلة – بالنسبة لمنهج البحث بمستوى الكلمة ومستوى الكلمة مع اللواصق متقاربة جداً . وقبل الانتقال إلى نقطة أخرى , لعله من المفيد التنبيه على أن هذا النوع من الإخفاق ( تعدد صيغ الكلمة ) يعد نادراً إن لم يكن مفقوداً بالنسبة للبحث لمستوى الجذر , وذلك نظراً للقدرة الهائلة لهذا المنهج على استرجاع جميع صيغ الكلمة المدخلة دون الحاجة إلى أن يفكر المستفيد من نظام استرجاع المعلومات بإدخال صيغ أخرى للاستفسار , بل تكون هذه المهمة من مهام المحلل الصرفي الذي يقوم بالبحث عن صيغ الكلمة نيابة عن المستفيد .

المترادفات

وهذا نوع آخر من أسباب إخفاق الاستدعاء . وفي واقع الأمر فإن هذا الإخفاق مرتبط بالتحليل للكلمة وليس بالتحليل الصرفي .الجدول رقم (  10  ) يوضح مرات الإخفاق لهذا النوع .

السوابق واللواحق

كان بالإمكان أن يضم هذا النوع من الإخفاق إلى النوع الأول وهو ( تعدد صيغ الكلمة ) . ولكن هناك فرق جعلنا نفرد هذا النوع من الإخفاق على حدة  وهو أن عملية التحليل اللغوي بالنسبة للسوابق واللواحق أسهل منه عندما تكون المسألة متعلقة ببنية الكلمة . ولتقريب الصورة نعطي المثال التالي : يكمن نزع السابقة (أل ) من الكلمة ( الرهن ) , وهذا الامر يحتاج منا إلى كتابه خوارزمية مبسطة تتعرف على السوابق في اللغة العربية من أجل نزعها عند عملية التحليل الصرفي . أما إذا كان التغيير يشمل صلب الكلمة فإن التحليل الصرفي يحتاج مزيداً من العمق والنفاذ إلى بنية الكلمة من أجل التعرف على صيغتها الصرفية وعلى الزوائد التي قد تظهر عليها مثل كلمة ( المراهنات ) . وعلى أية حال فإن الإخفاق بالنسبة لهذا لنوع كان قليلاً جداً في هذه الدراسة حيث يبلغ عدد مرات الإخفـاق لهذا النوع 9 مرات من اصل 245 إخفاقا . وهنا نقطة يجب التنبيه عليها , وهي أن في استراتيجية البحث نوعين من الصيغ لكل استفسار وهما البحث باستخدام ( أل ) التعريف والبحث بدونها . وهذا قد يكون له أثر في تدني الإخفاق بالنسبة لهذا النوع ونقطة مهمة أخرى , وهي أن هذا الإخفاق عادة ما يوجد عندما يستخدم منهج البحث بمستوى الكلمة فقط دون غيرها من مستويات البحث الأخرى .

إخفاق أداء التحقيق

لقد تم استخدام هذا المقياس من أجل التأكد من أداء وكفاءة كل منهج من مناهـج البحث الثلاثة ( كلمة , كلمة من اللواصق , جذر ) فيما يتعلق باسترجاع النصوص الصالحة فقط , وفي الوقت نفسه حجب غيرها من النصوص غير الصالحة أو غير الموافقة للاستفسار . ولقد بينت هذه الدراسة – وكما هو موضح في الجدول رقم (  10 ) أن إخفاق أداء التحقيق يكون شبه نادر عندما نستخدم منهج البحث بمستوى الكلمة أو الكلمة مع اللواصق . ومن ناحية أخرى فإن هذا النوع من الإخفاق يرتفع بشكل ملحوظ عندما يستخدم منهج البحث بمستوى الجذر . وباختصار فإن إخفاق التحقيق يمكن أن يقسم إلى ثلاثة أنواع كما يلي :

تعدد المعنى

هذا النوع من الإخفاق يتعلق بمستوى البحث عن طريق الجذر دون غيره . وسنعطي مثالاً بدلاً من الدخول في التفاصيل النظرية للإخفاق, فالاستفسار رقم 9 يتعلق بموضوع ( الأضاحي ) , عندما تم بحث هذا الاستفسار عن طريق الجذر , استرجع النظام 160 نصاً , وبعد فحص هذه النصوص تبين أن النصوص الصالحة والموافقة للاستفسار هي 27 نص , وهذا يعني أن بقية النصوص ليست صالحة ولا مطابقة للاستفسار . ومن أجل التعرف على سبب الإخفاق تم فحص النصوص غير الصالحة فوجد أن هذه النصوص مرتبطة بصلاة الضحى أو وقت الضحى , بالإضافة إلى نصوص أخرى عن عيد الأضحى , وهذا يوضح لنا أن البحث بمستوى الجذر نجح باسترجاع جميع مشتقات الكلمة المدخلة ولكن الإخفاق كان مرده إلى تغير المعنى لكلمة ( ضحى ) التي هي اصل أو جذر الاستفسار ( الأضاحي ) .

التغير الدلالي ( السياق )

هذا النوع من الإخفاق شبيه بالنوع السابق , ولكن الإخفاق هذا مرتبط بالسياق . فلا يمكن أن يعرف معنى الكلمة إلا بسياقها . وعلى سبيل المثال كان ناتج الاستفسار عن ( الوصية ) 20 نصاً مسترجعاً وبعد فحص هذه النصوص وجد أن 12 نصاً غير صالحة أو موافقة للاستفسار , على الرغم من أن معنى الجذر لهذه النصوص معنى واحد , ولكن عندما تمت قراءة السياق لهذه النصوص وجد بعضها كما يلي :

1.      أوصى بثلث ماله ( الوصية المعروفة , وهذا المراد بالاستفسار ) .

2.      أوصى أمته ( نصح أمته ) .

3.      أوصاني خليلي ( امرني خليلي ) .

التشكيل

بالرغم من أهمية التشكيل باللغة العربية لإزالة اللبس الصرفي أو الدلالي , إلا أن اغلب النصوص العربية غير مشكلة . وهذا ليس له كبير أثر – إلى حداً ما – على استرجاع المعلومات باللغة العربية ولكن أظهرت هذه الدراسة أن هناك إخفاقا في أداء التحقيق كان مرده إلى غياب التشكيل على سبيل المثال ( السحر) بفتح السين , وتعني الكلمة بداية الصبح الباكر وليس كما كان متوقعاً أن يسترجع النظام عن (السحر ) بتشديد السين وكسرها .

 الخاتمة

ظهر جلياً في ثنايا هذا البحث أن لحوسبة الصرف أهمية كبيرة يمكن أن نجملها كما يلي :

أولاً : يجب بذل كافة الجهود الممكنة لخدمة اللغة العربية الوعاء الحامل للحضارتين الإسلامية والعربية .

ثانياً : أصبح من شبه المتفق عليه أن التعامل مع الحاسوب يجب أن يتم باستخدام لغات طبيعية لا اصطناعية .

ثالثاً : تضخم حجم المعلومات وبالتالي ضرورة وجود طرق فعالة وسريعة في متابعة هذه المعلومات جمعا ومعالجة .

رابعاً : تعتمد اللغة العربية على الصرف كثيراً حيث يمثل الصرف أساسا متيناً في التعامل مها .

خامساً : تمثل حوسبة الصرف مطلباً مهما في بناء مختلف التطبيقات اللغوية الحاسوبية .

سادساً : لم تؤد الدراسات اللغوية الحاسوبية دورها بالشكل المطلوب ومنها دراسات حوسبة الصرف .

هناك عدد من الأفكار والاقتراحات المتعلقة بحوسبة الصرف ومنها :

•       تحديد التطبيقات المختلفة التي يمكن أن تستفيد من علم الصرف وتحديد احتياجات هذه التطبيقات وخصوصاً ما يتعلق بدرجة تعقد ودقة نظام حوسبة الصرف .

•       دراسة نظم حوسبة الصرف في اللغات اللاتينية وبيان ما يمكن الاستفادة منها .

•       دراسة نظم وخوارزميات حوسبة الصرف العربي وبيان نقاط الضعف والقوة فيها .

•       ضرورة حوسبة الصرف على أسس لغوية سليمة وتجنب تبني آراء مخالفة لما اتفق عليه اللغويون العرب .

يوصي هذا البحث بعدد من الأمور التي ينبغي دراسته والعناية بها ومن أهمها :

•       تكوين مجموعات عمل لدراسة مجال معالجة اللغة العربية الطبيعية . وتبني وجود جهات داعمة للبحث والتطوير في هذا المجال .

•       ضرورة دعم والتعاون مع الشركات العاملة في مجال معالجة اللغة العربية الطبيعية . وكذلك تبني إقامة مؤتمرات في هذا المجال واستصدار مجلات بحثيه فيه .

•       القيام بمشروع لتوحيد المصطلحات اللغوية وكذلك مرادفاتها في اللغة الإنجليزية . وتبنيه على مستوى الدول العربية .

•       بناء نظام لغوي متكامل للغة العربية وتوحيده وتبنيه على مستوى الدول العربية .

•       ضرورة تبني عمل إطار كامل لنظام معالجة اللغة العربية الطبيعية ومنها نظام الصرف في اللغة العربية . ومن ثم بناء مختلف خوارزمياته بطريقة علمية .

•       إشاعة وتيسير استخدام مثل هذا النظام للباحثين لأغراض البحث والتطوير وبناء النظم الأخرى التي تعتمد على النظام الصرفي .

•       دعم الحماية الفكرية لعاملين في هذا المجال للإسهام في دعمهم ودفع عملية التعاون فيما بينهم .

وفي الختام ، نسأل الله العلي القدير أن نكون قد وفقنا في إشباع هذا الموضوع بحثاً ودراسة .فإن أصبنا فمن الله ، وإن أخطأنا فمن أنفسنا والشيطان ،،،

0 Reviews

Write a Review

مقالات ذات صلة

زر الذهاب إلى الأعلى