بحوث في اللسانيات الحاسوبية

التطورات والاتجاهات الحديثة في استرجاع المعلومات العربية

مها سليمان الربيعة وعبدالملك السلمان

الملخص

شهد مجال استرجاع المعلومات (Information Retrieval) تطوراً ملحوظاً في العقود الأخيرة وذلك نتيجة النمو المضطرد للشبكة العنكبوتية وحاجة المستخدمين الماسة للبحث في ذلك الكم الهائل من المعلومات الرقمية. كما أن المحتوى العربي الإلكتروني قد شهد مؤخراً نمواً مضطرداً مما يعزز الحاجة لبناء أنظمة استرجاع معلومات تلائم اللغة العربية وتفي بمتطلباتها. وفي هذه الورقة سنحاول إلقاء الضوء على التقدم الذي تم إحرازه حتى الآن في خمسة فروع رئيسية في مجال استرجاع المعلومات العربية (Arabic Information Retrieval) مع التطرق للتحديات التي تواجه تقدم هذا العلم وتقديم بعض الاقتراحات لأبحاث مستقبلية.

المقدمة

يشهد المحتوى الرقمي العالمي تزايداً لحظياً نظراً للمعلومات التي تتدفق إليه سواءً من مواقع الإنترنت، ومن سجلات الشركات والحكومات، ومن الكتب الإلكترونية ومن الصحف والمجلات وغيرها، الأمر الذي يحتم الحاجة لإيجاد أنظمة استرجاع معلومات تساعد المستخدمين في الحصول على المعلومة التي يرغبون بها من هذا الكم الهائل من النصوص والصور والأصوات الرقمية. ويعرف علم استرجاع المعلومات على أنه العلم الذي يهتم بتمثيل وحدات المعلومات وتخزينها وتنظيمها وتسهيل الوصول إليها (7). وتزداد أهمية هذا العلم مع ازدياد أعداد مستخدمي الإنترنت في العالم واعتمادهم على محركات البحث كمصدر رئيس للحصول على المعلومات (1).

ويعد استرجاع المعلومات النصية أحد تطبيقات معالجة اللغات الطبيعية (Natural Language Processing) والذي يعنى باسترجاع الوثائق التي تحوي المعلومات التي يحتاجها المستخدم من قواعد بيانات تحتوي أعدادا ضخمة من الوثائق المختلفة. ويتكون أي نظام استرجاع معلومات تقليدي من ثلاث مراحل أساسية، وهي: الفهرسة (Indexing) وإعادة تكوين الاستعلام (Query Reformulation) والمطابقة (Matching). ففي مرحلة الفهرسة تتم فهرسة جميع الوثائق الموجودة في قاعدة البيانات باستخدام الكلمات أو العبارات التي تمثل كل وثيقة أفضل تمثيل وتكون ذات دلالة فعلية عليها بما يتوافق مع نموذج استرجاع المعلومات المستخدم. أما في مرحلة إعادة تكوين الاستعلام، فإن الاستعلام الذي يكتبه المستخدم، لغرض الحصول على المعلومة المطلوبة، تتم إعادة صياغته ليتوافق مع نموذج استرجاع المعلومات المتبع وليتم إضافة كلمات دلالية أخرى أو تعديل أوزان الكلمات الموجودة للحصول على دقة أكبر في البحث. وأخيراً، في مرحلة المطابقة تتم مطابقة الاستعلام الذي أدخله المستخدم بالفهرس الموجود واسترجاع الوثائق الأكثر مطابقة وترتيبها تنازلياً وفقاً لذلك (1)(5)(6)(7). وبالنسبة لنماذج استرجاع المعلومات فإنها تحدد كيفية تمثيل الوثائق في الفهرس وبالتالي تتحكم في كيفية تمثيل الاستلام، ويوجد العديد منها ولكن أشهرها هي: النموذج البولي (Boolean Model)، والنموذج الضبابي (Fuzzy Model) ونموذج فضاء المتجهات (Vector Space Model) (5)(6)(7).

ونظراً للنمو المتزايد للمحتوى العربي الرقمي سواءً على الإنترنت أو الوسائط الإلكترونية الأخرى، فإن الحاجة أصبحت أشد إلحاحاً لإيجاد أنظمة استرجاع معلومات ومحركات بحث تعتني بالخصائص الفريدة للغة العربية وتحسن التعامل معها. فالعربية هي لغة الوحيين القرآن والسنة وتعد أكثر اللغات السامية الحية من حيث عدد المتكلمين بها (35). وتتميز العربية عن بقية اللغات الجرمانية بأنها تكتب وتقرأ من اليمين إلى اليسار، كما أن حروفها تكتب بأشكال مختلفة تبعاً لموقعها والحروف المجاورة لها، وتختلف طريقة نطق الحرف وبالتالي معنى الكلمة وموقعها الإعرابي بناءً على حركة التشكيل الموجودة عليه (32)، بالإضافة إلى أن العربية لغة اشتقاقية وليست إلصاقية، حيث يعد نظامها الصرفي من أكثر النظم الصرفية تقدماً، فهو مبني على تصريف الجذور وفقاً لمجموعة محددة من الأوزان للحصول على كلمات ذات دلالات مختلفة من نفس الجذر. وكل ما سبق ذكره يمثل تحديات لمكننة التحليل الصرفي والإعرابي والدلالي للغة العربية ومن ثم لاسترجاع النصوص العربية.

في هذا البحث هذه سنناقش التطور الحاصل لخمسة فروع أساسية من علم استرجاع النصوص العربية وهي: الفهرسة الآلية للوثائق، وإعادة الصياغة الآلية للاستعلامات، وتكييف دالة المطابقة، والتصنيف الآلي للوثائق وأخيراً البحث الآلي عن صفحات الإنترنت. مع التعريج على التحديات التي تواجه تقدمها وكيفية تجاوزها، وأخيراً نختم ببعض التوصيات المستقبلية.

أولا: الفهرسة الآلية للوثائق

تعنى فهرسة الوثائق ببناء الفهرس الذي يصف محتوى كل وثيقة في قاعدة بيانات الوثائق على أفضل وجه بغرض تسريع وتسهيل عملية البحث (7). وهذا الفهرس عبارة عن أي نوع من تراكيب البيانات (Data Structures) ويستخدم لتخزين الكلمات، الكلمات الأساسية أو الوصف العام لكل وثيقة. ويعمد نظام استرجاع المعلومات إلى مطابقة الاستعلام المقدم من قبل المستخدم بجميع المدخلات الموجودة في الفهرس بغرض الحصول على قائمة بالوثائق الأكثر مطابقةً لذلك الاستعلام. من ناحية أخرى، تعتمد صعوبة فهرسة الوثائق على اللغة التي تعالجها، فقد وجد أن اللغات التي تمتلك أنظمة متقدمة ومعقدة من النحو والصرف، كاللغة العربية، تحتاج إلى خوارزميات فهرسة أكثر تقدما وتعقيداً من غيرها (12).

وقد حظيت الفهرسة الآلية للنصوص العربية بنصيب الأسد من مجمل الأبحاث التي أجريت في مجال استرجاع النصوص العربية، والتي يمكننا تصنيفها إلى المجموعات التالية: معالجة النص قبيل الفهرسة والفهرسة المبنية على استخراج الجذر، الفهرسة المبنية على تجريد الكلمة من السوابق واللواحق، الفهرسة المبنية على تقنية (n-gram)، الفهرسة المنية على التجريد واستخدام القواعد اللغوية، والفهرسة المبنية على المعاجم، وفهرسة جموع التكسير، وفهرسة الأسماء والكلمات المتعددة، وأخيراً، تحديد أوزان كلمات الفهرسة.

1- معالجة النص قبيل الفهرسة

وهي مرحلة مهمة تساعد في الحصول على نتائج أفضل لعملية الفهرسة وتشمل إزالة التشكيل وإزالة الحروف وغيرها من الكلمات التي لا تعطي معنىً بذاتها (Stop words) (28) وكذلك توحيد أشكال الحروف إلى صيغة واحدة، فمثلاُ تحول الأشكال التالية من حرف الألف {“أ”،”ا”،”إ”،”آ”} إلى “ا” والأشكال التالية من حرف الهاء {“ة”،”ه”} إلى “ه” وكذلك الأشكال التالية من حرف الياء {“ي”،”ئ”،”ى”،”ي”} إلى “ي” (14)(17)(29) وقد أثبتت هذه الطرق فاعليتها في تحسين استرجاع النصوص العربية. وقد يرجع السبب في فاعلية ذلك أن النصوص الأصلية لا تراعي الفروق بين هذه الحروف نتيجة لضعف مدخلي تلك النصوص في قواعد الكتابة العربية.

2-الفهرسة المبنية على استخراج الجذر

ويعتني هذا النوع من الفهرسة باستخراج جذور الكلمات الموجودة في الوثيقة واستخدامها ككلمات فهرسة (Indexing Terms)، وبذلك فإن جميع الكلمات الواردة في الوثيقة الواحدة والتي لها نفس الجذر ستفهرس بنفس الكلمة بالرغم من أنه ليس بالضرورة أن يكون لها نفس المعنى. ويوجد عدة أبحاث عنيت بدراسة هذا النوع من الفهرسة (17)(35)(36) وقد أثبتت تفوقها على الفهرسة المبنية على الكلمات الأصلية، وكذلك تحقيقها لنسب عالية من مقياسي الدقة (Precision) والاسترجاع (Recall) مع المجموعات التي تحوي أعداداً محدودة وغير متغيرة بشكل كبير من الوثائق كمجموعات الوثائق التي تحوي سور القرآن الكريم وأحاديث الرسول صلى الله عليه وسلم. والسبب في ذلك يعود إلى أن هذه الطريقة ترجع للمستخدم جميع الوثائق التي تحتوي على أي صيغة صرفية للكلمات الواردة في الاستعلام مما يعزز من إمكانية عثور المستخدم على المعلومة المطلوبة، ولكن في حالة مجموعات الوثائق الضخمة جداً والمتجددة باستمرار كصفحات الإنترنت مثلاً فإن هذه الطريقة غير مجدية لأنها ستوسع كثيراً من نطاق البحث ولن تصل بالمستخدم إلى المعلومة المطلوبة.

3- الفهرسة المبنية على التجريد

وفي هذا النوع من الفهرسة يتم تجريد الكلمات من السوابق واللواحق بحيث تستخدم الكلمات المجردة لفهرسة الوثائق، وغالباً ما تكون الكلمات التي تجرد إلى نفس الكلمة لها نفس المعنى لأن تلك الزوائد غالباً ما تستخدم للدلالة على التعريف، أو العدد، أو الجنس، أو العطف أو الجر وليس لإزالتها تأثيراً على المعنى. وقد أثبتت الدراسات العلمية (11)(13)(14)(17)(29)(31)(33) أن الفهرسة المبنية على التجريد قد تفوقت على الفهرسة المبنية على الكلمات الأصلية، وعلى الفهرسة المبنية على استخراج الجذور، وعلى الفهرسة المبنية على تقنية (n-gram) وعلى الفهرسة المبنية على التجريد المرتبط بالسياق، في تحقيق مستويات عالية من مقياسي الدقة والاسترجاع. ويرجع ذلك للطبيعة الاشتقاقية العالية للغة العربية مما يجعلها حساسةً جداً للتجريد (29).

4- الفهرسة المبنية على تقنية (n-gram)

تعد تقنية الـ (n-gram) إحدى التقنيات المشهورة لقياس التشابه بين الكلمات أو النصوص. وتعمد على تقصي عدد المرات التي تتكرر فيها مجموعة ذات عدد محدد (س) من الأحرف في كل كلمة، ومن ثم تحسب التشابه بين الكلمتين كدالة للعدد (س) من الأحرف التي ترد في كلا الكلمتين. وقد وجدنا دراسة واحدة فقط تؤكد تفوق الفهرسة المبنية على تقنية (n-gram) على الفهرسة المبنية على الكلمات الأصلية (18). وعموماً، فإن هذه التقنية بمفهومها التقليدي لا تناسب اللغة العربية ذات الطبيعة العالية الاشتقاق، والتي لا تحتوي الكلمات المشتقة من نفس الجذر فيها على السوابق واللواحق فقط بل وإنما تحتوي على زوائد وسطية تجعل من تطبيق تقنية (n-gram) بمفهومها التقليدي غير مجدية كما هي في اللغة الإنجليزية وغيرها من اللغات.

5- الفهرسة المنية على التجريد واستخدام القواعد اللغوية

تشبه هذه الطريقة طريقة الفهرسة المبنية على التجريد، ولكنها تستخدم القواعد اللغوية للحصول على نتائج أفضل لعملية التجريد. وقد أثبتت إحدى الدراسات الحديثة (34) تفوق هذه الطريقة من حيث دقة التجريد على التجريد بدون استخدام القواعد النحوية، ولكن الباحثين لم يوفروا أي تجارب لدمج هذه الطريقة بنظام استرجاع نصوص عربية لمعرفة مدى التفوق الذي ستحققه.

6- الفهرسة المبنية على المعاجم

باستخدام هذه الطريقة، يتم فهرسة كل كلمة في الوثيقة باستخدام مرادفات تلك الكلمة (12). وفي دراسة أجريت على استرجاع الآيات من القرآن الكريم (36) ثبت أن استخدام الفهرسة المبنية على المعاجم أدى إلى ارتفاع نسبة الدقة في الاسترجاع مقارنة باستخدام الفهرسة المبنية على استخراج الجذور. وفي دراسة أخرى (14) ثبت أن استخدام الفهرسة المبنية على المعاجم زادت من آداء نظام استرجاع نصوص عربية بنسة 18%.

7- فهرسة جموع التكسير

يمثل تجريد جموع التكسير وإعادتها لصيغها المفردة تحدياً حقيقاً لمعالجة اللغة العربية بشكل عام ولاسترجاع النص العربي بشكل خاص. وذلك لأن جموع التكسير لا تتبع نسقاً واحداً يمكن معرفته كما في جمع المذكر والمؤنث السالم، وتحوي على العديد من الزوائد الوسطية التي يصعب تتبعها. وقد حاولت إحدى الدراسات (14) حل هذه المعضلة عن طريق استخدام تقنية (n-gram)، ولكنها لم تثبت جدارتها في ذلك. وفي دراسة أخرى (27) أعتمد الباحثون على استخدام معجم يضم قائمة بالصيغ المفردة من جموع التكسير والتي تستخدم للتعرف على الكلمة التي تعد جمع تكسير، وقد أثبت الباحثون أن الفهرسة المبنية على التجريد والتي تعتني بتجريد جموع التكسير تفوقت على الفهرسة المبنية على التجريد والتي لا تعتني بجموع التكسير.

8- فهرسة الأسماء والجمل القصيرة

تناولت بعض الدراسات مدى فاعلية الفهرسة المبنية على نوع الكلمة (حرف، اسم، فعل) على زيادة السرعة وتقليل المساحة المطلوبة لعمية الفهرسة. ففي إحدى الدراسات (15) أثبت الباحثون أن هذا النوع من الفهرسة يزيد من فاعلية عملية الفهرسة مقارنة بنقص طفيف لكل من مقياسي الدقة والاسترجاع. وقد أثبت الباحثون أن فهرسة الأسماء فقط زادت من كفاءة عملية الفهرسة بمقدار 45% مع نقص بلغ أقل من 1% لمقياسي الدقة والاسترجاع.

وبالنسبة للفهرسة المبنية على الجمل القصير فقد أثبتت إحدى الدراسات (32) أن الفهرسة المبنية على الجمل الإسمية القصيرة لم تزد من فاعلية استرجاع النصوص العربية. وفي دراسة أخرى (16)(26) طور الباحثون أداة لاستخراج المصطلحات المكونة من أكثر من كلمة واستخدموها في الفهرسة للتعزيز من قدرة نظام استرجاع المعلومات الخاص بهم وقد أثبتت تجاربهم أن استخدام هذه الطريقة مصحوبة بطريقة (Okapi BM25) لتحديد وزن العبارات أثناء الفهرسة زادت من أداء نظام استرجاع المعلومات.

9- تحديد أوزان كلمات الفهرسة

تهتم عملية تحديد أوزان كلمات الفهرسة بإعطاء الوزن الأمثل لكل كلمة فهرسة والذي يناسب الدرجة التي تمثل بها هذه الكلمة الوثيقة التي وردت فيها. وقد تناولت بعض الدراسات هذه الناحية المهمة من عملية الفهرسة، ففي دراسة مؤخرة (28) تناول فيها الباحث تأثير إزالة الحروف وغيرها من الكلمات التي لا تعطي معنىً بذاتها، وكذلك تأثير استخدام أنواع متعددة من طرق تحديد وزن كلمات الفهرسة على استرجاع النصوص العربية، وجد الباحث أن استخدام طريقة (Okapi BM25) بالإضافة إلى إزالة الكلمات العامة والتي ليس لها معنىً بذاتها أعطى أفضل النتائج في الاسترجاع مقارنة بطرق تحديد الوزن الأخرى مثل (TF*IDF) و (KL)، وأنه عندما لا يعمل أي تهيئة للنص أو إزالة لأي من الكلمات فإن طريقة (TF*IDF) المشهورة تعد الأفضل.

ومن ناحية أخرى تناولت إحدى الدراسات (12) طريقة لتحديد وزن كلمات الفهرسة تعتمد على ثلاثة عوامل، وهي: عدد المرات التي تكررت فيها الكلمة في الوثيقة، عدد الكلمات المجردة لتلك الكلمة، وأخيراً توزيع تلك الكلمة في الوثيقة. وقد أثبتت تلك الدراسة فاعلية الطريقة المتبعة من حيث زيادة الدقة والاسترجاع.

ثانيا: إعادة الصياغة الآلية للاستعلامات

تعد إعادة صياغة الاستعلامات إحدى تقنيات استرجاع المعلومات والتي تستخدم إما لإضافة مفردات جديدة للاستعلام، أو لإعادة تعيين الوزن لكلمات الاستعلام، أو كلاهما بغرض الحصول على عدد أكبر من الوثائق المطابقة. ويوجد ثلاث طرق رئيسة لإعادة صياغة الاستعلام وهي: إعادة الصياغة عن طريق التغذية الراجعة (Relevance Feedback)، وإعادة الصياغة عن طريق التحليل الآلي المحلي (Automatic Local Analysis) وتسمى أيضاً استنباط الاستعلام عن طريق الأمثلة (Inductive Query By Example)، وأخيراً إعادة الصياغة عن طريق التحليل الآلي الشامل (Automatic Global Analysis) (7). وقد حظيت إعادة الصياغة الآلية للاستعلامات العربية أيضاً بنصيب وافر من الأبحاث خلال العقد المنصرم، ويوجد العديد من الأبحاث في هذا المجال.

1- إعادة صياغة الاستعلام عن طريق التغذية الراجعة

وفي هذه الطريقة يطلب من المستخدم أن يحدد ما إذا كانت الوثائق المسترجعة كرد على استعلامه ذات صلة بالموضوع الذي يريده أم لا، ومن ثم تعاد صياغة الاستعلام وفقاً لذلك عن طريق إضافة كلمات وردت في الوثائق ذات الصلة، أو إزالة كلمات وردت في الوثائق التي لا تمت للموضوع بصلة، أو إعادة وزن كلمات البحث. ويدخل هذا الاستعلام الجديد في نظام استرجاع المعلومات لاسترجاع مجموعة أخرى من الوثائق والتي ربما تكون أكثر صلة بالموضوع، وأحياناً تكرر هذه الطريقة حتى يرضى المستخدم عن النتائج التي حققت.

وفي دراسة تناولت استخدام هذه الطريقة في محرك بحث عربي (38) طلب من المستخدم تصنيف الوثائق التي تم استردادها كنتيجة لاستعلامه إلى وثائق ذات صلة بموضوع الاستعلام ووثائق ليس لها صلة به، كما طلب منه اختيار مرادفات كلمات البحث المناسبة من معجم يحوي الكلمات ومرادفاتها لكي تتم إضافتها أيضاً للاستعلام الجديد. وقد وجد الباحثون أن استخدام هذه الطريقة التفاعلية لإزالة الغموض عن معاني الكلمات وتوسعة الاستعلام تحقق نتائج مرضية لنظام الاسترجاع من ناحية زيادة مقياسي الدقة والاسترجاع إذا كانت المرادفات المضافة ذات علاقة وطيدة بكلمات الاستعلام الأصلية، والعكس إذا كانت الكلمات المرادفة ذات معنى شمولي.

ومن ناحية أخرى، أثبتت إحدى الدراسات (41) وبالتجارب العملية أن توسعة الاستعلام باستخدام الطريقة التفاعلية (عن طريق التغذية الراجعة من المستخدم) تفوقت على استخدام الطريقة الآلية (وهي ما تعرف بإعادة صياغة الاستعلام عن طريق التحليل الآلي المحلي) من ناحية فاعلية الاسترجاع. كما قد وجد الباحثون أن استخدام أياً من الطريقتين أفضل من عدم استخدام أي طريقة لإعادة صياغة الاستعلام وتوسعته.

2- إعادة صياغة الاستعلام عن طريق التحليل الآلي المحلي

في طريقة إعادة صياغة الاستعلام عن طريق التحليل الآلي المحلي، والتي تعرف باستنباط الاستعلام عن طريق الأمثلة، يوفر المستخدم لنظام استرجاع المعلومات مجموعة من الوثائق ذات الصلة بالموضوع الذي يرغب في البحث عنه، وأحياناً أيضاً مجموعة من الوثائق التي ليس لها صلة بالموضوع، ومن ثم يقوم النظام باستنتاج الكلمات الأساسية من الوثائق ذات الصلة، وأحياناً إقصاء الكلمات التي وردت في الوثائق التي ليس لها صلة، ويستخدمها كاستعلام من أجل الحصول على وثائق أخرى ذات صلة بالموضوع (4). ولا تستخدم هذه الطريقة عادةً في عمل الاستعلامات التي تستخدم مرة واحدة فقط، بل تستخدم في عمل الاستعلامات التي تستخدم باستمرار (2).

ويعد (AuthenTique) من الأبحاث التي طبقت هذه الطريقة على اللغة العربية (35)، وهو نظام استرجاع نصوص عربية مبني على استرجاع الأحاديث الشريفة. ويعمد هذا النظام على استخراج جذور الكلمات التي وردت في الاستعلام ومطابقتها بالفهرس المبني على استخراج الجذور لإنتاج القائمة الأولية من الوثائق، ومن ثم يستخدم طريقة التحليل المحلي لإعادة صياغة الاستعلام. وقد طبق الباحثون هذه الطريقة على أحد الاستعلامات فكانت نسبة مقياسي الدقة والاسترجاع بالتوالي على النحو التالي: 0,66 و 0,80. ويرجع النجاح الذي تحققه هذه الطريقة على مجموعة الوثائق التي تطبق عليها، فتطبيقها مجدي على مجموعة محدودة وغير متغيرة باستمرار لأن نتائج البحث ستكون محدودة نوعاً ما، أما تطبيقها على مجاميع كبيرة غير مجدي لأنه سيؤدي إلى توسيع نطاق البحث بشكل كبير ومن ثم انخفاض كبير في مقياسي الدقة والاسترجاع.

3- إعادة صياغة الاستعلام عن طريق التحليل الآلي الشامل

على خلاف الطريقتين السابقتين، تعتمد هذه الطريقة على إنشاء علاقة تربط بين جميع كلمات الفهرسة لكل الوثائق في المجموعة، وليس فقط فيما بين الوثائق ذات الصلة والوثائق التي ليس لها صلة. ومعظم تقنيات هذه الطريقة تقوم على إنشاء معجم تشابه يحدد العلاقة بين كلمات الفهرسة بناءً على المفهوم الذي تمثله وليس فقط بناءً على ورودها معاً في نفس الوثيقة (7).

ويوجد العديد من الدراسات التي تناولت تطبيق هذه الطريقة في استرجاع النص العربي. فعلى سبيل المثال، يعتمد محرك البحث العربي برق (43) في إضافة كلمات جديدة للاستعلام على ثلاثة معاجم للمفاهيم مبنية يدوياً وآلياً، وعلى توحيد أشكال الحروف كما تطرقنا له في الفهرسة الآلية (30)، وقد حققت تلك الطريقة ارتفاعاً في مقياس الدقة بلغ 75%. كما طور الميماني وآخرون (39) طريقة لتوسعة الاستعلام مبنية على إيجاد مترادفات كلمات الاستعلام ومشتقاتها. وقد استخدموا المنطق العصبي- الضبابي (Neuro-Fuzzy) للحصول على المشتقات الأقرب من حيث المعنى لكلمات الاستعلام الأصلية وتقدم للمستخدم كخيارات يمكنه بها توسعة الاستعلام، ويعد الباحثون بتقديم تجارب تثبت فاعلية هذه الطريقة في استرجاع النص. بينما اهتمت دراسة أخرى (36) بعملية توسعة الاستعلام لاسترجاع المعلومات من النص العربي المشكّل وغير المشكّل، وطبق فيها الباحث طريقته على النص القرآني الكريم مستخدماً أربعة أنواع من الفهارس: فهرس الكلمات المشكّلة، فهرس الكلمات غير المشكّلة، فهرس مبني على استخراج الجذور، وأخيراً فهرس مبني على معجم يضم مجموعات تحوي الكلمات التي لها المعنى نفسه. وقد قارن الباحث ما بين استخدام الفهرس المبني على استخراج الجذور والفهرس المبني على المعجم في توسعة الاستعلام وقد وجد أن الأخير قد تفوق على الأول من حيث متوسط مقياس الدقة.

من ناحية أخرى، اعتمد المطورون لمحرك الدّال (Addaall) العربي (37) طريقةً أخرى لإعادة صياغة الاستعلام تعتمد على التحليل والإنشاء الصرفي، وذلك عن طريق تجميع الأوزان الصرفية على حسب معناها ومن ثم إنشاء وإضافة أقرب تصريف لكل كلمة واردة في الاستعلام والذي يتوافق مع معنى تلك الكلمة، ولكننا لم نطلع على أية تجارب توضح مدى فاعلية هذه الطريقة في عملية الاسترجاع.

وفي دراسة أخرى (40)، اقترح الباحثون تعديلاً على طريقة توسعة الاستعلام المبنية على المفهوم (concept based query expansion)، والمقدمة في (8)، وذلك للتخلص من القيم الشاذة والتي تنتج عن وجود كلمة لها درجة تشابه مرتفعة تطغى على بقية الكلمات والتي لها درجات تشابه منخفضة. وقد أثبت الباحثون أن هذه الطريقة زادت من فاعلية نظام الاسترجاع بنسبة 3,3%.

ثالثا: تكييف دالة المطابقة

في مرحلة المطابقة، كما سبق وأن ذكرنا، يطابق الاستعلام المدخل من قبل المستخدم بالفهرس لغرض استرجاع الوثائق التي تطابق ذلك الاستعلام. وتدعى تلك الوثائق بالوثائق ذات الصلة، وترتب تنازلياً حسب درجة صلتها بالموضوع. وعند تصميم الدالة التي تقوم بمطابقة الاستعلام بالفهرس، والمسماة بدالة المطابقة، لابد من الاعتناء بأمرين مهمين؛ الأول، كيف نقرر أن الوثيقة المعطاة ذات صلة بموضوع الاستعلام، والثاني، كيف نحدد ترتيب الوثائق ذات الصلة على حسب صلتها بالموضوع (Ranking) (6). كما أن كفاءة دالة المطابقة تعتمد على عدة أمور خارجية، مثل حجم مجموعة الوثائق، مواضيع تلك الوثائق، وثقافة المستخدم الذي يصيغ الاستعلام (6)، لذا لا يمكننا الحكم بأن دالة مطابقة محددة سوف تحقق نفس النجاح إذا ما استخدمت في كل أنظمة استرجاع المعلومات.

ومن ناحية أخرى، يوجد القليل فقط من الأبحاث التي عنيت بدراسة مطابقة النص العربي ومقاييس التشابه لاستخدامها في علم استرجاع المعلومات باللغة العربية. فإحدى تلك الدراسات (19) حاولت دراسة مدى فاعلية استخدام تقنية (n-gram) في مطابقة واسترجاع النص العربي، وقد وجد الباحثون أن هذه الطريقة لم تحقق النتائج الجيدة والتي حققتها مع لغات أخرى كاللغة الإنجليزية وذلك للطبيعة الاشتقاقية العالية للغة العربية والتي تحوي كلماتها على الكثير من الزوائد الوسطية، كما سبق وأن ذكرنا. وفي دراسة أخرى (20) حاول الباحث إدخال بعض التعديلات لتقنية الـ (n-gram) كي تتماشي مع اللغة العربية، وذلك باختيار أحرف غير متتالية في الكلمة ومحاولة مطابقتها بأحرف من الكلمات الأخرى. وقد وجد الباحث أن استخدام هذه الطريقة المعدلة مصحوبة بتجريد الكلمة من السوابق واللواحق أعطى نتائج أفضل من استخدام الطريقة التقليدية لتقنية الـ (n-gram). كما حاول باحثون آخرون (21) تعديل تقنية الـ (n-gram) لتتناسب مع اللغة العربية عن طريق إجراء البحث في أمكان محددة من الكلمة المستهدفة الأمر الذي سيزيد من احتمالية إيجاد درجة تشابه عالية بين كلمتين قد لا تحملان نفس المفهوم. وقد أثبت الباحثون من خلال التجارب تفوق طريقتهم على الطريقة التقليدية من حيث زيادة مقياسي الدقة والاسترجاع، وكذلك تمكن هذه الطريقة من إيجاد درجات تشابه عالية بين التصريفات المختلفة للكلمة.

وفي دراسة مؤخرة (22) بنى الباحثون نظام استرجاع معلومات بااللغة العربية مبني على النموذج الضبابي، وذلك لاعتقادهم أن المنطق الضبابي يناسب طبيعة اللغة العربية ويستطيع أن يكتشف التشابه بين المرادفات المختلفة للكلمات وكذلك بين التراكيب المختلفة للجمل. وقد بنى الباحثون نظامهم على معجمين؛ أحدهما يحوي مصفوفة تبين مدى الارتباط بين كل الكلمات (معامل الارتباط)، والآخر يحوي مرادفات الكلمات. ولتحديد التشابه بين جملتين يتم حساب معامل الارتباط بين كل كلمة والجملة التي وردت فيها الكلمة لكل جملة على حدة، ومن ثم يتم حساب التشابه بين الجملتين. وقد أثبت الباحثون بالتجارب تفوق نظامهم على أنظمة استرجاع المعلومات المبنية على النموذج البولي من حيث الدقة والاسترجاع وأنه قادر على إيجاد التشابه بين الوثائق المتشابهة، إلا أنه يتطلب حسابات مكلفة ومعقدة.

رابعا: التصنيف الآلي للوثائق

في علم استرجاع المعلومات يتم تصنيف الوثائق في نفس المجموعة إذا كان لها نفس التصرف تجاه طلب المعلومات (1). مما يعني أنه إذا كانت إحدى الوثائق في مجموعة معينة ذات صلة باستعلام معين فإن احتمالية كون بقية الوثائق في تلك المجموعة ذات صلة بذلك الاستعلام ستكون عالية أيضاً. وللتصنيف الآلي عدة تطبيقات في علم استرجاع المعلومات يمكن تقسيمها إلى نوعين وفقاً لمجموعة الوثائق التي تسعى لتصنيفها ولجوانب استرجاع المعلومات التي تحاول تحسينها. ففي النوع الأول يمكن إجراء التصنيف على نتائج البحث، أو على جزئية من مجموعة الوثائق، أو على كل مجموعة الوثائق. أما في النوع الثاني، فإن التصنيف يستخدم لتحسين واجهة المستخدم، أو خبرات المستخدم، أو فاعلية وآداء نظام البحث (1).

وقد وجدنا عددا قليلا فقط من الأبحاث التي اهتمت بتصنيف الوثائق العربية لغرض استرجاع المعلومات، ففي أحد الدراسات (23) قام الباحثون ببناء مصنف مبني على خوارزمية (Naive Bayes) والغرض منه توفير فهرس بالمواضيع يسهل عملية البحث. ويعمل هذا المصنف على تصنيف الوثائق إلى خمس مواضيع أساسية، وهي: الرياضة، الأعمال، الثقافة والفن، والعلوم، والصحة. ويتم قبيل عملية التصنيف إزالة التشكيل واستخراج جذور الكلمات، وقد بلغ معدل نسبة دقة التصنيف 68،78%. كما قدم باحثون آخرون (24) خوارزمية للتصنيف الآلي للوثائق العربية مبنية على استخراج الكلمات التي تغطي المفهوم الأساسي لموضوع كل وثيقة، بحيث يتم حساب وزن كل كلمة بناءً على مدى تكرار هذه الكلمة في الوثيقة وأماكن تواجدها. وقد وجد الباحثون أن استخدام خوارزمية التصنيف هذه قد زاد من كفاءة نظام استرجاع المعلومات.

ومن ناحية أخرى، تناولت إحدى الدراسات (25)(42) مدى فاعلية تطبيق خوارزميتين من خوارزميات تجزئة النص، والتي أثبتت نجاحها على اللغة الإنجليزية، على اللغة العربية. وهما (TextTilling) و (C99) وقد وجد الباحثون أن هاتين الخوارزميتين قد أثبتتا فاعليتهما في تقسيم النصوص العربية، وأن خوارزمية الـ (TextTilling) قد تفوقت على خوارزمية الـ (C99).

خامسا: البحث الآلي عن صفحات الإنترنت

تقوم برامج تدعى بالزواحف (crawler) بتتبع الروابط التشعبية على الإنترنت وتجميع الصفحات وتوفيرها لمحركات البحث لتتم فهرستها. وعادة ما تعطى هذه الزواحف عناوين لصفحات إنترنت (URLs) أو كلمات مفتاحية لتبدأ البحث منها، ومن ثم تتبع الروابط التشعبية في تلك الصفحات لتصل إلى صفحات أخرى وهكذا (1)(9). ويعد البحث عن صفحات الإنترنت تحدياً كبيراً نظراً للعدد الضخم من الصفحات المتوفرة على الإنترنت والتي تتزايد لحظياً مما يجعل إيجادها أمراً صعباً. كما أن الصفحات التي سبق وأن تم إيجادها وتخزينها لابد من إعادة زيارتها وفهرستها نظراً لأن محتوياتها قد تكون تغيرت، حيث أن معدل تغير صفحات الإنترنت غير ثابت ويختلف باختلاف نوع الموقع. ويوجد عدة أنواع لتحديث الصفحات المخزنة منها (10):

  • الطريقة الموحدة (uniform policy): وفيها يتم تحديث جميع الصفحات التي سبق فهرستها بغض النظر عما إذا كان محتواها قد تغير أم لا.
  • الطريقة النسبية (proportional policy): وفيها يتم تحديث الصفحات بشكل متناسب مع معدل تغيرها.
  • الطريقة المثلى(optimal policy): وفيها يتم فقط تحديث الصفحات التي يمكن تتبع التغيير فيها.
  • طريقة تتبع المنحنى (curve fitting policy): وفيها يتم حساب التغير بين صورتين متتاليتين من صفحة الإنترنت وحساب عدد التغييرات والتي تعكس تاريخ التغيير لتلك الصفحة.

ومن ناحية أخرى، فإن المحتوى العربي على الإنترنت لا يزال في طور النمو، فوفقاً لـ (10) تبلغ نسبة الصفحات العربية على الإنترنت 0،1% فقط، وهذا ما يفسر قلة الأبحاث على اللغة العربية في هذا المجال. فأحد تلك الأبحاث (10) قام بتعديل طريقة تتبع المنحنى لتناسب اللغة العربية، وذلك عن طريق حذف الضمائر والأسماء الموصولة وحروف الجر من المحتوى وذلك لأنها، كما يعتقد الباحثون، لا تساهم في تغيير المعنى، كما أنهم اعتبروا أن المشتقات المختلفة من نفس الكلمة لها نفس المعنى. وقد أثبت الباحثون أن التعديل الذي أجروه ساهم في تقليل الوقت والمساحة المطلوبة لعملية البحث والذين يعدان عاملين مهمين في مجال البحث عن الصفحات. وفي بحث آخر (11)، قام الباحث ببناء برنامج بحث عن صفحات الإنترنت العربية وغيرها يتميز بإمكانية توزيعه على أكثر من خادم لزيادة السرعة والكفاءة. وقد حقق برنامجه سرعة بحث عالية بلغت 160 صفحة في الثانية.

الخاتمة

في ختام هذا البحث يمكننا أن نستنتج أن استرجاع المعلومات باللغة العربية قد أحرز تقدماً ملحوظاً في العقد الأخير من الزمان، خاصةً بعد توفر مجموعة الوثائق العربية (TREC-2001) والتي وفرت للباحثين عددا كبيرا من الوثائق باللغة العربية مصحوبة بمجموعة من الاستعلامات والوثائق ذات الصلة بها والتي مكنتهم من اختبار مدى فاعلية أنظمة الاسترجاع والخوارزميات التي طوروها. وعلى الرغم من ذلك، فإن مجموعة الوثائق هذه تعاني من بعض العيوب، فهي ليست شاملة لكل التراكيب النحوية وتصريفات الأسماء والأفعال، كما أنها تحتوي على الكثير من الأخطاء الإملائية في تهجئة أسماء الأشخاص والأماكن الأعجمية (3). لذا فإن هنالك حاجة ماسة لتطوير مجموعات وثائق شاملة وضخمة توفر كمية مناسبة من البيانات والوثائق في مختلف المجالات يمكن للباحثين إجراء تجاربهم عليها والحصول على نتائج صحيحة وموثوقة. وكذلك، نظراً لأهمية التجريد بالنسبة لأنظمة استرجاع المعلومات باللغة العربية، فإنه لابد من تظافر الجهود لبناء أداة تجريد فعالة ودقيقة لتجريد الكلمات العربية مع الاهتمام الخاص بتجريد جموع التكسير. كما أنه يجب أن يتم إعادة النظر في البحث في النصوص المشكلة وكيفية إمكانية الاستفادة من التشكيل في إزالة الغموض عن معاني الكلمات عوضاً عن مجرد مسح جميع حركات التشكيل قبيل البدء بعملية الفهرسة. وأخيراً، لابد من أن يكون هنالك عناية بالتفريق ما بين البحث في النصوص الثابتة والمحدودة، كالقرآن الكريم والحديث الشريف، والتي نادراً أو قليلاً ما تتغيير والبحث في النصوص المتجددة والكبيرة، كصفحات الإنترنت، والتي تتغير لحظياً أوبصفة مستمرة.

المراجع

[1] D. Manning, P. Raghavan, and H. Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009. [2] D. Kraft, F. Petry, B. Buckles, and T. Sadasivan, “The use of genetic programming to build queries for information retrieval,” Evolutionary Computation, 1994 search. IEEE World Congress on Computational Intelligence., Proceedings of the First IEEE Conference on, 1994, pp. 468-473 vol.1. [3] A. Abdelali, J. Cowie, and H. Soliman, “Arabic information retrieval perspectives”, In Proceedings of JEP-TALN 2004 Arabic Language Processing, 2004. [4] O. Cordón, E. Herrera-Viedma, and M. Luque, “Improving the learning of Boolean queries by means of a multiobjective IQBE evolutionary algorithm,” Information Processing & Management,  vol. 42, May. 2006, pp. 615-632. [5] O. Cordón, E. Herrera-Viedma, C. López-Pujalte, M. Luque, and C. Zarco, “A review on the application of evolutionary computation to information retrieval,” International Journal of Approximate Reasoning,  vol. 34, Nov. 2003, pp. 241-264. [6] P. Pathak, M. Gordon, and Weiguo Fan, “Effective information retrieval using genetic algorithms based matching functions adaptation,” System Sciences, 2000. Proceedings of the 33rd Annual Hawaii International Conference on, 2000, p. 8 pp. vol.1. [7] R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval, Addison-Wesley, Wokingham, UK, 1999. [8] Y. Qiu and H. Frei, “Concept based query expansion”. In proceedings of the 16th International ACM SIGIR Conference on R & D in Information Retrieval, ACM Press, New York, 1993, pp. 160-169. [9] Shkapenyuk, V. and Suel, T. (2002), ‘Design and implementation of a high-performance distributed web crawler’, In Proc. of the Int. Conf. on Data Engineering. [10] D. Ezzat, M. Abdeen, M.F. Tolba, “A Memory Efficient Approach for Crawling Language Specific Web: The Arabic Web as a Case Study,” icime, pp.584-587, 2009 International Conference on Information Management and Engineering, 2009. [11] G. Al-Gaphari, “Building An Efficient Indexing For Crawling The Website With An Efficient Spider”, International Journal of Information Science and Technology, vol. 6, 2008. [12] N. Mansour, R.A. Haraty, W. Daher, and M. Houri, “An Auto-indexing Method for Arabic Text,” Information Processing and Management: an International Journal.,  vol. 44, 2008, pp. 1538-1545. [13] I. El Emary and J. Atwan, “Designing and building an automatic information retrieval system for handling the Arabic data”, American Journal of Applied Sciences, 2005. [14] J. Xu, A. Fraser, and R. Weischedel, “Empirical studies in strategies for Arabic retrieval,” Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval,  Tampere, Finland: ACM, 2002, pp. 269-274. [15] G. Kanaan, R. Al-Shalabi and M. Sawalha, “Improving Arabic Information Retrieval Systems Using Part of Speech Tagging”, Information Technology Journal, vol.4, 2005, pp.32-37. [16] S. Boulaknadel, B. Daille and A. Driss, “Multi-word term indexing for Arabic document retrieval”, Proceedings of the 13th IEEE Symposium on Computers and Communications (ISCC 2008), Marrakech, Morocco 2008. [17] M. Aljlayl and O. Frieder, “On arabic search: improving the retrieval effectiveness via a light stemming approach”, CIKM 2002, pp.340-347. [18] J. Mayfield, P. McNamee, C. Costello, C. Piatko and A. Banerjee, “JHU/APL at TREC 2001: Experiments in Filtering and in Arabic, Video and Web retrieval”, InTREC 2001 Proceedings, 2001. [19] S. Mustafa and Q. Al-Radaideh, “Using N-Grams for Arabic Text Searching”, Journal Of The American Society For Information Science And Technology, vol.55, pp.1002–1007, 2004. [20] S. Mustafa, “Character contiguity in N-gram-based word matching: the case for Arabic text searching”, Information Processing and Management, vol.41, pp.819–827, 2005. [21] F. Ahmed and A. Nürnberger, “N-grams Conflation Approach for Arabic”, ACM SIGIR Conference, 2007. [22] S. Alzahrani and N. Salim, “On the Use of Fuzzy Information Retrieval for Gauging Similarity of Arabic Documents”, Proceedings of the 5th Postgraduate Annual Research Seminar, UTM, pp.256-260, 2009. [23] M. Elkourdi, A. Bensaid, and T. Rachidi, “Automatic Arabic Document Categorization Based on the Naïve Bayes Algorithm”, in Proc. of COLING 20th Workshop on Computational Approaches to Arabic Script-based Languages, 2004. [24] S. Ghwanmeh, G. Kanaan, R. Al-Shalabi and A. Ababneh, “Enhanced Arabic Information Retrieval System based on Arabic Text Classification”, 4th International Conference on  Innovations in Information Technology, pp.461 – 465, 2007. [25] F. Harrag, A. Hamdi-Cherif, A. Al-Salman, “Applying Topic Segmentation Algorithms on Arabic Language”, The 5th International Conference for Computer Science Practice in Arabic, Rabat, Morocco, 10-13 May 2009. [26] S. Boulaknadel, “Impact of term-indexing for Arabic document retrieval”, In Lecture Notes in Computer Science, pp.380-384, 2008. [27] A. Goweder, M. Poesio, A. de Roeck, “Broken plural detection for Arabic information retrieval”, SIGIR’04, Sheffield, pp.25-29, 2004. [28] I. Abu El-Khair, “Effects of stop words elimination for Arabic information retrieval: a comparative study”, International Journal of Computing & Information Sciences, vol.4 no.3, pp.119-133, 2006. [29] L.S. Larkey, L. Ballesteros, and M.E. Connell, “Improving stemming for Arabic information retrieval: light stemming and co-occurrence analysis,” Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval,  Tampere, Finland: ACM, 2002, pp. 275-282. [30] T. Rachidi, M. Bouzoubaa, L. ElMortaji, B. Boussouab, and A. Bensaid, “Arabic user search Query correction and expansion”, In Proc. of COPSTIC’03, Rabat, 2003. [31] K. Darwish, H. Hassan, and O. Emam, “Examining the effect of improved context sensitive morphology on Arabic information retrieval,” Proceedings of the ACL Workshop on Computational Approaches to Semitic Languages,  Ann Arbor, Michigan: Association for Computational Linguistics, 2005, pp. 25-30. [32] F. Ataa Allah, S. Boulaknadel, A. El qadi, and D. Aboutajdine, “Arabic Information Retrieval System Based on Noun Phrases,” Information and Communication Technologies, 2006. ICTTA ’06. 2nd, 2006, pp. 1720-1725. [33] L. Larkey, L. Ballesteros, and M. Connell, “Light Stemming for Arabic Information Retrieval,” Arabic Computational Morphology, 2007, pp. 221-243. [34] G. Kanaan, R. Al-Shalabi, M. Ababneh, and A. Al-Nobani, “Building an effective rule-based light stemmer for Arabic language to improve search effectiveness,” 2008 International Conference on Innovations in Information Technology,  Al Ain, United Arab Emirates: 2008, pp. 312-316. [35] F. Harrag, A. Hamdi-Cherif, and E. El-Qawasmeh, “Vector space model for Arabic information retrieval — application to “Hadith” indexing,” Applications of Digital Information and Web Technologies, 2008. ICADIWT 2008. First International Conference on the, 2008, pp. 107-112B. [36] B. Hammo, “Towards enhancing retrieval effectiveness of search engines for diacritisized Arabic documents,” Information Retrieval,  vol. 12, Jun. 2009, pp. 300-323. [37] M. Hattab, B. Haddad, M. Yaseen, A. Duraidi and A. Abu Shmias, “Addaall Arabic Search Engine: Improving Search based on Combination of Morphological Analysis and Generation Considering Semantic Patterns”, The second International Confe­rence on Arabic Language Resources and Tools, Cairo, Egypt, 2009. [38] R. Al-Shalabi, G. Kanaan, M. Yaseen, B. Al-Sarayreh and N. Al-Naji, “Arabic Query Expansion Using Interactive Word Sense Disambiguation”, The second International Confe­rence on Arabic Language Resources and Tools, Cairo, Egypt, 2009. [39] M. Al-Maimani, A. Al-Naamany, A. Abu Bakar, “Searching For Arabic-based Contents: An Approach Towards Using Arabic Derivatives”, International Conference On Communication, Computer And Power (Icccp’09), Muscat, 2009. [40] A. Al-Qabbany, A. Al-Salman, A. Almuhareb, “An Automatic Construction of Arabic Similarity Thesaurus”, 3rd IEEE International Conference on Arabic Language Processing (CITALA2009), Rabat, Morocco, May 4-5, 2009. [41] G. Kanaan, R. Al-Shalabi, S. Ghwanmeh and B. Bani-Ismail, “Interactive and Automatic Query Expansion: A Comparative Study with an Application on Arabic”, American Journal of Applied Sciences, vol.5, pp.1433-1436, 2008. [42] F. Harrag, A. Hamdi-Cherif, A. Al-Salman, E. El-Qawasmeh, “Experiments in Improvement of Arabic Information Retrieval”, 3rd International Conference on Arabic Language Processing (CITALA’09), May 4-5, 2009, Rabat, Morocco. [43] T. Rachidi, O. Iraqi, M. Bouzoubaa, A. Khattab, M. Kourdi, A. Zahi, and A. Bensaid, “Barq: distributed multilingual internet search engine with focus on Arabic language,” Systems, Man and Cybernetics, 2003. IEEE International Conference on, 2003, pp. 428-435 vol.1.

0 Reviews

Write a Review

مقالات ذات صلة

زر الذهاب إلى الأعلى