التحليل الصرفي الآلي لكلمات اللغة العربية
د. عبدالعزيز بن عبدالله المهيوبي
يهدف التحليل الصرفي للكلمة العربية إلى “ربط كلمات النص بالعناصر الصرفية الأولية التي تدخل في تكوينها، وكذلك بالقيم النحوية دون اعتبار موقعها”[1]. فيتم في التحليل الانتقال من الكلمة إلى جذرها الأصلي؛ أي أنَّ الحاسوب يعالج الكلمات العربية المشكولة جزئياً، أو كلياً، أو غير المشكولة، فيصف ما يطرأ عليها من تغيير؛ زيادة، أو نقصاناً، أو إعلالاً، أو إبدالاً، أو إدغاماً، أو قلباً، حيث “يحدد نوعها، وميزانها الصرفي، وسابقتها (أو سوابقها)، ولاحقتها (أو لواحقها)، وحالتها الإعرابية، ودلالتها، … فإذا احتوت الكلمة المراد تحليلها على حروف غير مشكولة، وضع الحاسوب الحركات الممكنة لها اعتماداً على بيانات مخزنة. ومن المعلوم أن خلوَّ الكلمة من الشكل يجعلها متعددة الأشكال، ومن ثمَّ المعاني، مادامت مستقلة عن سياق النص.”[2]
فكلمة (وجد) مثلاً يمكن أن تكون لها الإمكانيات التالية:
وَجَدَ، وَجَّدَ، وُجِدَ، وُجِّدَ … = أفعال / وَجْدٌ = اسم / وَ+جَدَّ، وَ+جُدَّ … = حرف عطف+أفعال / وَ+جَدٌّ = حرف عطف+اسم.
ومع ذلك فالكلمة المشكولة إذا عولجت مستقلة عن سياق النص، فلا يمنع شَكْلُها من إمكانية اشتراكها في الاسمية والفعلية، أو الفعلية والحرفية، فمن أمثلة الحالة الأولى كلمة (يَزِيدُ) فهي اسم في نحو قولنا: خَرَجَ يزيدُ من الغرفة. وفعلٌ في نحو قولنا: يزيدُ الله في خلقه ما يشاء. ومن أمثلة الحالة الثانية كلمة (أنَّ).
وهذا يعني أن على الحاسوب أن يعالج الكلمة عند تحليلها على أنها فعلٌ واسمٌ وحرف، وأن يعطي جميع الإمكانيات المحتملة لها، مع مراعاة الحالات التي تحدد نوعها، فالكلمة المنونة -مثلاً- لا تكون إلا اسماً. وبعد ذلك يقوم الحاسوب باختيار الإمكانية المناسبة التي تتوافق مع سياق النص.
تحليل الأفعال:
عند تحليل الأفعال فإن الحاسوب سيفترض أنَّ الكلمة المطلوب تحليلها هي فِعْلٌ، فيقوم بتحديد سوابقها ولواحقها، ويحدد كذلك صيغة الفعل، وبنائه للمعلوم أو المجهول، وهل هو مجرَّد أم مزيد؟ ويحدد وزنه، وأصله المشتق منه، ويُبيِّن حالته الإعرابية، والضمير المسند إليه. أي أنه يعطي وصفاً كاملاً عن حالة الفعل الصرفية، والنحوية، والدلالية مستقلة عن سياق النص.
وتمرُّ عملية تحليل الفعل بمراحل كثيرة:
المرحلة الأولى: تشذيب[3] الفعل (فصل السوابق واللواحق عن الفعل):
يبدأ الحاسوب تحليله للفعل بفصل سابقته أو سوابقه المتصلة به. والسوابق التي يمكن أن تتصل بالفعل تتكوّن إمّا من حرف واحد نحو: (فَكَتَبَ)، أو من حرفين نحو: (فَلْيَكْتُبْ). وتختص كل صيغة من صيغ الأفعال بسوابق محددة؛ فالسين تدخل على المضارع فقط، والهمزة تدخل الماضي والمضارع، والواو يمكن أن تسبق الماضي والمضارع والأمر.
وقد يقتطع الحاسوب أحد حروف الفعل الأصلية، نحو: (وَقْتٌ) ظناً منه أنها سابقة، ولكنَّه يقوم بإعادتها بعد أن يفشل في تحليل ما تبقى من الكلمة (قْتٌ) فيُعيد السابقة المقتطعة إليها، ثم يحللها مرة أخرى.
وتتصل بالفعل مجموعة من اللواحق، وهي إمّا أن تكون ضمير رفع نحو: (كَتَبْنا، كتَبْتُ …)، أو ضميري رفع ونصب نحو: (ضَرَبْتُها، ضَرَبْناها …) أو ضمير رفع وضميري نصب نحو: (زوَّجْناكَها). يقوم الحاسوب بفصل الضمائر المتصلة. وقد يكون الضمير المقتطع أحد حروف الفعل الأصلية نحو: (هَلَكَ) فالكاف هنا حرفاً أصلياً، وليست ضمير نصب متصلاً. ولكنَّه يقوم بإعادتها بعد أن يفشل في تحليل ما تبقى من الكلمة (هَلَ) فيُعيد اللاحقة المقتطعة إليها، ثم يحلل الكلمة مرة أخرى.
المرحلة الثانية: مقابلة ما تبقى من الفعل مع جداول الأفعال النموذجية:
يقوم الحاسوب بعد ذلك بمقابلة ما تبقى من الفعل مع جداول الأفعال النموذجية المخزنة في الذاكرة. فيبحث عن الأفعال المساوية له في عدد الحروف، ليحصل على جميع الأفعال المفترضة الموافقة لهذا الفعل. وتحتوي جداول الأفعال النموذجية على جميع المعلومات المتعلقة بجذر الفعل، الباب الذي يتصرف منه، ووزنه، ومساره الاشتقاقي.
يقوم الحاسوب بعد ذلك بفحص الأفعال، ليتمكن من استبعاد الأفعال التي لا تحقق الشروط المطلوبة. ومنها التحقق من مدى قبول الفعل للسوابق واللواحق؛ فالهمزة -مثلا- لا تدخل على فعل الأمر. كذلك التأكد من انتماء جذر الفعل إلى قاعدة بيانات الجذور في المعجم الحاسوبي. كما يتحقق الحاسوب من وجود الأفعال المزيدة في المعجم؛ حيث سيستبعد الحاسوب الفعل (تَهازَمَ)؛ لأنَّ صيغة (تَفاعَلَ) لا يتصرف منها الفعل (هزم).
تستمر بعد ذلك عمليات الفحص، وتحديد مكونات الفعل، حتى يعرض الحاسوب نتيجة التحليل الصرفي.
أهمية التحليل الصرفي:
تُعدُّ تقنيات التحليل الصرفي بمنزلة اللُّب للتقنيات والتطبيقات العربية الأخرى، حيث تستفيد منها بشكل أو بآخر، لكنَّها تصبح أساسيّة جدّاً بالنسبة إلى تقنيات البحث والفهرسة؛ بحيث يمكن اعتبارها تطبيقاً مباشراً لها.
طرق التحليل الصرفي:
هناك العديد من الدراسات التي تناولت التحليل الصرفي، وقد اتَّبعت هذه الدراسات طرقاً مختلفة لمعالجة الكلمات صرفياً، وهذه الدراسات مقسَّمة إلى أربعة أقسام[4]:
1- طريقة قوائم الكلمات المخزنة:
تخزَّن جميع الكلمات في قوائم مع مكوناتها الصرفية على شكل جدول كبير. ويتم تحليل الكلمة بالبحث عنها في هذه الجداول، ومن ثمَّ معرفة جذرها ببساطة. ويمكن تطبيق هذه الطريقة على نصوص معينة مثل القرآن الكريم، أو مجموعة كتب محددة.
2- الطريقة اللغوية:
تحويل قواعد اللغة العربية الصرفية المعروفة إلى خوارزميات حاسوبية. وذلك بمحاكاة عمل اللغوي عند تصريف الكلمات واشتقاقها.
3- الطريقة الرياضية:
تحليل الكلمة بشكل آلي بطريقة التجربة والخطأ والتصحيح، وذلك باعتبار الكلمة مجموعة من الحروف. حيث يتم أخذ ثلاثة أحرف منها ومقارنتها بقائمة من الجذور فإذا لم يوجد الجذر في القائمة أُخذت ثلاثة أحرف أخرى، إلى أن يتم إيجاد الجذر الأقرب إلى الصواب.
4- طريقة الأوزان:
توليد مجموعة كبيرة من القواعد النصية الآلية عن طريق المقارنة بين قائمة كبيرة من الكلمات مع ما يقابلها من مصادر. ويتم استخدام هذه القواعد لمعرفة مصدر الكلمة، فإذا انطبقت على الكلمة أكثر من قاعدة واحدة يتم ترجيح أكثر القواعد تكراراً”.
متطلبات عمل المحلل الصرفي[5]:
1- قائمة بجميع السوابق الممكنة: (أل التعريف، حروف المضارعة (أنيت)، وغيرها
2- قائمة بجميع اللواحق الممكنة: (واو الجماعة، نون النسوة، وألف الاثنين)، وغيرها
3- قائمة بجميع الأوزان الأساسية: (فَعَلَ، فَعول، مفاعيل)، وغيرها
4- قاعدة بيانات بجميع الجذور الثلاثية منها والرباعية.
5- قاعدة بيانات بجميع الكلمات الجامدة: (نِعْمَ، بئس، إنسان)، وغيرها.
[1] هلال، يحيى، التحليل الصرفي للعربية، وقائع مختارة من ندوة استخدام اللغة العربية في الحاسب الآلي-الكويت، عمّان، دار الرازي، ص266.
[2] يُنظر: البواب، مروان، والطيّان، محمد، أسلوب معالجة اللغة العربية في المعلوماتية (الكلمة – الجملة)، استخدام اللغة العربية في المعلوماتية.
[3] التشذيب هو عملية إزالة كلٍّ من بوادئ الكلمة ولواحقها لإنتاج الجذر او الجذع. وهي طريقة رياضية تجمع كل الكلمات التي تتقاسم الأصل نفسه، وتملك بعض العلاقات الدلالية، حيث تعمل طريقة التشذيب المبنية على الجذع على إزالة السوابق واللواحق المتصلة بالكلمة، في حين تحوِّل الطريقة المبنية على أساس الجذر الأصول إلى جذور.
[4] الزامل، عبدالله بن عبد الرحمن، العلاقة الصرفية بين الجذور والأوزان (تصنيف جديد لجذور اللغة العربية)، الرياض، ندوة الحاسب واللغة العربية، 2007م
[5] يُنظر: السفياني، عبدالإله عبد الغني، محاضرة بعنوان المعالجة الآلية للغة العربية (التحليل الصرفي)، جامعة الملك فهد للبترول والمعادن – قسم علوم الحاسب الآلي والمعلومات.