بحوث في اللسانيات الحاسوبية

بناء المدققات النحوية العربية

محمد علي الحمدان

1- المقدّمـة:

أدّى الانتشار الرهيب و الواسع للحاسوب إلى توجه الناس إلى هذا الجهاز لحل مشاكلهم و عمل مشاريعهم. و بسبب توجه الناس بكافة أجناسهم إلى هذا الجهاز، كان لزامًا على العرب أن يساهموا في تطوير تقنيات اللغة العربية للحاسوب. توجد أسباب كثيرة تدفعنا للاهتمام بتطوير تقنيات اللغة العربية للحاسوب، منها أن اللغة العربية لغة القرآن الكريم، و يخشى على العرب أن ينسوا لغتهم فيما لو كانت عديمة الجدوى في الاستخدام الحاسوبي، كما أنها تساهم في تسهيل استخدام الحاسوب لمن لا يتقن اللغة الإنجليزية أو اللغات الأخرى.

في هذا البحث سنتحدث عن جانب مهم من جوانب اللغة و الحاسوب، هذا الجانب يعتبر جزءًا من معالجة اللغة الطبيعية آليا (Natural Language Processing)، أو NLP اختصارًا، ألا و هو جانب التدقيق النحوي.

سنتناول في هذه الأوراق مجموعة من المواضيع، بدءًا بتعريف مبسط عن ماهية NLP، ثم بتعريف لبعض المصطلحات التي تهم في التدقيق النحوي كالتدقيق الإملائي و التحليل الصرفي، و ذكر علاقة هذه المصطلحات ببعضها. أيضا سنعرج على الكيفية الصحيحة لترتيب عمليتي النحو و الصرف حتى ينجح الحاسوب في التدقيق، و لن ننسى أيضا المحاولات التي قام بها العرب لإنتاج المدققات النحوية، مع اختبار تجريبي لأحدها. و بعد الاختبار سنبين كيفية الاستفادة من هذه البرامج، ثم سيتم عرض أصعب المشاكل التي تواجه بناء المدقق النحوي. و أخيرًا: سنعرض تصورًا لكيفية تقعيد النحو العربي على شكل Finite State Machine ليستفاد منها في التحليل النحوي.

2- المعالجة الآلية للّغة الطبيعية (NLP):

يأتي استخدام عبارة (اللغة الطبيعية) للتفريق بين لغات البرمجة و اللغات التي يستخدمها الناس في حياتهم العادية. ففي تقنية NLP نحاول أن نجعل الحاسوب يفهم اللغة التي نتحدث بها و نكتب بها، و يتعامل معها تعاملا يخدمنا في حياتنا.

“تخيل لو كان الحاسوب قادرًا على:

  1. الرد على الهاتف، و الإجابة على أسئلة المتصلين!
  2. فهم النص المحتوى في مواقع الإنترنت و تحديد من قد يهمه هذا المحتوى!
  3. ترجمة النصوص و الجرائد من لغة إلى لغة أخرى مختلفة!
  4. بناء نظم خبيرة استنادًا على فهم النصوص الموجودة في الكتب و النشرات!” [1]

يمكن لتقنية NLP أن تأخذ مستويات مختلفة في المعالجة[2]:

  1. المعالجة على مستوى الحرف، و من أمثلتها: التعرف الضوئي (OCR).
  2. المعالجة على مستوى الكلمة، و من أمثلتها: التحليل الصرفي و التدقيق الإملائي.
  3. المعالجة على مستوى الجملة، و من أمثلتها: التشكيل الآلي و التدقيق النحوي.
  4. المعالجة على مستوى النص، و من أمثلتها: الفهرسة الآلية.

إن هذه المستويات المختلفة من المعالجة ليست مستقلة استقلالاً تامًّا، بل قد يعتمد أي مستوى على مستوى آخر. فمثلاً: التدقيق النحوي يعتمد على التحليل الصرفي و التدقيق الإملائي! كما أن التعرف الضوئي يتبعه غالبًا التدقيق الإملائي، بل و ربما النحوي!

كلّما زاد مستوى المعالجة، زادت صعوبة التنفيذ و التطبيق، و إن كان هذا ليس على الإطلاق، على اعتبار أن التدقيق الإملائي أسهل بكثير من التعرف الضوئي، لكن التعرف الضوئي لا يحتاج إلى خوارزميات و تراكيب بيانات بنفس درجة تعقيد البقيّة.

3- مصطلحات هامة:

عند الكلام عن المدققات النحوية، ينبغي علينا التعرف على بعض المصطلحات الهامة و التفريق فيما بينها، و من أهم هذه المصطلحات:- التدقيق الإملائي، و التحليل الصرفي، و التدقيق النحوي.

أولا- التدقيق الإملائي[3]:

هو عبارة عن أداة (غالبًا ما تأتي مع محررات النصوص) تقوم بمقارنة الكلمات المدخلة بمجموعة من الكلمات المخزنة مسبقًا في قاموس أو قاعدة بيانات، و في حالة عدم تطابق الكلمة المدخلة مع أي كلمة موجودة في القاموس فإن المدقق الإملائي سيخبرك أن الكلمة بحاجة إلى إعادة نظر، و ربما يقترح عليك بعض الكلمات البديلة و الموجودة في القاموس.

بإمكان المدقق الإملائي أن يقوم بتصحيح الأخطاء مباشرة و دون الرجوع للمستخدم في بعض الأحيان، و خصوصًا عند الوقوع في الأخطاء الشائعة. مثال على خطأ شائع في اللغة العربية: استبدال حرف الظاء بحرف الضاد، أو العكس. كما في: (الضرف، الظريبة، مضلوم، مظني، ظباب)، هذه الكلمات جميعها غير صحيحة إملائيا، و بإمكان المدقق أن يصححها باستبدال حرف واحد و دون الرجوع للمستخدم. لا يوجد مدقق عربي حتى الآن يقوم بتصحيح الأخطاء الإملائية دون الرجوع للمستخدم.

مثال على خطأ إملائي شائع في اللغة الإنجليزية: كتابة حرف “e” قبل “i” في بعض الكلمات، فمثلا لو كتبت كلمة (expereince) أو (sceince)، فبإمكان المدقق تصحيحها مباشرة إلى (experience) و (science) دون الرجوع للمستخدم. و هذا هو المعمول به في مدقق برنامج MS Word الإنجليزي.

ثانيًا- التحليل الصرفي:

قيل في الصرف بأنه أمّ العلوم و النحو و أبوها! أي أنه لا يمكن الاستغناء عن الصرف عند دراسة النحو.

“الهدف الأساسي من عملية التحليل الصرفي هو تحديد نوع الكلمة المعطاة و خصائصها الصرفية، و تفكيك الكلمة إلى مكوناتها الأولية (السوابق، اللواحق، الجذع، الجذر) مع إعطاء الخصائص الصرفية لكل مكون إذا لزم.”[4]

فيما يلي عرض لأهم خصائص التحليل الصرفي التي يجب توفرها[5]:

أولا: يجب أن يدعم المحلل الصرفي اللغة العربية الفصحى. و لا يجب أن يكون هذا المحلل موجه لفئة معينة من العرب، بل يجب أن يكون عاما للجميع.

ثانيا: التشكيل، تأتي أهمية التشكيل في إزالة اللبس لمعاني بعض الكلمات، و لمعرفة النطق السليم لبعضها، و لتعليم اللغة العربية للمبتدئين، و لتسهيل النطق الآلي للكلام المكتوب.

ثالثا: يجب أن يغطي المحلل الصرفي جميع كلمات اللغة العربية.

رابعا: يجب عزل المعلومات الصرفية عن الخوارزميات المستخدمة في معالجة هذه المعلومات. و لتحقيق هذا الشيء يجب أن يحتوي المحلل الصرفي على ما يلي:

  • هيكلة جميع القواعد الصرفية العربية.
  • الحصول على جميع الجذور و خصائصها المختلفة.
  • استخدام الخاصيتين السابقتين في التحليل و التوليد الصرفي.

خامسا: يجب أن يكون المحلل قابلاً للاستخدام لعدد كبير من الأشخاص، حتى لو تم بناء المدقق بواسطة جهاز حاسوب صغير. و هذا يتطلب بناء محلل صرفي فعال.

ثالثًا: التدقيق النحوي:

يقوم التدقيق النحوي بمطابقة الجمل المدخلة من قبل المستخدم بقواعد اللغة المعروفة، و يختبر مدى صحتها و قبولها اللغوي. و هو محور حديثنا في هذا البحث.

قد يتساءل شخص عن سبب الحاجة للتدقيق الإملائي و التحليل الصرفي في بناء المدققات النحوية. لعلك تتخيل الآن بأن النحو يعتمد على الصرف بشكل كبير جدا لمعرفة طبيعة الكلمات وأنواعها وحالاتها الإعرابية و الصرفية الممكنة. إن التحليل الصرفي للكلمات يستحيل أن ينجح نجاحا جيدا فيما لو كانت الكلمة المدخلة غير صحيحة إملائيا! و منها كان لزاما أن يعتمد نجاح التدقيق النحوي على مدى تواجد هذه المكونات مع بعضها البعض.

4- النحو ثم الصرف، أم العكس؟!

لعلّك تلاحظ شيئا هاما هنا، و هو أن التحليل الصرفي يجب أن يسبق التدقيق النحوي عند بناء مدقق نحوي حاسوبي! بينما لو أتينا لواقع النحويين، لوجدنا أن دراسة النحو تسبق الصرف في أغلب الأحيان. سنتعرف على الأسباب بعد قليل.

أولا: عرض النحو قبل الصرف:

“وقد نهجه كثيرٌ من النحاة، ومنهم: ابن السراج في »الأصول«، والصيمري في »التبصرة«، والعكبري في »اللباب«، والجزولي في »الجزولية«، وأبو علي الشلوبين في »التوطئـة«، وابن مـالك في »الألفيـة«، و»تسهيل الفوائـد«، و»الكافية الشافية«، والسيوطي في »همع الهوامع«.”[6]

ثانيًا: عرض الصرف قبل النحو:

“ولم يكن هذا النهج شائعًا بين النحاة والصرفيين؛ ولعلهم جعلوا الصرف متأخرًا في دراسته لصعوبته؛ أو لأن طلبه يحتاج إلى عقلية أقوى مما يحتاجه النحو، أما من ناحية التسلسل المنطقي فإن الصرف يرتبط بالمفردات، وهو أمرٌ سابقٌ للتركيب؛ لأن الصحة في تركيب الجملة ينبغي أن يسبقها صحة المفردات، وهو اهتمام الصرف، ولعلّ هذه النظرة هي التي قادت أبا حيّان إلى أن يقدم الصرف على النحو في كتابه »ارتشاف الضرب«، بل إنه يصرّح بذلك فيقول: »وحصرته [أي موضوع الكتاب] في جملتين: الأولى: في أحكام الكلم قبل التركيب، والثانية: في أحكامها حالة التركيب«”[6]

من الطبيعي أن يهتم الحاسوب بـ “التسلسل المنطقي” أكثر من “أيهما أعقد و أصعب!”. و ربما كان من أسباب تقديم دراسة النحو على الصرف عند النحويين أيضا هو أن النحو قد يأتي مع السليقة فيصبح سهلاً حتى في المراحل التعليمية الدونية، بعكس الصرف الذي لا يأتي دائما مع السليقة. و لكن الحاسوب لا يعترف بالسليقة إطلاقا، و هنا ممكن الصعوبة في تقنيات NLP عمومًا، و هو أن الحاسب لا يفقه إلا ما تخبره به.

5- محاولات العرب في بناء مدقق نحوي عربي:

عندما تابع العرب ظهور المدققات النحوية الإنجليزية، و لاحظوا تقدمها و تطورها الرهيب، لم يقفوا جميعًا مكتوفي الأيدي تجاه عمل مدقق نحوي يناسب لغتهم العربية. إن عمل مدقق نحوي عربي يتطلب خبراء في النحو العربي و مبرمجين باستطاعتهم رسم خبرات هؤلاء النحويين بتسلسل منطقي يمكن للحاسوب أن يفهمه و يتتبعه، و لهذا السبب؛ من الطبيعي و البديهي أن يكون أي مدقق نحوي عربي موجود قد تم تصميمه بواسطة العرب أنفسهم. لكن هذا الشيء لا يلغي أبدا وجود استشارات أو تسويق من الغربيين لهذه المدققات العربية.

من أهم الشركات التي ساهمت في عمل التدقيق النحوي: شركة آي بي إم (www.ibm.com)، و إنفوآراب (http://www.isisintl.com/Linguistics/)، وصخر (www.sakhr.com)، وكولتك (www.coltec.net).

يعتبر مدقق كولتك الأكثر استخدامًا و شيوعًا، و قد أطلقت عليه الشركة اسم (AGRAC) اختصارا لـ (Arabic GRammAr Checker)[7] و هو المستخدم في برنامج MS Word من الإصدارة السادسة و حتى الإصدارة الحالية XP. و بحسب كولتك، فإن جزءًا من البرنامج موجود في MS Office، و ليس بأكمله.

“A part of this product is included in Microsoft Office XP”[7]

و فيما يلي أحد المقالات التي توضح كيف بدأت كولتك بناء تقنياتها: ” طورت شركة كولتك تقنيات للتعرف على الكلمات Word identification، وكان أكبر نجاحات شركة كولتك، هو بناء نموذج لغوي يعتمد على إحصائيات مستخلصة من تحليل المكنوز، وهو ما يتطلب التغلب على مشكلة الوصول إلى أسلوب التحليل المناسب لمكنوز ضخم جداً، وعلى الرغم من أنها مشكلة عامة في علم اللغويات الحاسوبية، إلا أنها تصبح أكبر وأكثر تعقيداً عند تطبيقها على اللغة العربية. بنيت معظم أبحاث الشركة على إعادة صياغة قواعد النحو والصرف بطريقة تناسب المعالجة الحاسوبية، بالإضافة إلى استخدام أساليب علم الاحتمالات وتقنيات الذكاء الاصطناعي، كما طبق مطورو الشركة، نموذج Hidden Markov Models HMM، على مكنوز الشركة الضخم، لاستخلاص خصائص اللغة العربية اللازمة للتطبيقات المختلفة، بالإضافة إلى استخدام تقنيات الذاكرة المرافقة Associative Memory، والشبكات العصبية Neural Networks، في المرحلة المتوسطة من نظام المعالجة، بينما استخدمت تقنيات الذكاء الاصطناعي لتمثيل المعرفة المستخلصة من التحليل الكمي، وتحسين الأداء. كانت أهم المشكلات التي واجهت شركة كولتك خلال تطوير نظامها لمعالجة اللغة العربية، المستوى العالي من الالتباس الذي يوجد في مستويات متعددة من بنية اللغة العربية، بالإضافة إلى اكتشاف طريقة للجمع بين قواعد اللغة العربية الصرفية والنحوية، مع نظرية مناسبة لمعالجة اللغة الطبيعية، وكان الوصول إلى ذلك الهدف، الإسهام الرئيسي لشركة كولتك في مجال معالجة اللغات الطبيعية. تتابع شركة كولتك حالياً تطوير تقنياتها، ولديها خطط لتوفير معظم تقنياتها في مجال إنترنت، وتقول أنها ستطرح مدققاً ومصححاً نحوياً متطوراً في الربع الأول من عام 2000، بالإضافة إلى أول معجم متكامل للمترادفات العربية، في النصف الثاني من عام 2000″[8].

بالطبع اعتمدت شركة كولتك على تحليل المكنوز، و على أساسه كانت تبني المدقق النحوي، و أيضا استفادت كولتك من تحديد الأخطاء النحوية الشائعة التي يقع فيها المستخدمون[7]. و الآن فإن كولتك تطورت كثيرا فأصبحت أول من يبني مدققا نحويا عربيا يعتمد كليا على تقنية NLP [7].

و يأتي أيضًا مدقق شركة صخر النحوي كأحد أشهر المدققات العربية، و تستخدمه شركة صخر في العديد من تطبيقاتها مثل: “(ArabDox، NasherNet، Idrisi، Johaina، OCR، E-Portal، Books Publisher، SET، Ibsar، TTS، ASR)”[9]

“و هي الشركة العربية الوحيدة التي لديها حالياً أكبر طيف من التقنيات والمنتجات، الموجهة لمعالجة اللغة العربية. بدأت شركة صخر أبحاثها منذ خمسة عشر عاماً، ولديها حالياً، مدققاً إملائياً ونحوياً ومشكلاً آلياً، تسميه (المصحح الآلي الثنائي اللغة) يمكن أن يدمج في برنامج مايكروسوفت وورد، أو يستخدم مع بعض البرامج الأخرى، انظر المراجعة ؟؟؟ من هذا العدد، وترتكز شركة صخر في تطبيقاتها على مجموعة من التقنيات الأساسية التي طورتها في مجال المعالجة الآلية للغة العربية، بالإضافة إلى ما تسميه “قاعدة بيانات المعلومات اللغوية”. وتشمل تقنياتها الأساسية في المعالجة الآلية للغة العربية، معالجاً صرفياً متعدد الأوجه Multi-mode Morphological Processor، ومحللاً نحوياً متعدد الأوجه Multi-mode Syntactic Processor، ومشكلاً آلياً Automatic Diacritizer، بينما تتضمن قاعدة بيانات المعلومات اللغوية : “قاعدة بيانات المعاجم العربية”، و”قاعدة بيانات النحو العربي” و”ذخيرة اللغويات العربية”. يكتشف المصحح الآلي الثنائي اللغة الأخطاء الهجائية التي تقع عند الكتابة بالعربية، ويقترح مجوعة من البدائل الصحيحة، ثم يبدأ بمحاولة اكتشاف الأخطاء النحوية، وتقول شركة صخر أنه يستطيع حالياً اكتشاف حوالي 80% من الأخطاء النحوية العربية. وهو يعتمد على معظم التقنيات وقواعد البيانات التي طورتها شركة صخر. وبينما يعمل المعالج الصرفي على تحليل الكلمة إلى عناصرها الأولية، فيفصل بين جذور الكلمات وسوابقها ولواحقها وسائر صورها الصرفية، فإن المحلل النحوي يعيد الجمل إلى عناصرها الأولى من اسم وفعل ومفعول وصفة وظرف وحرف جر، وتكمن قوته في قدرته على حل مختلف أنواع الغموض داخل النصوص العربية التي يعوزها الضبط والتشكيل. وتتألف قاعدة بيانات النحو العربي من مجموعة قواعد لنحو اللغة العربية طورتها شركة صخر حاسوبياً، بحيث تكوّن نموذجاً لغوياً مناسباً، وهي تتضمن أكثر من 12600 قاعدة نحوية، مع تحديد أوجه تطبيقها. وتضم قاعدة المعاجم العربية كافة البيانات النحوية والصرفية والدلالية والموضوعية المتعلقة بمفردات اللغة العربية الحديثة، بالإضافة إلى بيانات حول التركيب الصرفي للغة العربية القديمة، وهي تحتوي على أكثر من 40000 مصطلح تعبيري مختلف. يضم مكونز صخر العربي، نصوصاً تحوي على أكثر من 160 مليون كلمة، تشمل مجموعة متنوعة من الموضوعات والسياقات، مع تحليل وتشفير كل نص صرفياً، يمد هذا المكنوز المطورين بالكلمات، مدمجة في سياقات واقعية، مما يعينهم على فهم معاني الكلمات بصورة أدق، وتمكنهم من التعرف على طبقات الكلمات الملحقة بكل فعل، من حيث كونها فاعلاً أو مفعولاً أو ظرفاً فضلاً عن إضافة المحددات الدلالية Semantic Constraints الخاصة بها. يتضمن مصحح صخر أيضاً، إمكانية التشكيل الكامل أو الجزئي للنصوص العربية، وهو يوفر بذلك تطبيقاً مباشراً لمشروع بحث المشكل الآلي الذي بدأته صخر منذ أكثر من عشر سنوات. تعتمد تقنية التشكيل الآلي على عدة مستويات لتحليل ومعالجة اللغة، تبدأ من المستوى الصرفي للكلمات، وتمر بالإعراب، وتنتهي بالتحليل الدلالي للجمل حيث يعتمد على أنظمة متقدمة في الذكاء الاصطناعي، ويستخدم معاجم لغوية ضخمة، وتقول صخر أن دقة هذا المُشكل الآلي تصل إلى حوالي 98%. “[8]

6- عينة اختبار لمدقق كولتك:

أولا: الاختبارات التي فشل فيها المدقق: (سأضع خطا تحت الكلمات التي يعتقد كولتك أنها سبب المشكلة، في حالة وجود مشكلة. الاختبار تم على برنامج Word XP)

الجملةحالة الجملةرأي مدقق كولتكتعليق
إن هدف المعلمين و المعلمات واحدٌ.صحيحةخطأ في اختيار علامة الإعراب، تستبدل كلمة “المعلمين” بالكلمة “المعلمي” لتصحيح الخطأ.“المعلمين” لم تأت مضافة، لذلك لا ينبغي حذف النون.
كان الله في عون المسلمين.صحيحةلا بدّ أن يتفق النعت و المنعوت في العدد و النوع. تستبدل كلمة “المسلمين” بالكلمة “المسلم” لتصحيح الخطأ.كلمة “المسلمين” هنا أتت مضافًا إليه، و ليست نعتًا لـ “عون”.
لا تنسوا ذكر الله.صحيحةالفعل مرفوع لأنه لم يسبق بناصب أو جازم.المعروف أن لا الناهية تجزم الفعل المضارع! و علامة الجزم هنا هي حذف النون.
لا تنهى عن خلق و تأتي مثله.خاطئةاعتبرها صحيحة.“تنهى” فعل مضارع مجزوم بـ”لا الناهية” و علامة جمزه حذف حرف العلة. فتصبح “تنه”.(مقارب للخطأ العلوي)
أيها المسلمين، توبوا إلى الله.خاطئةاعتبرها صحيحة.“المسلمين” منادى يجب أن يرفع لتصبح “المسلمون”.
العلم ما علَّمته، لا ما تعلمته.صحيحةينبغي تذكير الفعل و تجريده من ضمائر الرفع المتصلة.لم يفرّق هنا بين تاء المخاطبة و تاء التأنيث. فالتاء المستخدمة هي للمخاطب.
كلٌّ ميسرٌ لما خلق له.صحيحةالنعت يتبع المنعوت إعرابيا، تستبدل كلمة “ميسر” بالكلمة “ميسرا” لتصحيح الخطأ.بالرغم من أن النعت هنا تابع للمنعوت، فالمدقق يرى غير ذلك!
سأذهب غدا إلى موظفين الجامعة.خاطئةاعتبرها صحيحة.يجب حذف النون في “موظفين”، لأنها مضافة.
إنا نحن نزلنا الذكر.صحيحةيجب أن يتفق الضمير مع العائد عليه في العدد و النوع.“إنا” يقصد بها الجمع، و هي ليست مثل “أنا”, بالتالي من الطبيعي أن يأتي بعدها ضمير الجمع “نحن”.
أحب الصالحون و لست منهم.خاطئةاعتبرها صحيحة.“الصالحون” مفعول به منصوب و علامة نصبها الياء، فتصبح “المسلمين”. الفاعل ضمير مستتر تقديره أنا.

كما تلاحظون من الجدول السابق، فإنه و بالرغم من جودة و شعبية مدقق كولتك، إلا أنه يقع في أخطاء كثيرة.

ثانيا: الاختبارات التي نجح فيها المدقق.

الجملةحالة الجملةرأي كولتكتعليق
لستم مثاليون.خاطئةخبر كان و أخواتها واجب النصب. تستبدل الكلمة “مثاليون” بالكلمة “مثاليين”.أصاب المدقق في معرفة أن تاء المخاطبة في “كنتم” ليست خبرا لكان، بل ما بعدها خبرها
إن الناس مجتمعين في الحديقة.خاطئةالمسند مرفوع. تستبدل الكلمة “مجتمعين” بالكلمة “مجتمعون” لتصحيح الخطأ.أصاب في رفع خبر إن في هذا المثال.
و في المدرسة كان مجتهدًا.صحيحةاعتبرها صحيحة.لا يتقيد المدقق بجعل اسم كان يأتي بعد كان. بل قد يسبقها.
درست الرياضيات في السنة التاسع.خاطئةلا بد أن يتفق النعت و المنعوت في العدد و النوع. تستبدل كلمة “التاسع” بالكلمة “التاسعة”.أصاب في تحديد الخطأ، و هو أن كلمة “السنة” يجب أن تتفق مع “التاسع” في النوع، لكن “التاسع” هنا أتت مضافةً إليه على أية حال.
تعلمت من المدرسة شيئان.خاطئةالمفاعيل منصوبة. تستبدل الكلمة “شيئان” بالكلمة “شيئين”.نجح هنا نجاحًا تاما. لكن يبدو أن كولتك لا يفرق كثيرا بين المفعول به و المفعول لأجله و المطلق. بل يطلق عليها المفاعيل.
قاتلت الأشرار قتالٌ عنيفا.خاطئةالمفاعيل منصوبة. تستبدل الكلمة “قتالٌ” بالكلمة “قتالا”.هنا أتت “قتال” كمفعول مطلق منصوب. اكتفى كولتك بذكر المفاعيل.

7- حتى تستفيد من المدققات النحوية.

لا يخفى على الجميع بأن المدققات النحوية لم تصل حتى الآن إلى درجة تجعلك تعتمد عليها اعتمادًا كليًّا و تثق بها ثقة كاملة، فليس كل ما يكتشف البرنامج من أخطاء خطأً، و ليس كل ما لا يكتشفه صوابًا! و من المؤكد أنك تمتلك هذه الرؤية الآن و خصوصا بعد مشاهدتك لنتائج الاختبار التي عملتها على أحد أشهر المدققات العربية، و هو مدقق كولتك.

كي تتحقق الفائدة التامة من المدقق النحوي عليك عمل الآتي:

  1. أعد قراءة الجمل التي يعتقد المدقق بأنها خاطئة، و اسأل نفسك: هل بالفعل هذه الجملة وضعت في غير محلها؟ ما مدى استساغة الجملة؟
  2. حاول أن تحدد بنفسك نوع الخطأ النحوي، إن وجد.
  3. هل تمكن المدقق من تحديد نوع الخطأ؟ و إذا تمكن من تحديده، فانظر إلى الحل المقترح من المدقق النحوي، هل هو حل صحيح أو مقنع للمشكلة؟ و هل يطابق تصورك الذي تصورته في الخطوة (2).؟
  4. على أساس الخطوات الثلاثة السابقة، قم باتخاذ القرار المناسب إما بتجاهل الجملة، أو بتغييرها.
  5. عند الانتهاء من كتابة المستند، عاود قراءته مرة أخرى، فربما ستجد أخطاءً نحوية لم يتعرف عليها المدقق. فليس كل ما يتجاهله المدقق صوابًا!!

8- تحديات و عقبات إنشاء مدقق نحوي عربي [9]

قد يتملك الخص الآن بعض الفضول لمعرفة الصعوبات التي تعيق عمل المدققات النحوية العربية. هذه المشاكل تتلخص فيما يلي:

أولا: “غياب صياغة رسمية للنحو العربي”:

و هذه تمثل في نظري أكبر التحديات، لعدم وجود تقعيد واضح للغة العربية يمكن استخدامه في المعالجة العربية.

ثانيا: “إسقاط علامات التشكيل في معظم النصوص العربية”.

ثالثا: “تعدد حالات اللبس النحوي و تداخلها الشديد”.

رابعا: “المصاعب الناجمة عن مرونة النحو العربي”:

يقصد هنا بالمرونة، إمكانية التقديم و التأخير بشكل يصعب إرجاع بعض الكلمات إلى أصلها.

خامسا: “حدة ظاهرة الحذف النحوي”:

سادسا: “قصور المعجم العربي نحويا و دلاليا”:

“إن المعجم يجب أن يتضمن جميع المعطيات اللغوية: الصوتية، و الصرفية، و النحوية، و الدلالية، و المقامية المرتبطة بمفرداتها، و التي لا يمكن استنتاجها بالرجوع إلى القواعد العامة”.

سابعًا: “تعدد العلامات الإعرابية و حالات الجواز و التفضيل”.

ثامنا: “عدم توفر الإحصاءات النحوية”.

استخدام Finite State Machines في تقعيد النحو.

ذكرنا فيما سبق بأنه يلزمنا إعادة تقعيد للغة العربية بشكل يمكن معالجته بواسطة الحاسب الآلي. قد يتبادر إلى ذهن الشخص، ما هي أنسب أنواع تراكيب البيانات التي يمكن استخدامها في وصف القواعد النحوية.

تأتي فكرة استخدام Finite State Machine كوسيط للتقعيد (مقتبسة من Kenneth Beesley [10]) مميزة لسهولة تنفيذها رياضيًّا.

مثال: لنرسم FSM مبسطة لجزء من قاعدة “كان و أخواتها”. النحويون يذكرون بأن “كان” فعل ماضي ناقص، ترفع اسمها و تنصب خبرها. و لكن نحنا بحاجة إلى معلومات أكثر دقة لمعرفة جميع الحالات الممكنة لاسم كان، و جميع الحالات الممكنة لخبر كان، و جميع الحالات الممكن لكان و أخواتها نفسها! كل هذه المعلومات الإحصائية ضرورية جدا للمدقق النحوي. لهذا السبب ذكرت بأن التطبيق سيكون لجزء من قاعدة كان و أخواتها.

لو أخذنا القاعدة المرسومة في الشكل السابق، فإن جميع الجمل التالية صحيحة:

كان محمدُ مسرعًا.

كان مسرعًا.

كان محمدُ و عليٌّ مسرعين.

ما زال محمد مثابرًا و مجتهدًا.

كان محمدٌ.    (هذه العبارة قد تبدو ناقصة، لكنها صحيحة مقارنة بتقعيدنا!)

و فيما يلي مجموعة أمثلة صحيحة عربيًّا و لكنها لا تطابق القاعدة:

الجملة.التعليق.
محمدٌ كان مسرعًا.لم تبين القاعدة بأن أخوات كان قد يسبقها أي جملة أو شبه جملة أو حتى كلمة.
كان الطلاب المجتهدون حاضرين.لم يتم التوضيح بأن (اسم كان) قد يتبعه صفة، أو أي متبوع.
كان محمدُ مسرعا عندما أراد القدوم إلى المدرسة.لم تبيّن القاعدة بأنه قد تأتي جملة بعد كان مباشرة، و ليس لها علاقة بقاعدة كان.
مسرعًا كان محمد.هنا يتضح لماذا سمحنا في الشكل السابق بإمكانية الوصول لنهاية الجملة مباشرة بعد اسم كان. و لكن هذه الجملة لن تقبل لوجود كلام قبل “كان”.

هذا تصور بسيط للمدقق النحوي الذي يعتمد على (Finite State Machines). تبقى بعض التفاصيل مثل: مقارنة الصفة بالموصوف، المسند بالمسند إليه، و المضاف بالمضاف إليه، و العدد بالمعدود…إلخ. فبالإمكان رسم قاعدة خاصة بكل الحالات المذكورة سابقـًا، و إسناد أي اسم إليها، و استخدامها في القواعد النحوية الأخرى كمتغيّر.

10- الخـــاتـــمة:

لا زلنا نأمل بأن تلتقي الخبرات و تتبادل بين المبرمجين و بين علماء النحو، حتى يتم عمل أهم شيء في هذا الجانب، ألا و هو إعادة تقعيد اللغة العربية، و عمل إحصاءات للحالات الممكنة في كل قاعدة.

في هذا البحث تم تبيين كيف يمكن استغلال finite state machines في إعادة تقعيد اللغة العربية بشكل رياضي بسيط. و قد كانت هذه الفكرة هي المستخدمة لدى Xerox في التحليل الصرفي. بل و تستخدم في المترجمات (Compilers) في بعض الأحيان من أجل التعرف على الكلمات و تصنيفها فيما لو كانت كلمات محفوظة أم متغيّرات.

الــــمـــــراجــــــــــع

[1] South Bank University (London)

(http://www.scism.sbu.ac.uk/inmandw/tutorials/nlp/index.html)

[2] ARAMEDIA:

 (http://www.aramedia.com/nlp.htm)

[3] Del Mar college:

http://www.delmar.edu/engl/instruct/stomlin/1301int/glossary/spelchek.htm

[4] أساليب التحليل و التوليد الصرفي: د/ محمد الأفندي. [5] An Arabic Morphological System

By: El-Sadany & Hashish

[6] الترتيب الصرفي في المؤلفات النحوية والصرفية إلى أواخر القرن العاشر الهجري: د/ مهدي علي القرني http://www.uqu.edu.sa/majalat/shariaramag/mag21/MG-009.htm [7] موقع شركة كولتك http://www.coltec.net [8] تقنيات اللغة العربية، إلى أين؟

http://www.ccse.kfupm.edu.sa/~husni/ICS484/WebPAges/Munawes/Aracbic.htm

[9] التحديات التي تواجه معالجة النحو العربي آليا: سعيد الغامدي. [10] Finite-State Technology for Natural Language Processing

Kenneth Beesley من Xerox

[11]موقع شركة صخرhttp://www.sakhr.com/

0 Reviews

Write a Review

مقالات ذات صلة

زر الذهاب إلى الأعلى