قواعد البيانات في المعالجة الآلية للغة العربية
د. عبدالعزيز بن عبدالله المهيوبي
يقصد بقاعدة البيانات مجموعة من الملفات ذات الصلة ببعضها، ففي قاعدة بيانات صرفية -على سبيل المثال- يمكن أن تكون هناك عدة ملفات مترابطة مع بعضها. مثل: ملف الجذور، وملف الأفعال الثلاثية المجردة والمزيدة، وملف الأفعال الرباعية المجردة والمزيدة، والأفعال الملحقة بالرباعي.
إنَّ أي معالجة آلية أو مَكْنَنَة لصرف اللغة العربية يجب أن ترتكز على قاعدة بيانات مبنية وفق منهج لساني مضبوط. إنَّ بناء مثل هذه القاعدة لابدَّ أن يتم في إطار رؤية شاملة للغرض من بنائها، والاستخدامات المستقبلية لها. وعليه فقد شرعنا في بناء قاعدة بيانات تضم أكثر من (6104) جذراً ثلاثيّاً، و(2163) جذراً رباعيّاً، (23.236) فعلاً ثلاثياً و(2.821) فعلاً رباعياً.
تتألف قاعدة بيانات الجذور العربية من قسمين، كل قسم يتكون من عدد من العناصر:
القسم الأول: يتضمن هذا القسم قائمة بالجذور العربية للأفعال الثلاثيّة، وقائمة ثانية بجذور الأفعال الرباعية، والتي تمَّ استخلاصها من خلال عملية التحليل الصرفي لمداخل معجم تاج العروس[1].
القسم الثاني: يتألف هذا القسم من قائمة برموز جداول قوانين اشتقاق الأفعال الثلاثية والرباعية، حيث يشير الرمز الذي أمام كل جذر إلى النظام الذي يضبط اشتقاق ذلك الجذر وتصريفه.
خصائص قاعدة البيانات:
تُعدُّ عملية بناء قاعدة البيانات مهمة جداً في عملية البرمجة، إذ عليها ترتكز الخوارزميّات والبرنامج، وبقدر ما تكون هذه القاعدة منسقة ومرتبة، بقدر ما تكون الخوارزميّات منظمة، والبرنامج فعَّالاً وصالحاً للتنفيذ، ويؤدي جميع المهام المطلوبة منه، كما يَسمح بإدخال المعطيات الجديدة وتعديلها، دون الحاجة إلى إجراء تعديلات جوهرية في جسم البرنامج الأساسي. وفيما يلي نورد أهم خصائص قاعدة البيانات الصرفية:
1- الشمول:
لقد اشتملت قاعدة البيانات الصرفية على جميع الأفعال الثلاثية والرباعية (المجردة والمزيدة) الواردة في تاج العروس، وعلى جذور تلك الأفعال، وتمثل تلك ا لأفعال أغلب أفعال اللغة العربية.
2- الوضوح والدقة:
لا بدَّ للمعلومات المقدمة أن تكون في غاية الدقة (بعيداً عن العموميات) فالحاسوب – كما هو معروف – يعتمد بصورة تامة على ما تزوده به من بيانات، وليست لديه القدرة على التخمين، أو الاستنتاج، أو اللجوء إلى الحس العام، أو الخبرة الشخصية، كما هو الحال مع البشر.
3- قابلية التوسع والتعديل:
إنَّ من حسنات العمل الحاسوبي إمكانية التعديل المستمر، لذلك لا بدَّ من اعتبار هذه القابلية للتوسع والتطوير شرطاً أساسياً في قاعدة البيانات.
[1] فضلاً عن استئناسي ببعض المعجمات العربية الحديثة لاستدراك ما فات صاحب التاج في معجمه، كتكملة المعاجم العربية لرينهارت دوزي، وتكملة معجم تاج العروس لوهيب دياب، والمعجم الكبير حتى حرف الذال.