بحوث في اللسانيات الحاسوبية

واقع المدونات العربية في نظم المعلومات: ومنهجية التطوير

أحمد صلاح محمد هاشم

ملخص:

         يتناولُ البحثُ واقعَ المدوناتِ اللغوية العربيَّة (وجديرٌ بالذِّكْرِ أننا نقصد بالمدوّنات هنا المدوناتِ اللغويةَ، التي تجمع كلمات عربيّة بهدف توظيفِها، وليسَ المقْصُودُBlogs  أَي مدونات التواصل الاجتماعيّ التي تهتمّ بأخبار المشاهير والعامَّةِ)، وهي فَرْعٌ مِن عِلْمٍ بَيْنِيّ، وَهُوَ اللِّسَانِيَات الحاسوبِيَّة، أو عِلْم اللغَةِ الحاسُوبِي Computeral linguistic، ويَتَنَاوَلُ البحثُ دَوْرَ هذهِ المدوَّنَاتِ اللُّغَوِيَّة في النّظم المعلوماتيَّةِ الحديثَة Information systems ومدى تأثيرِها فيهَا، ويتناول البحثُ (فِي سَبِيلِ ذلك) تعريف المدوَّنات اللُّغَوِيّة، والنظمِ المعلوماتِيَّةِ الحديثَةِ (نظمَ المعلوماتِ)، ثُمّ يَنْتَقِلُ إِلَى أَهَمِّيَّةِ الْمُدَوَّنَاتِ اللغوِيَّة الحديثة، وكيفية الاستفادة منها بشكلٍ أَمْثَل، مع التعريف بجميع المدونات اللغوية المتاحة، ووصلاتها المختلفة، وَمِنْ ثمّ كيفيّة تطويرِ المدوناتِ وتحويلِها إلى قَوَاعِد بياناتٍ Database تُسهِمُ في نشر اللغةِ العربيَّةِ، وَدمْجِهَا في أنظِمَة المعلوماتِ، ومن ثَمّ في الحياةِ اليوميَّةِ للمواطنِ.. ويستَعِينُ البحثُ في سبيلِ ذَلِكَ بكتابات كَثيرٍ مِنَ الباحثينَ اللغويينَ والمبرمجينَ ومعدِّي قواعدِ البياناتِ وجامعي المدونات، كما يُعَرِّجُ على مستَقْبَلِ المدوَّنَات اللغوِيَّةِ العربية، مَعَ وَضْعِ منهجِيَّة واضحةٍ للانتقالِ من مرحلَةِ جمعِ المدوَّنات إلى عمل «مَكْنَز» شَامِلٍ لِلُّغَةِ العربية Corpus، يَكُون عملا تَجمِيعِيًّا مُعَبِّرًا عَنْ فضاءِ اللُّغَة العَرَبيَّة كُلِّها، بِحَيْثُ يَكُونُ مكنز أكثر تمثيلا للمدَوَّنَات اللغوية (مجموعة مكانز على مستوى اللغة العربية كلها)Corpora ، وَمِن ثمّ العمل عَلَيهِ منَ الناحِيَةِ الفنِّيَّةِ ليكون هو الأساس لمنهجية علمية تعتمد على مدونات لغوية متاحة (مفتوحة المصدر)، والنواة التي تلزم لإتمام أي عمل لغوي برمجي يختص باللغة العربية.

الكلمات المفتاحية: المدونة، نظم المعلومات، مكنز، قواعد البيانات، الكلمات المستبعدة.

مقدمة

لاحَظَ عُلَمَاءُ اللُّغَةِ حديثا أن اللغة كائن حي، تنمو وتنشط باهتمام أبنائها، وتضعف بإهمال أهلها وتجاهلهم.. إن لغة لا تطور هي لغة مرشحة لأن تموت، وإن لغة لا تساير الواقع، لهي خليقة بالمتحف وقاعات الدراسة المصمتة.

وَإِذَا كَانَ من حق الأجنبيِّ الحرصُ على لغته، وتطويعُها لتستوعِبَ مستجداتِ العلمِ ودقائِقَه، فإنَّ العربيَّ يجبُ أن يكون على ذلك أحرصَ، وبه أجدر، إيمانًا منه بأنَّ رَفْعَه من شأنِ لغتِه، ودَفْعها لتسايرَ النهضة العالمية ليس سبيلًا إلى رُقِيِّهَا فَحَسْبُ، بل إنه امتثالٌ لتوجيهات دينه ومتطلباتِ إيمانه بأن «لغة القرآن والسنة» لهي لغة خليقة بأن يُهتَمَّ بها، وأن تكون نبراسا هاديا، كما اتخذها الرحمن (عز وجل) وِعَاءً لِكِتَابِهِ الكريمِ.

إن من يحرص على لغته حقّا ويتعجَّل أن تحصلَ على مكانتها المستحقة تحت شَمْسِ التاريخ، لا بد أن يتوسَّلَ الخطواتِ المنهجيةَ والقواعدَ المعياريةَ، لينأى به عن الهَجْرِ والتَّرْكِ..!

من أجل هذا كله، وإسهاما منا (نحسبها متواضعة) في أن تحظى لغة العرب بِشَيْءٍ من مكانتها المستحقة، نتقدم بهذا العمل، سائلين الله أن ينفع به، ولعله يكون نواة لمنظومة أبحاث علمية تالية، فَتَحُولُ البذرة شجرةً وارِفَةَ الظِّلَال.

والله من وراء القصد وهو يهدي السبيل

إهداء

إلى أُمّي.. أول من علمني كيف تتعانق الحاء والباء.. وكيف تكون الضاد.

إلى زوجتي.. صاحبتي.. ورفيقة دربي.. أم ولدَيَّ إياد وصلاح الدين..

أهدي إليكم نتاج عملي سائلا الله أن ينفعنا به

هيكلة البحث

ينقسم البحث إلى ثلاثة محاور، وهي:

المحور الأول: تمهيد

ويشمل المباحث التالية:

المبحث الأول: المستوى اللغوي الذي يعالجه البحث

المبحث الثاني: منهج البحث

المبحث الثالث: الدراسات السابقة

المبحث الرابع: مشكلة البحث

المبحث الخامس: تعريفات بحثية

المبحث السادس: أهمية المدونات اللغوية

المبحث السابع: أسئلة بحثية


المحور الثاني: من المدونة إلى المكنز

ويشمل المباحث التالية:

المبحث الأول: واقع المدونات اللغوية العربية وأنواعها وكيفية جمعها

المبحث الثاني:  تحليل المدوّنات المتاحة وتجريدها

المبحث الثالث:  المكنز المقترح واستخداماته المختلفة

الخاتمة

وتشمل ملخصا لما دار حوله البحث

التوصيات

وتتضمن توصيات لنشر الموضوع واعتماده

المراجع

وتشمل جميع المراجع العربية والإنجليزية والأبحاث المنشورة على الإنترنت التي رجعتُ إليها.

المحور الأول: تمهيد

المبحث الأول: المستوى اللغوي الذي يعالجه البحث

عندما يَرِدُ ذِكْرٌ في ثنايا البحث للُّغَة العربية، فإن الباحث يقصد المستوى الفصيحَ للُّغَةِ العربية، بمعنى أن البحث لا يتناول اللهجاتِ المحليَّةَ، أو العاميَّاتِ، أو ما يُسَمَّى باللُّغَةِ الوسيطة (بَيْنَ العامِّيَّةِ والفُصحَى).. ويتناول البحثُ اللغةَ العربيَّةَ التراثيَّةَ جنبًا إلى جنبٍ مع اللغة العربية الحديثةِ، ولا يَتَوَخَّي البحث مدوناتٍ خاصة أو موادَّ بَعَيْنِها، وغايةُ ما يسعى إلى جمعه هو النصوص العشوائية التي تُعَبِّر عن اللغة العربية الفصيحة.. هَذَا ولا يَهْتَمُّ البحث بالموضع الجغرافي لنصوص المدونة، ولا يحددها بقطر بعينه، فالعالم العربي كله يصلح مادة للمدونة.

المبحث الثاني: منهج البحث

           يخضع البحث للمنهج الوصفي، الذي يصف الظاهرة دون التدخل بِحُكْمٍ عليها، أو مقارنتها تاريخيا بغيرها، حَيْثُ يهتمُّ بِشَكل اللفظة (الْكَلِمَةِ أَوِ المفْرَدَة) دُونَ النَّظَرِ لِعَلاقَتِهَا مَعَ غَيْرِهَا، وَكَذَلِكَ دُونَ النَّظَرِ إِلَى تَارِيخِ الكَلِمَةِ أَوْ أَصْلِهَا. وباختصار هو «تناوُلُ الظاهرةِ اللغويَّةِ على أساسٍ شكليٍّ وليس على أساسٍ معنوِيٍّ، والشكلُ هُوَ الظاهرُ، والمنهجُ الوصفيُّ يُعنَى بالظاهرِ أكثرَ من عنايَتِه بما هُوَ خَلْفَ ذَلِكَ»([1]). أي بدراسة المشكلة ووصْفِهَا وتَحْلِيلِها، دُونَ التَّعَرُّضِ إلى أُصولِها التاريخيةِ، أو التجريبِ.. «ويعتبر بعضُ الباحثينَ أن المنهجَ الوصفيَّ يشملُ كَافَّةَ المناهجِ الأُخْرَى، بِاسْتِثْنَاءِ المنهجَيْنِ التَّارِيخِيِّ والتَّجْرِيبِيِّ، لأن عملية الوصف والتحليل للظواهر تكاد تكون مسألةً مُشْتَرَكَةً وموجودَةً في كَافَّةِ أَنْواعِ البُحُوثِ العِلْمِيّة»([2]).

المبحث الثالث: الدراسات السابقة

هناك عدّة دراسات تناولت نظرات مختلفة للمدونات اللغوية وأثرها في دعم الدرس اللغوي، وفيما يلي بعض هذه الدراسات:

  1. »Connectives in the World Wide Web Arabic Corpus»)[3](

تقوم هذه الدراسة على جَمْعِ حروفِ الجرِّ الموجودةِ في المكانز العربية العالمية، مع توضيح تِكْرَارِهَا، وَنِسْبَة ذَلِكَ التِّكْرَار من إجمالي المُدَوَّنَة المعْتَمَد عليها. وهذا البحثُ صَالِحٌ لدراسةٍ حَوْلَ «المعْجَم التكرارِي لِحُرُوفِ الجَرِّ» على سبيل المثال، أو تحديد نسبة شيوع بعض حروف الجر من أجل ضَمِّهَا في مَجْمُوعَةِ الكَلِمَات «المستبعدة»([4]).

  • »Building A Modern Standard Arabic Corpus)«[5](

تقترح هذه الورقة البحثية بمثابة منهجية لبناء مدونة قياسية عربية تصلح لأن تكون قاعدة لبرامج لغوية عدّة، مع التوضيح بالصور الخطوات العملية لذلك، وهي دراسة قيمة وذات فائدة كبيرة، وإنما يُلاحظ ضعف المصادر وقلة المادة المستخدمة، وصغر حجم المدونة (مجموعَةٌ من 11 صحيفةً، وأقل من مليونِ كَلِمَةٍ)([6]).

  • »Using  a telephony Saudi accented Arabic corpus in automatic recognition of spoken Arabic digits)«[7](

وتهدف هذه الورقة البحثية إلى استخدام قاعدة بيانات للهاتف في السعودية، من أجل عمل برنامج للتعرُّف الصوتي، وهو مجهود كبير ومُقَدَّر، ويصب في مجال علم اللغة الصوتي.

  • »Tunisian Arabic Corpus: Creating a written corpus of an “unwritten” language)«[8](

وهي ورقة بحثية مقدمة إلى ورشة عمل، وتهدف إلى عمل منهجية لتحويل المدونات المنطوقة إلى مدونات مكتوبة، في تونس.

وهناك بعض الملاحظات التي يمكن الإشارة إليها في الدراسات السابقة:

  1. جميعها يتناول جزءا محدودا من فضاء اللغة العربية (عينة صغيرة) وربما تكون العينة المختارة غير معبرة عن جميع اللغة العربية. لا سيما في الورقة البحثية الخاصة ببناء مدونة قياسية للغة العربية.
  2. تهتم أكثر بالجانب المنطوق على حساب الجانب المكتوب، وربما يرجع ذلك جزئيا إلى عدم توفر مادة كبيرة لدى الأبحاث السابقة تستحق الدراسة حول المدونات المكتوبة.
  3. تتسم هذه الأبحاث بالعموم وعدم الخوض في التفاصيل المنهجية بشكل مُكَثَّف.

المبحث الرابع: مشكلة البحث

مشكلةُ هذا البحثِ ترجعُ أَساسًا لجِدَّة مجالِ البحثِ في المدوَّنَاتِ اللُّغَوِيَّة؛ فعِلْمُ اللغَةِ الحاسُوبِيُّ الذِي يَنْدَرجُ تحته البحثُ في المدوناتِ اللُّغَوِيّة، ما زال غضَّ الإِهابِ، ومن الواضح قلة المصادر والمراجع العربية المعتَمَد عليها في هذا المجالِ، إضافَةً إلى عدم تبنِّي مثلِ هذه الدراساتِ اللغويَّةِ فِي مَرَاكِزَ مُختَصَّة. وربما يرجع السببُ المباشرُ في قِلَّةِ المراجعِ والدراساتِ الجادة في هذا العلم إلى طبيعَةِ اللُّغَةِ ذاتها “فاللُّغَة خاصية إنسانية يصعب وضع قواعدها، وتراكِيبِهَا واشتقاقاتِهَا، وأساليبِها ومفرداتِها، وما بها من استعارات ومجازات واصطلاحات، في قواعدَ وقوالِبَ مَنْطَقِيَّة رِياضِيَّة.. ليتسنى معالجتُهَا آليًّا»([9]).

           «وَتَنْعَكِسُ تِلْكَ الطَّبِيعَةُ عَلَى الْمُعَالَجَةِ الآلِيَّةِ لنُصُوصِ المُدَوَّناتِ المستَخدَمة في الصِّـناعة الحاسُوبِيَّة اللُّغَوِيَّة، إذ تقوم المعَالَجَةُ عَلَى إِخْضَاعِ الآلَةِ لِمُتَطَلَّبَاتِ الْبَحْثِ اللُّغَوِيّ، مِنْ خِلالِ أَنْظِمَةٍ تَفَاعُلِيَّةٍ بِإِمْكَانِهَا التَّعامُلُ مَعَ الإنْسَانِ وَتَنْفِيذُ أَوَامِرِهِ»([10]). مما يعني أن مشكلات البرمجة الآلية ناتجة عن التحدي في تطويع اللغة العربية، ولا بد من الاعتراف أن هذا المسار تكتنفه بعض المشكلات «تكمن هذه المشكلات في طبيعة اللغة، وفي تعقيدات ودقائق التواصل المكتوب والشفهي، وفي الفوارق الدقيقة في صوت الشخص أو في النص الفرعي في فقرة مكتوبة جيدًا»([11]).

إلا أننا نقول إنه من الملاحظ زيادة اطرادية في عدد الأبحاث المقدمة والندوات المختصة التي تدعم البحث في المدونات، بل لقد ظهرت أدوات برمجية تتعامل مع النصوص الخاصة بالمدونات اللغوية، مما يعني (بشكل أو بآخر) أن المستقبل مفتوح لمثل هذه التجارب.

المبحث الخامس: تعريفات بحثية

أولا: تعريف المدونات اللغوية

يجبُ أَوّلا أَنْ نُرَدِّدَ مَعَ أَبِي اللُّغَةِ الحَدِيثِ فيرديناند دي سوسير «ﺇﻥ ﺍﻟﻠﻐﺔ ﻟﻴﺴﺖ ﻣﺪﻭﻧﺔ»([12]). فاللغة أوسع وأشمل من أن يحويها شخص أو مركز بحثي أو مجموعات من البشر في مدونة، ولكنّ المدونة هي جزء معبِّر عن فضاءِ اللُّغَةِ، وتزداد صحة تعبيرِه اطِّراديًّا مع زيادة عدد المفردات، فَكُلَّمَا كانتِ المدوَّنَةُ غَنِيَّةً بِمَوَادّها، كانت أكثر صدقا في التعبير عن اللغة، والمدونة في النهاية هي عيِّنَة عشوائية شبه منتظمة، والمقصود بالعَيِّنَة العَشْوَائِيَّة شِبْهِ المُنْتَظِمَة هي العينة التي «يتم فيها اختيار المفردة الأولى فقط بطريقة عشوائية، حيث يتحدد بعد اختيار كل مفردة من مفرداتها مستقلا عن اختيار المفردات الأخرى»([13]). فبالطبع ليس ثمة قيود بعينها تحوط جمع المواد داخل كل مدونة، لكن ما يَحْكُمُنَا في هذا الأَمْرِ، هو كون المواد المجموعة نصوصا في الأصل، مِمَّا يَعْنِي أَنَّ الكَلامَ فيها يحظى بنوع من أنواع الترتيب.

وقد عرّف البعض المدونة بأنها «ﺻﻔﺤﺔ ﺇﻧﺘﺮﻧﺖ ﺩﻳﻨﺎﻣﻴﻜﻴﺔ تتغيَّر زمنيا حسب المواضيع ﺍﳌﻄﺮﻭﺣﺔ ﻓﻴﻬﺎ، ﺣﻴﺚ ﺗﻌﺮﺽ المواضيع ﰲ ﺑﺪﺍﻳﺔ المدونة ﺣﺴﺐ ﺗﺎﺭﻳﺦ ﻧﺸﺮﻫﺎ (ﺣﺪﻳﺜﺔ ﺍﻟﻨﺸﺮ ﺃﻭﻻ ﰒ ﺍﻟﱵ ﺗﻠﻴﻬﺎ ﻭﻫﻜﺬﺍ). ﻭﺍﳌﻮﺿﻮﻋﺎﺕ ﺍﻟﱵ ﻳﺘﻨﺎﻭﳍﺎ ﺍﻟﻨﺎﺷﺮﻭﻥ ﰲ المدونات ﺗﺘﺮﺍﻭﺡ ﻣﺎ ﺑﲔ ﺍﻟﻴﻮﻣﻴﺎﺕ، ﻭﺍﳋﻮﺍﻃﺮ، ﻭﺍﻟﺘﻌﺒﲑ ﺍﳌﺴﺘﺮﺳﻞ ﻋﻦ ﺍﻷﻓﻜﺎﺭ، ﻭﺍﻹﻧﺘﺎﺝ ﺍﻷﺩﰊ، والموضوعات المتخصصة ﰲ المجال ﺍﻟﺘﻘﲏ»([14]). ويبدو من التعريف السابق الخلط الواقع بين المدونات اللغوية، ومدونات شبكة الإنترنت، كما أنه يتجاهل الجانب الشفهي تماما.

كما يمكن تعريف المدونات بأنها «مجموعة ضخمة من النصوص اللغوية (منطوقة أو مكتوبة) مودعة في مخازن حاسوبية»([15])، وهو تعريف جامع شامل لكنه ليس مانعا لدخول عناصر لا تنتمي إلى مجال المدونات اللغوية، فبهذا المنطق تصبح التقارير المدرسية والوصفات الطبية، ووصفات الطعام، جزءا من المدونات اللغوية.

وهناك تعريف ثالث للمدونة اللغوية بأنها «نصوص إلكترونية تُجمَع لغرض معين بناء على معايير خارجية»([16]).

ونرى أن هذا التعريف هو أدق التعريفات وأكملها، ففي حين أن اللغة نصوص تُحفَظ بِطَرِيقَةٍ إِلِكْتُرُونِيَّة؛ قد تكون مَسْمُوعَةً (Audio) أو مَكْتُوبَةً (Text)، فَإِنّها تُجمع لغرض معين وبطريقة معينة ولهدف محدّد.

ثانيا: المكنز

يُعرّف المكنز Corpus بأنه «عبارة عن قائمة استنادية بالواصفات أو مصطلحات التكشيف في نظام المعلومات، فهو الأداة التي يعتمد عليها المكتشف في الحصول على المصطلحات أو الواصفات المناسبة لوصف محتوى الوثائق وهو أيضا الأداة التي يعتمد عليها الباحث أو المستفيد من النظام في الاسترجاع»([17])، ويبدو من التعريف أن المكنز هو تحويل المدونة اللغوية التي تحوي نصوصا متعددة وعشوائية، إلى مجموعة من الكشّافات والواصفات، بمعنى أكثر دقة، المكنز هو ترتيب المواد العشوائية في صورة منتظمة.. فـ«المكنز إذن هو حلقة الوصل بين المكشف والباحث، وهو الذي يوفر أقصى درجة كفاءة في التخزين والاسترجاع»([18])، ورغم تعدد التعريفات للمكانز فإن هناك اتفاقا عامًّا على التعريف الذي اعتمدته المنظمة الدولية للتقييس.

ويمكن تعريف المكنز من حيث وظيفته أو من حيث بنائه؛ فالمكنز من حيث الوظيفة هو «وسيلة ضبط للمصطلحات». أما من حيث البناء فهو «مفردات منضبطة ودينامكية لمصطلحات متصلة مع بعضها البعض دلاليا وهرميا تغطي أحد حقول المعرفة».

ويضيف محمد فتحي عبد الهادي تعريفا شاملا لمفهوم المكنز: «المكنز هو قائمة بالواصفات وعلاقاتها التكافؤية والهرمية والترابطية، ويكون ترتيب وعرض الواصفات وعلاقاتها بما يخدم بكفاية وفاعلية في تحليل محتوى واسترجاعه»([19]).

ثالثا: النظم المعلوماتية

تُعتَبَر نظم المعلومات الرافد الأساسي لاتخاذ القرارات، حيث يصفها البعض بمثابة الوقود المحرك. ويؤكد الجميع (مؤسسات وأفرادا) بأن تكنولوجيا الحاسوب بالإضافة إلى المعلومات يلعبان دورا أساسيا في حل المشكلات الإدارية التي أصبحت أكثر تعقيدا. ونتيجة لذلك أصبح لدى العديد من أصحاب المنظمات ميل إلى تحويل النشاطات الإدارية التقليدية لكي تدار عن طريق آخر ما توصلت إليه التكنولوجيا الحديثة وفق أنظمة إدارية محسوبة، لما لذلك من أثر على سرعة وجودة العمل([20]).

ويمكن تعريفُ نظامِ المعلوماتِ بأنَّه «نظام يتكون من أشخاص وسجلات البيانات وعمليات يدوية وغير يدوية ويقوم هذا النظام بمعالجة البيانات والمعلومات في أي منظومة. أو هو مجموعة من العناصر المتداخلة التي تعمل مع بعضها البعض لجمع ومعالجة وتخزين وتوزيع المعلومات المتوفرة عن موضوع ما بشكل منهجي لدعم اتخاذ القرار ولدعم التنظيم والتحكم والتحليل في المنظمة وبناء تصور حالي ومستقبلي واضح عن موضوع البحث»([21]).

رابعا الكلمات التوقفية:

«فِي الدِّرَاسَاتِ الحاسُوبِيَّة، الْكَلِمَاتُ التَّوَقُّفِيَّةُ هِيَ الكَلِمَاتُ الَّتِي تَتَرَشَّحُ قَبْل أَوْ بَعْد تَحْلِيل بَيَانَاتِ (نُصُوص) اللُّغَاتِ الطَّبِيعِيَّةِ»([22]). والمقصود بها هي بعض الكلمات التي يكثر ورودها في النص ولا تعطي معنى مستقلا، كما يغلب عليها طابع البناء. بمعنى ثبات الشكل.

المبحث السادس: أهمية المدونات اللغوية

يرى البعض أن المدونة «ﺗﻘﻮﻡ ﺑﺪﻭﺭ ﻓﺎﻋﻞ ﰲ ﻭﺻﻞ ﺍﻟﻔﺠﻮﺓ ﺍﻟﺮﻗﻤﻴﺔ، ﺣﻴﺚ ﺗﻌﻤﻞ ﻫﺬﻩ ﺍﳌﻮﺍﻗﻊ ﻋﻠﻰ ﻃﺮﺡ ﻣﻮﺍﺿﻴﻊ ﺣﺎﺳﻮﺑﻴﺔ ﻣﻨﺘﻘﺎﺓ ﺗﻌﻜﺲ ﺍﻫﺘﻤﺎﻣﺎﺕ ﺻﺎﺣﺐ ﺍﳌﺪﻭﻧﺔ. ﻛﻤﺎ ﺃنها ﺗﻌﻤﻞ كمرشح ﻟﻠﻤﺤﺘﻮﻳﺎﺕ ﺍﳌﻮﺟﻮﺩﺓ ﻋﻠﻰ ﺷﺒﻜﺔ الإنترنت بحيث ﻳﻘﻮﻡ ﺻﺎﺣﺐ المدونة ﺑﻌﺮﺽ ﻷﻓﻀﻞ ﺍﻟﺮﻭﺍﺑﻂ التي يجدها ﺧﻼﻝ إبحاره ﰲ ﺍﻟﺸﺒﻜﺔ ﻭﻳﺸﺎﺭﻙ الآخرين بها، ﻭﻫﻲ ﰲ ﻫﺬﻩ ﺍﻟﻨﺎﺣﻴﺔ ﺗﺘﻔﻮﻕ ﺃﺣﻴﺎﻧﺎ ﻋﻠﻰ محركات ﺍﻟﺒﺤﺚ (التي ﺗﻔﺘﻘر ﻟﻠﺠﺎﻧﺐ ﺍﻟﺒﺸﺮﻱ ﰲ ﺗﻘﻴﻴﻢ ﻭتمييز ﺍﳌﻮﺍﻗﻊ المفيدة)»([23]). ولا يخفى ما في هذه العجالة من خَلْطٍ بين المدونات اللغوية الحاسوبية، ومدونات التواصل الاجتماعي.

وقد انتبه البعض إلى مثل هذا الخلط فرأوا أنه «ﺗﻜﻤﻦ ﺃﻫﻤﻴﺔ ﺍﻟﻤﺪﻭﻧﺔ ﻓﻲ ﺍﻟﺨﺼﺎﺋﺺ ﺍﻟﺘﺎﻟﻴﺔ:

أ- ﺍﻟﻮﺍﻗﻌﻴﺔ ﻭﺍﻟﺘﻤﺜﻴﻞ ﺍﻟﺤﻘﻴﻘﻲ ﻟﻠﻐﺔ.

ب- ﺍﻟﺸﻤﻮﻝ ﻣﻦ ﺣﻴﺚ ﺍﻟﻤﺼﺎﺩﺭ ﻭﺍﻟﺘﻨﻮﻋﺎﺕ ﻭﺍﻻﺳﺘﻌﻤﺎﻻﺕ ﺍﻟﻠﻐﻮﻳﺔ ﻭﺍﻷﺳﺎﻟﻴﺐ ﻭﺍﻷﺟﻨﺎﺱ ﺍﻷﺩﺑﻴﺔ ﻭﺍﻟﺘﺨﺼﺼﺎﺕ ﺍﻟﻌﻠﻤﻴﺔ ﻭﺍﻟﺘﻘﻨﻴﺔ، ﻭﺫﻟﻚ ﺑﺸﺮﻁ ﻣﺮﺍﻋﺎﺓ ﺫﻟﻚ ﻋﻨﺪ ﺇﻋﺪﺍﺩ ﺍﻟﻤﺪﻭﻧﺔ.

جـ- ﺇﻣﻜﺎﻧﻴﺔ ﺇﺧﻀﺎﻋﻬﺎ ﻟﻠﺘﺤﻠﻴﻞ ﺍﻹﺣﺼﺎﺋﻲ ﻣﻦ ﺟﻮﺍﻧﺐ ﻣﺨﺘﻠﻔﺔ ﻭﻷﻏﺮﺍﺽ ﻣﺨﺘﻠﻔﺔ، ﻣﺜﻞ ﺍﻟﺘﻌﺮﻑ ﻋﻠﻰ ﺷﻴﻮﻉ ﺍﻟﻜﻠﻤﺎﺕ، ﻭﻣﺼﺎﺣﺒﺎﺗﻬﺎ ﺍﻟﻠﻔﻈﻴﺔ، ﻭﺳﻴﺎﻗﺎﺕ ﺍﺳﺘﻌﻤﺎﻟﻬﺎ (ﻣﻦ ﺧﻼﻝ ﺍﻟﻜﺸﺎﻓﺎﺕ ﺍﻟﺴﻴﺎﻗﻴﺔ concordance) ﻭﻏﻴﺮ ﺫﻟﻚ ﻣﻦ ﺃﻧﻮﺍﻉ ﺍﻟﺘﺤﻠﻴﻞ ﺍﻟﺼﺮﻓﻲ ﻟﻠﻐﺎﺕ ﺍﻻﺷﺘﻘﺎﻗﻴﺔ ﻛﺎﻟﻌﺮﺑﻴﺔ.

د- ﺍﻟﺘﻌﺮﻑ ﻋﻠﻰ ﺷﻴﻮﻉ ﺍﻟﻜﻠﻤﺔ ﻭﺷﻴﻮﻉ ﻣﻌﺎﻧﻴﻬﺎ ﺍﻟﻤﺨﺘﻠﻔﺔ ﻭﻧﺴﺒﺔ ﺷﻴﻮﻉ ﺍﻟﻜﻠﻤﺔ ﻣﻘﺎﺭﻧﺔ ﺑﻤﺠﻤﻮﻉ ﺍﻟﻜﻠﻤﺎﺕ ﻓﻲ ﺍﻟﻤﺪﻭﻧﺔ، ﺇﺿﺎﻓﺔ ﺇﻟﻰ ﺷﻴﻮﻋﻬﺎ ﻣﻦ ﻋﺪﻣﻪ ﻓﻲ ﺃﻧﻮﺍﻉ ﺍﻟﻨﺼﻮﺹ ﺍﻟﻤﺨﺘﻠﻔﺔ، ﻭﻫﻮ ﻣﺎ ﻳﻔﻴﺪ ﻓﻲ ﺍﺳﺘﺨﻼﺹ ﺍﻟﻤﺼﻄﻠﺤﺎﺕ ﺍﻟﺸﺎﺋﻌﺔ ﻓﻲ ﻛﻞ ﺗﺨﺼﺺ ﻣﻦ ﺍﻟﺘﺨﺼﺼﺎﺕ ﺍﻟﻌﻠﻤﻴﺔ ﻭﺍﻟﺘﻘﻨﻴﺔ.

هـ- ﺇﻣﻜﺎﻧﻴﺔ ﺍﻟﺘﻌﺮﻑ ﻋﻠﻰ ﺷﻴﻮﻉ ﺍﻷﻭﺯﺍﻥ ﻭﺍﻟﺼﻴﻎ ﺍﻟﺼﺮﻓﻴﺔ ﺍﻟﻤﺨﺘﻠﻔﺔ.

و- ﺇﻣﻜﺎﻧﻴﺔ ﺇﺟﺮﺍﺀ ﺃﻧﻮﺍﻉ ﻣﻦ ﺍﻟﺘﺤﻠﻴﻞ ﺍﻟﻨﺤﻮﻱ ﻭﺍﻟﺘﺮﻛﻴﺒﻲ، ﻣﻊ ﺗﻮﺍﻓﺮ ﺑﻌﺾ ﺍﻟﻤﺘﻄﻠﺒﺎﺕ ﺍﻟﻼﺯﻣﺔ.

ز- ﺇﻣﻜﺎﻧﻴﺔ ﺇﺟﺮﺍﺀ ﺍﻟﺘﺤﻠﻴﻞ ﺍﻟﺼﻮﺗﻲ (ﺑﻮﺻﻒ ﺍﻟﺤﺮﻭﻑ تمثيلا للأصوات ﻓﻲ ﺍﻟﻌﺮﺑﻴﺔ ﺑﺼﻮﺭﺓ ﻋﺎﻣﺔ) ﻟﻠﻮﺻﻮﻝ ﺇﻟﻰ ﻣﻌﻠﻮﻣﺎﺕ ﻣﺨﺘﻠﻔﺔ ﻋﻦ ﺍﻷﺻﻮﺍﺕ ﺍﻟﻌﺮﺑﻴﺔ ﻣﻦ ﺣﻴﺚ ﺷﻴﻮﻋﻬﺎ ﻭﻣﻮﺍﻗﻌﻬﺎ ﻓﻲ الألفاظ ﺇﻟﻰ ﻏﻴﺮ ﺫﻟﻚ»([24]).

إن المدونات المتاحة تعد بمثابة أرض صالحة للعمل، ومن اليسير العمل عليها من أجل إنشاء  «معاجم للحقول أو العلاقات الدلالية ومعاجم للدلالة التركيبية (المتصاحبات، والتعابير الاصطلاحية)، أو لحصر الأخطاء الشائعة في اللغة وتصويبها، كما تستثمر في دراسة ظواهر التطور والشيوع والاستعمال لمفردات اللغة، إضافة إلى الاستفادة من المدونات اللغوية في ميدان تعليم اللغة العربية للناطقين بغيرها»([25]).

المبحث السابع: أسئلة بحثية

         يمكِنُنا أنْ نلخِّصَ الدِّرَاسَة في الأَسئِلَة التَّالِيَة:

  1. ما المقصودُ بالمدوناتِ اللغوِيّةِ، وما الفَرْعُ العِلْمِيّ الذِي تتبعُ لَهُ، وَأَينَ اللُّغَة العَرَبيّة من هَذا المجالِ؟
  2. كَيْفَ تُسْهِمُ المدوّنات اللغويةِ العربيةِ في تغييرِ الوَاقِعِ اللُّغَوِي العَرَبِي، وكيف تُسْهِمُ في تحويل المجْتَمَعِ العَرَبِيّ إِلَى اقْتِصَادِ المَعْرِفَة؟
  3. مَا مَرَدّ ذَلِكَ على نُظُمِ المعْلُومَات، وَكَيْفَ يُمكِنُ الوصولُ إِلَى مدوَّنَةٍ لُغَوِيَّةٍ جَامِعَةٍ لِلُّغَةِ الْعَرَبِيَّةِ كَكُلّ؟
  4. مَا دَوْرُ المَرَاكِزِ البحثيَّةِ والعلمِيَّة في تبني وتطويِر مَشْرُوعٍ كَهَذَا؟

المحور الثاني: من المدونة إلى المكنز

المبحث الأول: واقع المدونات اللغوية العربية وأنواعها وكيفية جمعها

لكي نصل إلى مكنزٍ شَامِلٍ لِلُّغَةِ العربِيَّة، يجب أن تتوافر بين أيدينا مدوّنة معبِّرة عن فضاء اللغة العربيّة، أو ما نحب أن نسميه «مدوّنة المدونات»، وتتطلب مثل هذه المدونة جمع كل المدونات المتاحة الخاصة باللغة العربية ودمجها بشكل يسهِّل التعامل معها.

أولا: المدونات المتاحة

كيف نجمع مدونات اللغة العربية المتاحة جميعها؟

يُوجَدُ عدد من المدونات المتاحة (سواء بشكل مجاني أو بمقابل) على شبكة الإنترنت العالمية، وفيما يلي بعض هذه المدونات مع بيان بعض المعلومات الضرورية عنها:

المدونةصاحبهانوع الترخيصحجمهامصدرها
المدونة اللغوية العربيةمدينة الملك عبد العزيزمتوفرة على موقع المدينة بإمكانيات محدودةأكثر من 700 مليون كلمةمخطوطات، صحف، كتب، مجلات، دوريات علمية
رابط المدونة على الإنترنتhttp://www.kacstac.org.sa/About/Pages/Home.aspx
مدونة الوطن والخليجمراد عباسمجانيةأكثر من 14 ميغا بايتجريدتا الوطن والخليج
رابط المدونة على الإنترنتhttp://sourceforge.net/projects/arabiccorpus/
مدونة أحمد عبد العاليد. أحمد عبد العاليمجانيةأكثر من 113 مليون كلمةجرائد ومجلات
رابط المدونة على الإنترنتhttp://aracorpus.e3rab.com/argistestsrv.nmsu.edu/AraCorpus.tar.gz
المدونات العربيةلطيفة السليطيمجانيةتُحدَّث باستمرارصحف ومجلات وقصص وتلفاز ….
رابط المدونة على الإنترنتhttp://www.comp.leeds.ac.uk/eric/latifa/research.htm
مدونة الكلمات العربيةمؤيد السعديمجانيةتُحدَّث باستمراركتب
رابط المدونة على الإنترنتhttps://sourceforge.net/projects/arabicwordcorpu/files/
المدونة العربيةTim Buckwalterغير مجانيةأكثر من 2.5 مليون كلمةمعاجم
رابط المدونة على الإنترنتhttp://www.qamus.org/wordlist.htm
مدونة وكالات الأنباء العربيةجامعة بنسلفينياغير مجانية (1200 دولار)أكثر من 80 مليون كلمةصحف وإنترنت
رابط المدونة على الإنترنتhttp://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2001T55
مدونة المكالمات الهاتفية بين الأصدقاءجامعة بنسلفينياغير مجانية (1000 دولار)60 مكالمة لمصريينالهاتف
رابط المدونة على الإنترنتhttp://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC96S49
مدونة جامعة نايميخنجامعة نايميخنغير مجانيةأكثر من مليوني كلمةمجلات
رابط المدونة على الإنترنتhttp://www.let.kun.nl/wba/Content2/1.4.5_Nijmegen_Corpus.htm
مدونة المكالمات الهاتفية المصريةجامعة بنسلفينياغير مجانية120 مكالمة منزليةالهاتف
رابط المدونة على الإنترنتhttp://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S45
مدونة صحيفة النهار اللبنانيةصحيفة النهارغير مجانية140 مليون كلمةصحيفة النهار
رابط المدونة على الإنترنتhttp://www.elda.org/catalogue/en/text/W0027.html
مدونة صحيفة الحياة اللبنانيةصحيفة الحياةغير مجانية18 مليون كلمةصحيفة الحياة
رابط المدونة على الإنترنتhttp://www.elda.fr/cata/text/W0030.html
مدونة الملخصات العربيةجامعة إسيكسمجانيةغير معروف—-
رابط المدونة على الإنترنتhttp://privatewww.essex.ac.uk/~melhaj/easc.htm
المدونة العربية مفتوحة المصدرد. معتز سعيدمجانية35.7 MBBBC Arabic وCNN Arabic
رابط المدونة على الإنترنتhttp://sourceforge.net/projects/ar-text-mining/files/Arabic-Corpora/
المدونة اللغوية العربية العالمية لمكتبة الإسكندريةمكتبة الإسكندريةمجانية100 مليون كلمة—-
رابط المدونة على الإنترنتhttp://www.bibalex.org/ica/ar/Login.aspx
مدونة تشكيلة (نصوص عربية مشكولة)طه رزوقيمجانية122 Mb—-
رابط المدونة على الإنترنتhttps://sourceforge.net/projects/arabicwordcorpu/files/

الجدول (1) جميع المدونات اللغوية المتاحة

وفيما يلي نموذجان مختلفان من هذه المدوّنات، لكي يتبيّن بشيء من التوضيح كيفية ضم هذه المدونات:

النموذج الأول (OSAC: Open Source Arabic Corpora) المدونة العربية مفتوحة المصدر

تعد المدونة العربية مفتوحة المصدر (OSAC) من أكبر المدونات العربية، وقد قام الدكتور معتز خالد سعد ببناء هذه المدونة، وقد قسمها إلى المجموعات التالية:

القائمة الأولى: BBC Arabic

جُمعت هذه القائمة من موقع بي بي سي العربي وتحتوي على 4763 مستنداً نصياً تنتمي  لسبع فئات هي:

أخبار الشرق الأوسط2356أخبار العالم1489
اقتصاد وأعمال296رياضة219
صحافة عالمية49علوم وتكنلوجيا232
فنون وثقافة122 

تتألف المجموعة من 1,860,786 مليون كلمة و 106,733 كلمة مفتاحية بعد إزالة «الكلمات المستبعدة» على ما سيأتي.

القائمة الثانية: CNN Arabic

أما هذه القائمة فقد جُمعت من موقع «سي إن إن» العربي وتحتوي على  5070 مستندا نصيا تنتمي لسبع فئات هي

أخبار الشرق الأوسط1462أخبار العالم1010
اقتصاد836رياضة762
ترفيه474علوم وتكنولوجيا526
فنون وثقافة122 

تتألف المجموعة من  2,241,348 مليون كلمة و 144,460 كلمة مفتاحية بعد إزالة «الكلمات المستبعدة».

القائمة الثالثة: مواقع صحف ومجلات عربية

     أما هذه القائمة فقد جُمعت من مواقع وتضم 22,429 مستندا نصيا تنتمي لفئة من أحد عشر فئة (الاقتصاد، التاريخ، الترفية، التعليم والأسرة، الدين والفتاوى، الرياضة، الصحة، الفضاء، القانون، قصص، وصفات الطبخ) حيث تضم المجموعة 18,183,511 مليون كلمة و 449,600 كلمة مفتاحية بعد إزالة «الكلمات المستبعدة».

     تأتي المدونة دون برنامج تنقيب البيانات – الكشّاف السياقي – وغير مشكولة، ومحفوظة في ملفات بسيطة (TXT) وبترميز (utf-8)، وتعد صيغ (utf-8 وutf-16 وANSI) هي المفضلة لدى برامج كشافات السياق.

النموذج الثاني مدونة مدينة الملك عبد العزيز للعلوم والتقنية (المدونة اللغوية العربية)

تعريف بالمشروع:

هي المدونة اللغوية العربية لمدينة الملك عبد العزيز للعلوم والتقنية أو (المدونة العربية)، إحدى المشاريع الاستراتيجية لمبادرة الملك عبد الله للمحتوى العربي. وهذا المشروع يهدف إلى بناء مدونة لغوية عربية تحوي أكبر عدد مما دُوِّنَ بالعربية ابتداءً من العصر الجاهلي وحتى العصر الحديث ومن مختلف المناطق والبلدان، مع الأخذ بنظر الاعتبار طبيعة وحجم النشاط الفكري لكل فترة وتنوع أوعية النشر فيها (مخطوطات، صحف، كتب، مجلات، دوريات علمية،…) والسائد من المجالات العلمية والفكرية المختلفة (المعتقدات، علوم العربية، العلوم الطبيعية، الادب،…). كما يشمل المشروع بالإضافة إلى المادة اللغوية المصنفة، إنشاء موقع للمدونة على الإنترنت بالإضافة إلى أدوات للبحث والتحليل اللغوي والإحصائي تعزز الاستفادة من مواد المدونة. والموقع لا يزال تحت التطوير والاختبار.

تُعَدّ مدونة مدينة الملك عبد العزيز للعلوم والتقنية، أكبر مدونة لغوية مجانية للعربية. وسوف يزداد حجمها إلى أن تصل إلى مليار كلمة (بحسب ما ذُكر في موقع المدونة). راعي راعى تصميم المدونة اللغوية العربية لمدينة الملك عبدالعزيز للعلوم والتقنية، عدة معايير خارجية لاختيار نصوص المدونة تعتمد على خمس ركائز أساسية هي البعد الزمني، والبعد الجغرافي، والوعاء المعلوماتي، و المجال المعرفي والتصنيف الموضوعي. إضافة إلى هذا فإن المدونة في مرحلتها الحالية هي للنصوص المكتوبة والكاملة فقط ولا تحوي أي نصوص منطوقه مثل الحوارات التلفزيونية أو الخطابات السياسية أو أي نصوص غير مكتملة مثل فصل من كتاب أو جزء من مقال.

معايير المدونة

أول المعايير التي رُوعيت عامل الزمن أو البعد التاريخي، الذي يمتد من عصر ما قبل الإسلام وحتى عصرنا هذا، وكانت كل فترة زمنية على هيئة دالة أُسّيّة تتناسب مع تطور المعارف والعلوم والتدوين الخاص باللغة العربية، بحيث يزداد عدد كلمات المدونة كلما قربنا من العصر الحديث ويزداد تنوع صورها معه كذلك. والشكل (1) يوضح توزيع محتوى المدونة على الأوعية والشكل (2) والجدول (2) يوضحان توزيع محتوى المدونة على الفترات الزمنية كما يوضح التوزيع الأُسّيّ لمواد المدونة على الفترات الزمنية.

ثانيا: المدونات غير المتاحة

المدونةصاحبهانوع الترخيصحجمهامصدرها
مدونة المعجم المدرسي لطلاب المرحلة الابتدائيةمدينة الملك عبد العزيزغير متوفرةأكثر من 3 غيغا بايتالكتب الدراسية للمرحلة الابتدائية وكراسات التعبير والمادة المستكتبة للطلاب وكلام الطلاب.
مدونة المعجم المدرسي لطلاب المرحلة المتوسطة والثانويةمدينة الملك عبد العزيزغير متوفرةالكتب الدراسية للمرحلة الابتدائية وكراسات التعبير والمادة المستكتبة للطلاب وكلام الطلاب.
ﻣﺪﻭﻧﺔ ﺍﻟﻤﻌﻬﺪ ﺍﻟﻌﺎﻟﻲ ﺍﻟﺴﻮﺭﻱﺍﻟﻤﻌﻬﺪ ﺍﻟﻌﺎﻟﻲ ﺍﻟﺴﻮﺭﻱغير متوفرة
ﻭﻣﺪﻭﻧﺔ ﺻﺨﺮشركة صخر لتقنية المعلوماتغير متوفرة
ﻭﻣﺪﻭﻧﺔ ﺷﺮﻛﺔ إيه ﺗﻲ إيه ATAﺷﺮﻛﺔ إيه ﺗﻲ إيه ATA بلندنتزيد على ملياري كلمة (بحسب الشركة)  

جدول (4) عدد من المدونات غير المتاحة

وفي الحقيقة فإن هناك مدوّنات كثيرة غير مجموعة تقدمها لنا الكتب الرقمية والصفحات الإلكترونية، «ﻛﻤﺎ ﻳﺠﺪﺭ ﺑﺎﻟﺬﻛﺮ ﻣﺠﻤﻮﻋﺎﺕ ﺍﻟﻤﺮﺍﺟﻊ ﺍﻟﻘﺎﻣﻮﺳﻴﺔ ﻭﺍﻷﺩﺑﻴﺔ ﻭﺍﻟﺪﻳﻨﻴﺔ ﻭﻏﻴﺮﻫﺎ ﻣﻤﺎ ﻫﻮ ﻣﺘﺎﺡ ﻓﻲ ﺻﻮﺭﺓ ﺭﻗﻤﻴﺔ، ﺳﻮﺍﺀ ﻋﻠﻰ ﺷﻜﻞ ﺃﻗﺮﺍﺹ ﻣﻀﻐﻮﻃﺔ ﺃﻭ ﻋﻠﻰ ﺍﻟﺸﺒﻜﺔ ﺍﻟﻌﻨﻜﺒﻮﺗﻴﺔ»([26]).

من هذا العرض السابق نخلص إلى عدّة نتائج:

  1. هناك ذخيرة لغويَّةٌ كبيرة الحجم تصل إلى مئات الملايين من الكلمات التي يمكن جمعها من خلال المدونات المتاحة.
  2. هناك بعض المدونات متاحة للاطلاع بشكل مجاني، وهناك البعض الآخر الذي يستلزم دفع جزء من المال.
  3. بعض المدونات ليست متاحة للاطلاع عليها، لدخولها في مشاريع تجارية أو علمية تستدعي التكتم عليها (لا سيما مدونتي «صخر» و«إيه تي إيه»).
  4. بعض المدونات يكون مشكولا (مضبوطا) والأكثر غير المشكول (وهو الأكثر من جهة العدد).

محركات بحث للمدونات

من المؤشرات الجيدة وﺟﻮﺩ ﻣﻮﺍﻗﻊ ﺗﻘﺪﻡ ﺧﺪﻣﺔ ﺍﺳﺘﻀﺎﻓﺔ ﻭﺧﻠﻖ ﺍﳌﺪﻭﻧﺎﺕ مجانا، مثل: «ﻣﻮﻗﻊBlogger  عالميا، ﻭﻣﻮﻗﻊ ﺍﻟﻨﺎﺷﺮ ﻋﺮﺑﻴﺎ. ﻭ ﻗﺪ ﻭﺟﺪﺕ محركات ﲝﺚ ﻣﺘﺨﺼﺼﺔ ﻟﻠﺒﺤﺚ ﰲ محتوى المدونات، ﻣﺜﻞ محرِّك Technocratic ﻭblog search ﻣﻦ ﺷﺮﻛﺔ Google. ﻳﺮﺟﻊ ﺍﻟﺴﺒﺐ ﰲ ﺫﻟﻚ ﻟﻜﻮﻥ محركات ﺍﻟﺒﺤﺚ ﺍﻟﺘﻘﻠﻴﺪﻳﺔ ﻻ ﺗﻌﻤﻞ ﻋﻠﻰ تحديث ﻓﻬﺮﺳﺔ ﻗﻮﺍﻋﺪ ﺑﻴﺎﻧﺎتها ﺑﺎﻟﺴﺮﻋﺔ المطلوبة ﻟﺘﻌﻜﺲ ﺣﺪﺍﺛﺔ الموضوعات المطروحة ﰲ المدونات. ﻭﻗﺪ ﺃﻃﻠﻖ ﻋﻠﻰ ﻋﻤﻠﻴﺔ ﺍﻟﺒﺤﺚ ﰲ المدونات ﺑﺎﻟﺒﺤﺚ ﰲ الجزء ﺍﳊﻲ ﻣﻦ ﺷﺒﻜﺔ الإنترنت (Live Web). ﻛﻤﺎ ﺃﻃﻠﻖ ﻋﻠﻰ ﺍﳌﺪﻭﻧﺎﺕ ﻟﻘﺐ (ﺍﻟﺴﻠﻄﺔ ﺍﳋﺎﻣﺴﺔ) ﳌﺎ ﳍﺎ ﻣﻦ ﺗﺄﺛﲑ ﻓﺎﻋﻞ ﰲ ﺍﲣﺎﺫ ﺍﻟﻘﺮﺍﺭﺍﺕ، ﻭﻟﻴﺲ ﺃﺑﻠﻎ ﻣﻦ ﺗﺄﺛﲑ ﺍﳌﺪﻭﻧﺎﺕ ﰲ ﲨﻊ ﺃﺻﻮﺍﺕ ﺍﻟﻨﺎﺧﺒﲔ ﺃﻳﺎﻡ الانتخابات الأمريكية ﺍﻷﺧﲑﺓ»([27]).

المبحث الثاني:  تحليل المدوّنات المتاحة وتجريدها

بداية لا يمكن تحليل مدوّنة ما أو التعاملُ معها دون تقسيمِها وتنسيقها بشكل يسهِّل العمل بها، كحفظها قاعدة بيانات أو في شكل ملفات نصية مثلا (TXT) وبترميز ( utf-8 )، وتعد صيغ (utf-8 و utf-16 و ANSI) هي المفضلة لدى برامج كشافات السياق أو برامج التحليل النصي، وسوف نتناول في الصفحات التالية كيفية تحليل مدوّنة ما، والعمل على تصنيفها وحذف المكرر منها، مما يسهِّل التالي:

  1. ﺍﻟﺮﺟﻮﻉ ﺇﻟﻰ ﻛﺎﻣﻞ ﺍﻟﻨﺺ ﺃﻭ ﺍﻟﻨﺼﻮﺹ ﺍﻟﺘﻲ ﻭﺭﺩﺕ ﻓﻴﻬﺎ ﺍﻟﻜﻠﻤﺔ ﺍﻟﻤﺬﻛﻮﺭﺓ ﻟﻠﺘﻌﺮﻑ ﻋﻠﻰ ﺍﻟﺴﻴﺎﻕ ﺍﻷﻛﺒﺮ، ﻣﻤﺎ ﻳﻌﻴﻦ على ﺗﺤﺪﻳﺪ ﺍﻟﻤﻌﻨﻰ ﺍﻟﻤﻘﺼﻮﺩ ﻣﻦ ﺍﻟﻜﻠﻤﺔ.

3- ﺍﺳﺘﺨﺮﺍﺝُ ﺍﻟﻜﻠﻤﺎﺕِ ﺍﻟﻤﺼﺎﺣِﺒَﺔ ﻟﻠﻜﻠﻤﺎﺕ ﻣﻮﺿﻊ ﺍﻟﺒﺤﺚ.

4- ﺍﺳﺘﺨﺮﺍﺝ ﺍﻷﻣﺜﻠﺔ ﻭﺍﻻﺳﺘﺸﻬﺎﺩﺍﺕ ﺍﻟﺨﺎﺻﺔ ﺑﺎﻷﻟﻔﺎﻅ.

5- ﻳﺮﺍﻋﻰ ﻣﻔﻬﻮﻡ «ﺍﻟﻜﻠﻤﺔ» ﻟﺘﻤﺜﻞ ﺍﻻﺳﻢ ﺃﻭ ﺍﻟﻔﻌﻞ ﺃﻭ ﺍﻟﺤﺮﻑ ﻓﻲ ﺻﻮﺭﺗﻪ ﺍﻟﻤﺠﺮﺩﺓ ﻣﻦ ﺍﻟﺴﻮﺍﺑﻖ ﻭﺍﻟﻠﻮﺍﺣﻖ (ﻭﻫﻮ ﻣﺎﻳﺴﻤﻰ ﺃﺣﻴﺎﻧﺎ ﺑﺎﻟﺠﺬﻉ – ﻣﻘﺎﺑﻞﺍﻟﺠﺬﺭ)، ﺳﻮﺍﺀ ﺃﻛﺎﻧﺖ ﺍﻟﻜﻠﻤﺔ ﺟﺎﻣﺪﺓ ﺃﻡ ﻣﺸﺘﻘﺔ، ﻣﺜﻞ ﻭﻟﺪ، ﻭﺍﻟﺪ، ﻣﻮﻟﻮﺩ.

6- ﺍﻟﻘﻴﺎﻡ ﺑﺪﺭﺍﺳﺔ ﺇﺣﺼﺎﺋﻴﺔ ﻟﺸﻴﻮﻉ ﺍﻟﻜﻠﻤﺎﺕ ﺑﺎﻟﻤﻔﻬﻮﻡ ﺍﻟﻤﺬﻛﻮﺭ ﺃﻋﻼﻩ، ﺛﻢ ﺷﻴﻮﻉ ﻣﻌﺎﻧﻴﻬﺎ (ﻭﻓﻘﺎ ﻟﻠﺴﻴﺎﻗﺎﺕ ﺍﻟﺘﻲ ﺗﺮﺩ ﻓﻴﻬﺎ) ([28]).

وفي سبيل ذلك لا بدّ من اتباع خطوتين مهمَّتين:

الخطوة الأولى اعتماد المدونة «مجرّدة» وحذف «الكلمات المستبعدة»

       أَشَرْنَا سَابِقًا إِلَى أَنَّ المدَوَّنَة عبَارَةٌ عَنْ عَدَدٍ كَبِيرٍ مِن النُّصُوصِ العشوائية، لِذَلِكَ فَإِنَّهَا تَضُمُّ مَجْمُوعَةً عَشْوَائِيَّةً مِن الكَلِمَاتِ العَرَبِيَّةِ. وَمِنَ البَدَهِيِّ أَنَّ نِسْبَةً كَبِيرَةً مِنْ تِلْكَ الكَلِمَاتِ هِيَ «الكلمات التوقفية» أو «الكلمات المستبعدة» (Stop words)، وَهِيَ الكَلِمَاتُ الَّتِي يِكْثُرُ وُجُودُهَا فِي النُّصُوصِ عُمُومًا، وَلا تُعَبِّرُ عَنْ مَعْنًى مُسْتَقِلٍّ، أَوْ تُعَبِّرُ عَنْ مَعْنًى لا يَقُومُ وَحْدَهُ بِدَلالَةٍ وَاضِحَةٍ، وَأسلفنا في تعريف الكلمات التوقيفية أنها «الكَلِمَاتُ الَّتِي تَتَرَشَّحُ قَبْل أَوْ بَعْد تَحْلِيل بَيَانَاتِ (نُصُوص) اللُّغَاتِ الطَّبِيعِيَّةِ».

   ولَيْسَ ثَمَّةَ قَائِمَةٌ مُحَدَّدَةٌ لِلْكَلِمَاتِ التُّوقُّفِيَّةِ مُتَّفَقٌ عَلَيْهَا مِنْ قِبَلِ جَمِيعِ الْبَرْمَجِيَّاتِ اللُّغَوِيَّةِ الْمُسْتَخْدَمَةِ، بَلْ إِنَّ هُنَاكَ بعضَ الْبَرْمَجِيَّاتِ عَلَى وَجْهِ الْخُصُوصِ «تَتَفَادَى حَذْفَهَا لِدَعْمِ الْبَحْثِ الْمَقْطَعِيّ»([29]).

وَهُنَاكَ جُهُودٌ كَبِيرَةٌ لِتَحْدِيدِ الكَلِمَات التوقُّفِيَّة فِي العَرَبِيَّةِ([30])، وَمُشْكِلاتِها([31])، وَدِرَاسَاتٌ قَامَتْ لِتَأْثِيرِهَا عَلَى النَّصِّ العَرَبِيِّ([32])، وَقَدْ كَانَ هُنَاكَ شِبْهُ تَوَافُقٍ عَلَى اعْتِبَارِ كَلِمَاتٍ بِعَيْنِهَا «كَلِمَاتٍ تَوَقُّفِيَّةً»، وَقَدْ وَصَلَ عَدَدُهَا فِي بَعْضِ الأَبْحَاثِ التَّطْبِيقِيَّةِ إِلَى نَحْوِ 26000 كَلِمَة([33]).

    وَلا يَخْفَى أنّ كلَّ باحثٍ يتَنَاوَلُ مُصْطَلَحَ «الكَلِمَات التوقُّفِيَّة» بِمَا يَخْدِمُ فِكْرَتَه البحثيَّةَ. وَمِنْ هُنَا، وَبَعْدَ مقارنة بعض قوائم «الكلمات المستبعدة»، اخْتَرْنَا أَنْ نَعْتِمَدَ إِلَى حَدٍّ مَا عَلَى القائمة الخاصة بالموقع الإلكتروني بـ«RANKS.NL»([34])، كما يرجّح البحث الاعتماد إلى حد كبير على برنامج «الكلمات المستبعدة» في موقع «المستبعدات»([35]).

وبعد حذف هذه الْكِلَمِاتِ التَّوَقُّفِيَّةِ الـ«Stop words» تصبح لدينا الكلمات الخاصة بالمدونة في حالة التجرد.

الخطوة الثانية: مقارنة كلمات المدونات وحذف التكرار.

لتحديد عدد الكلمات المكررة، ونسبة تكرارها في مُدَوَّنَةِ ما (أيّ مُدَوَّنَة) وجود بِرْنَامِجٍ وَسِيطٍ يَدْعُمُ اللُّغَةَ الْعَرَبِيَّةَ بحيث يساعد هذا البرنامج في فهرسة وتحليل وأرشفة كلمات المدونة، وَبَعْدَ مُقَارَنَةِ عَدَدٍ من البَرَامِجِ الخَاصَّة بالتَّحلِيلِ النَّصِّيِّ، وَتَقْيِيمِ أَدَائِهَا عَنْ طَرِيقِ الْقِيَامِ بِتَحْلِيلِ نَصٍّ صَغِيرٍ يَدَوِيًّا، ثُمَّ مُقَارَنَة النَّتَائِجِ بِبَرَامِجِ التَّحْلِيلِ الْمُخْتَلِفَةِ، تَمَّ التَّوَافُقُ عَلَى بَرْنامَج (text/analyzer.jsp ,Intellyze 3.0)، وَهُوَ مُتَاحٌ عَلَى الرَّابِط التَّالِي: http://www.online-utility.org/text/analyzer.jsp([36]). وَقَدْ تَمَّ اخْتِبَارُهُ كَمَا هُوَ مُوضِّحٌ بِالشَّكْلِ، وَأَعْطَى نِسْبَةَ دِقَّةً مُمَاثِلَةً لِمَا تَمَّ تَحْلِيلُهُ يَدَوِيًّا بِنِسْبَةِ 100%،.

شَكْل رَقم (3) مُقَارَنَة بَيْنَ مَا تَمَّ تَحْلِيلُهُ يَدَوِيًّا (يَسَار) وَمَا تَمَّ تَحْلِيلُهُ بِاسْتِخْدَامِ الْبَرْنَامَجِ (يَمِين)، وَيُلاحَظُ مَدَى التَّطَابُقِ بَيْنَ التَّحْلِيلَيْنِ

المبحث الثالث:  المكنز المقترح واستخداماته المختلفة

باستخدامِ البرنامجِ السابقِ، يتمُّ عَرْضُ المدوَّنَةِ على برنامج التحليل النصي، بعد أن جرى حفظها في ملفات TXT))، كما أسلفنا، وكذلك بعد التعرض للكلمات المستبعدة وتحديدها، ومن ثم عرضها على البرنامج ملفا ملفا، وتحديد التكرارات ونسبها، وحفظ النتائج، مع حذف التكرار من المدونة، بهذا الشكل يصبح لدينا نسخة من المدونة Unique مجردة، إلى جوار النسخة الأصلية المدونة التي تحوي التكرارات المختلفة.

هذه النسخة التي جرى التوصل إليها، والتي يمكن أن تُحفظ بشكل مسرد من الكلمات المختلفة، هي مادة أساسية لصناعة أي معجم تكراري أو معجم ألفبائي، أو غيرها من المعاجم..

وجدير بالذكر أن هذه النسخة تكون نسخة أوّلية، يجب العمل عليها بشكل معين إذا أُريد إدخالها ضمن أي منظومة لغوية على النحو التالي:

أولا في حالة المصحح الآلي (مكتشف الأخطاء الإملائية):

يكون دور هذا المكنز واضحا حين يوضع كقاعدة بيانات Database للبرنامج، ومن ثم يقوم البرنامج بعمل مقارنة Compare بكلمات قاعدة البيانات (المكنز) وإذا كانت الكلمة في النص المدخل (Input) غير موجودة في قاعدة البيانات، فإن هذا قد يكون مؤشرا على عدم صحة الكلمة إدخالا.

ثانيا في حالة المشكّل الآلي (برنامج لتشكيل النصوص المدخلة)

في المكنز لدينا إحصاء عن طريق برنامج Text/Analyzer قائمة كاملة بالكلمات التي تتكرر متجاورتين، إن أعلى نسب تكرار لهذه الكلمات يعني بالضرورة كثرة دوران هاتين الكلمتين مع بعضهما (مثال: إذا وجدنا أكثر كلمتين مكررتين في المدونة بعد تحليلهما منذ الآن، فإن هذا يعني بأن هاتين الكلمتين متلازمتان) مما يعني أنهما تتكرران بالتشكيل وحده، مما يعني متلازمات إعرابية، وأينما وُجدت متلازمات إعرابية أكثر، ساهم ذلك في توفير الجهد وزيادة دقة المشكّل الآلي.

ثالثا في القواميس التكرارية (المعاجم التكرارية)

إن المدونة بعد تحويلها إلى مكنز، فإن الكلمات مرتبة فيها بحسب نسبة شيوعها، وهذه النسب من أدق النسب المعبرة عن شيوع كلمة ما، وباستخدام قواعد زيبف([37]) التي تربط بين نسبة الشيوع والمرتبة التي تحتلها الكلمة (Rank) يمكننا وضع فئات لمجموعات الكلمات المكررة (categories) وبذا تكون صناعة القاموس التكراري من أبسط ما يكون.

رابعا في برنامج المحلل الدلالي

إن برنامج المحلل الآلي يرتبط بعمل أنطولوجيا كاملة للغة العربية، وهناك عدّة مشاريع طموحة لذلك، لا سيما مشروع (Word net)، وتكمن أهمية المكنز في أنه يقدّم لهذه الدراسة الشاملة عددا من الكلمات مرتبطة بسياقاتها المختلفة، مع إمكانية تحديد شيوعها، وارتباطها بما قبلها وما بعدها، مما يعد ركيزة قوية لهذا المشروع المفيد.

         إن هذا هو صورة مبدئية لما يمكن للمكنز إذا جرى إعداده بالشكل المطلوب عمله، وفي الحقيقة فإن المكانز اللغوية أصبحت ضلعا أساسيا في أي حديث عن اللسانيات الحاسوبية، وتخطت أهميتها مجرد إعداد مسارد كلامية إلى أن أصبحت هي المنظم لعمل البرمجيات اللغوية.

الخاتمة

         لقَدْ حاولْنَا عَبْرَ هذا البحثِ تقديمَ رؤيةٍ مُتَواضِعَة لجانبٍ من جوانبِ علم اللغة الحاسوبيِّ، أَلا وهوَ المدوناتُ اللُّغوية، متعرضين لواقعها ومشكلاتها، محاولين الوصول إلى مقترح يؤدي إلى تكامل الجهود اللغوية، لا سيما إذا تبنته مؤسسات مسؤولة، بهدف الوصول إلى مدونة عربية تصبح هي نواة العمل الأكاديمي بدلا من الجهود المتناثرة هنا وهناك، بحيث تكون هي الأساس والخامة الطيِّعة التي يمكن استغلالُهَا من أجل أي مشروعٍ لغوي مستقبلا، وكَذَلِكَ في الصناعات المعجميَّةِ، ودراسات أخرى عديدة، وفي سبيل ذلك، بدأ البحث بالتعرُّضِ لجميع المدونات اللغوية المتاحة وغير المتاحة، مع بيانِ عدد كلماتها والمعلوماتِ المتوفِّرَةِ عنها، بجانب تفصيل الحديث حول مدونتين من هذه المدوّنات لإعطاء صورة واضحة عنها، ومن ثم كيفية تجريد المدونة واعتمادها لتصبح مكنزا يضم اللغة العربية بفضائها الواسع.

التوصيات

إننا نوصي بشدّة بأن يُتَبَنّى مثل هذا المشروع الطموح لجمع المدونات اللغوية وتحويلها إلى مكنز مصنّف دلاليا.

تُعدّ مراكز المعلومات ومراكز التوثيق الحديثة من أساسيات بناء صناعة معلوماتية متطورة قادرة على خدمة العملية التنموية الحضارية بفاعلية، ومما لا شك فيه أنه ليس بالإمكان بناء صناعة معلومات يعتد بها في الوقت الحاضر تعتمد على التقنيات الحديثة في مجال الحاسب الآلي والاتصالات. لذا تكتسب «هذه المراكز وقواعد (بنوك) المعلومات التي تقوم ببنائها وتطويرها أهمية قصوى في خدمة المجتمعات، وتوفير سلعة غاية في الأهمية للباحثين وصانعي القرار في شتى المجالات»([38]).

إننا نطمع أن يلقى هذا البحث صدى لدى المختصِّين وصنّاع القرار، وأن يكون إسهاما حقيقيا في صناعة لغوية بامتياز، يكون عمادها إعطاء اللغة العربية شيئا من وهجها.

ونحن إذ نقدم عملنا المتواضع هذا لنسأل الله أن ينفع به

والله من وراء القصد وهو يهدي السبيل

المراجع

أولا المراجع العربية

إبراهيم، عميرة، حتى نفهم البحث التربوي، القاهرة، دار المعارف.

إسماعيل، عماد أحمد، خصائص نظم المعلومات وأثرها في تحديد خيار المنافسة الاستراتيجي في الإدارتين العليا والوسطى، دراسة تطبيقية على المصارف التجارية العاملة في قطاع غزة، تحت إشراف د. عصام محمد البحيصي، دراسة لنيل درجة الماجستير، 2005.

ﺣﻠﻤﻲ ﺧﻠﻴﻞ، ﺍﻟﻜﻠﻤﺔ ﺩﺭﺍﺳﺔ ﻟﻐﻮﻳﺔ ﻭﻣﻌﺠﻤﻴﺔ، ﺩﺍﺭ ﺍﳌﻌﺮﻓﺔ ﺍﳉﺎﻣﻌﻴﺔ، ﺍﻹﺳﻜﻨﺪﺭﻳﺔ، ﻁ2، 1995.

الطويل، أسماء، قراءة ومراجعة، أ.د. صوفي، عبد اللطيف، سلسلة ترجمة معايير «اﻓﻼ» (25) المتطلبات الوظيفية للبيانات الاستنادية.. النموذج التصويري، الاتحاد العربي للمكتبات والمعلومات (اعلم) 2013.

عبد الله عبد القادر، حمد، السجل العلمي لندوة استخدام اللغة العربية في تقنية المعلومات، مطبوعات مكتبة الملك عبد العزيز العامة، سلسلة الأعمال المحكّمة (4)، الحاسوب والتعليم، 2003.

القرشي، خلف سرحان، «الجوبة» ملف ثقافي ربع سنوي يصدر عن مؤسسة عبد الرحمن السديري الخيرية، ص33.

القبلان، يزيد، جامعة الملك سعود بن عبد العزيز للعلوم الصحية، الإدارة العامة للعلاقات الجامعية والإعلام، الملف الصحفي اليومي، نوفمبر 2012ﻡ،  السعودية.

كريس، روجر، الترجمة الآلية والترجمة البشرية بمساعدة الحاسوب، ترجمة: محمد سليمان موسى، مراجعة: إبراهيم سعد الدين، 2008

مازن الوعر، دراسات لسانية تطبيقية، دار طلاس، دمشق، سوريا، الطبعة الأولى، 1989

ثانيا: المراجع الإنجليزية

Abdelali, A., Cowie, J., Soliman. H. (2005). Workshop on Computational Modeling of Lexical Acquisition. The Split Meeting. Croatia, 25th to 28th of July 2005.

Arabic Stop Words: Towards a Generalization and Standardization, Karim Bouzoubaa1, Hicham Baidouri1, Taoufik Loukili1, Taoufik El Yazidi2, 13th International Business Information Management Association Conference IBIMA 2009, Marrakech, Morocco, November, 2009

Connectives in the World Wide Web Arabic Corpus World Applied Sciences Journal 21 (Special Issue of Studies in Language Teaching and Learning, 2013.

Computational linguistics “Models, Resources, Applications, Bolshakov, I. and Gelbukh, A, (2004), 1st Edition, 2004, Instituto Politecnco Nacional, Mexico

Effects Of Stop Words Elimination For Arabic Information Retrieval: A Comparative Study, Ibrahim Abu El-khair. International Journal of computing and Information sciences.

Green, D.T. and J.M. Pearson. Social software and cyber, networks: Ties that bind or weak associations within the political organization? In the 38th Annual Hawaii International Conference on System Sciences. 2005

Human behavior and the principle of least effort. Zipf, G. K. (1949). Cambridge, MA: Addison Wesley

Theoretical Analysis of Information Systems. AuerbachوCiborra, C. (2002) Labyrinths of Information, Oxford, Oxford University Press.

Workshop on Arabic Corpus Linguistics 11th and 12th April 2011 Lancaster University, UK

ثالثا أبحاث الشبكة العالمية

أ. خوري، أيمن، توثيق وحماية التراث الشعبي من خلال تجربة مركز توثيق التراث الحضاري والطبيعي، بحث منشور على الشبكة العالمية.

د. إسماعيل صالح، محمود، الجانب اللغوي للمعجم الحاسوبي للغة العربية، بحث منشور على الشبكة العالمية.

سليمان الخليفة، هند، ﻣﺴﺎﻋﺪ ﺍﻟﻔﻬﺪ، سلطانة المدونات العربية الحاسوبية: دراسة تحليلية، بحث منشور على الشبكة العالمية.

Stop Word and Related Problems in Web Interface Integration, Eduard Dragut, Fang Fang, Prasad Sistla, Clement Yu

بحث منشور على شبكة المعلومات.


([1]) منهج البحث اللغوي بين التراث وعلم اللغة الحديث، د. علي وزين، دار الشؤون الثقافية العامة، وزارة الثقافة والإعلام، 1986، ص15.

([2]) إبراهيم، عميرة، حتى نفهم البحث التربوي، القاهرة، دار المعارف، 1981، ص96.

)[3] (Connectives in the World Wide Web Arabic Corpus” World Applied Sciences Journal 21 (Special Issue of Studies in Language Teaching and Learning): 67-72, 2013.

([4]) سيأتي تعريف الكلمات المستبعدة في (مبحث التعريفات البحثية).

)[5] (Abdelali, A., Cowie, J., Soliman. H. (2005). Workshop on Computational Modeling of Lexical Acquisition. The Split Meeting. Croatia, 25th to 28th of July 2005.

)[6]( Workshop on Computational Modeling of Lexical Acquisition, p3.

)[7] (http://www.mghamdi.com/isivc08.pdf

)[8]( Workshop on Arabic Corpus Linguisticsو April 2011 Lancaster University, UK

([9]) القرشي، خلف سرحان، «الجوبة» ملف ثقافي ربع سنوي يصدر عن مؤسسة عبد الرحمن السديري الخيرية، ص33.

([10]) Computational linguistics “Models, Resources, Applications, Bolshakov, I. and Gelbukh, A, (2004), 1st Edition, 2004, Instituto Politecnco Nacional, Mexico, P15.

([11]) كريس، روجر، الترجمة الآلية والترجمة البشرية بمساعدة الحاسوب، ترجمة: محمد سليمان موسى، مراجعة: إبراهيم سعد الدين، 2008، ص5.

([12]) ﺣﻠﻤﻲ ﺧﻠﻴﻞ، ﺍﻟﻜﻠﻤﺔ ﺩﺭﺍﺳﺔ ﻟﻐﻮﻳﺔ ﻭﻣﻌﺠﻤﻴﺔ، ﺩﺍﺭ ﺍﳌﻌﺮﻓﺔ ﺍﳉﺎﻣﻌﻴﺔ، ﺍﻹﺳﻜﻨﺪﺭﻳﺔ، ﻁ2، 1995، ﺹ1.

( ([13]الأسلوب الإحصائي واستخداماته في بحوث الرأي والإعلام، دكتور عاطف عدلي العبد ودكتور زكي أحمد عزمي، دار الفكر العربي،  طـ1، القاهرة، 1993م، ص150.

([14]) ﻭﻳﻜﻴﺒﺪﻳﺎ ﺍﻟﻌﺮﺑﻴﺔ، 2005.

([15]) مازن الوعر، دراسات لسانية تطبيقية، دار طلاس، دمشق، سوريا، الطبعة الأولى، 1989، ص25.

)[16] (Workshop on Computational Modeling of Lexical Acquisition, p3.

([17]) سلسلة ترجمة معايير «اﻓﻼ»، (25) المتطلبات الوظيفية للبيانات الاستنادية.. النموذج التصويري، ترجمة أ. أسماء الطويل، قراءة ومراجعة أ.د. عبد اللطيف صوفي، الاتحاد العربي للمكتبات والمعلومات (اعلم) 2013.

([18]) توثيق وحماية التراث الشعبي من خلال تجربة مركز توثيق التراث الحضاري والطبيعي (CULTINAT)، أ. أيمن خوري، بحث منشور على الرابط: http://faculty.ksu.edu.sa/naserz/DocLib/03%20Exp%20A%20Khoury.pdf.

)[19] (http://folklore-thesaurus.blogspot.com/2012_12_01_archive.html.

([20]) خصائص نظم المعلومات وأثرها في تحديد خيار المنافسة الاستراتيجي في الإدارتين العليا والوسطى، دراسة تطبيقية على المصارف التجارية العاملة في قطاع غزة، إعداد الطالب عماد أحمد إسماعيل، تحت إشراف د. عصام محمد البحيصي، دراسة لنيل درجة الماجستير، ص2.

)[21] (Theoretical Analysis of Information Systems. Auerbach وCiborra, C. (2002) Labyrinths of Information, Oxford, Oxford University Press.

)[22] (www. wikipedia.org/wiki/Stop_words.

([23]) المدونات العربية الحاسوبية: دراسة تحليلية، ﻫﻨﺪ ﺑﻨﺖ ﺳﻠﻴﻤﺎﻥ الخليفة، ﺳﻠﻄﺎﻧﺔ ﺑﻨﺖ ﻣﺴﺎﻋﺪ ﺍﻟﻔﻬﺪ.

([24]) ﺍﻟﺠﺎﻧﺐ ﺍﻟﻠﻐﻮﻱ ﻟﻠﻤﻌﺠﻢ ﺍﻟﺤﺎﺳﻮﺑﻲ ﻟﻠﻐﺔ ﺍﻟﻌﺮﺑﻴﺔ، ﺩ. ﻣﺤﻤﻮﺩ ﺇﺳﻤﺎﻋﻴﻞ ﺻﺎﻟﺢ، بحث منشور على الإنترنت.

([25]) جامعة الملك سعود بن عبد العزيز للعلوم الصحية، الإدارة العامة للعلاقات الجامعية والإعلام، الملف الصحفي اليومي، نوفمبر 2012ﻡ،  إعداد: يزيد القبلان، السعودية، ص26.

([26]) ﺍﻟﺠﺎﻧﺐ ﺍﻟﻠﻐﻮﻱ ﻟﻠﻤﻌﺠﻢ ﺍﻟﺤﺎﺳﻮﺑﻲ ﻟﻠﻐﺔ ﺍﻟﻌﺮﺑﻴﺔ، ﺩ. ﻣﺤﻤﻮﺩ ﺇﺳﻤﺎﻋﻴﻞ ﺻﺎﻟﺢ، بحث منشور على الإنترنت.

)[27] (Green, D.T. and J.M. Pearson. Social software and cyber, networks: Ties that bind or weak associations within the political organization? in the 38th Annual Hawaii International Conference on System Sciences. 2005.

[28]ﺍﻟﺠﺎﻧﺐ ﺍﻟﻠﻐﻮﻱ ﻟﻠﻤﻌﺠﻢ ﺍﻟﺤﺎﺳﻮﺑﻲ ﻟﻠﻐﺔ ﺍﻟﻌﺮﺑﻴﺔ، ﺩ. ﻣﺤﻤﻮﺩ ﺇﺳﻤﺎﻋﻴﻞ ﺻﺎﻟﺢ، بحث منشور على الإنترنت.

)[29] (www. wikipedia.org/wiki/Stop_words

)[30] (Arabic Stop Words: Towards a Generalization and Standardization, Karim Bouzoubaa1, Hicham Baidouri1, Taoufik Loukili1, Taoufik El Yazidi2, 13th International Business Information Management Association Conference IBIMA 2009, Marrakech, Morocco, November, 2009

([31](Stop Word and Related Problems in Web Interface Integration, Eduard Dragut, Fang Fang, Prasad Sistla, Clement Yu. بحث منشور على شبكة المعلومات.

([32]( Effects Of Stop Words Elimination For Arabic Information Retrieval: A Comparative Study, Ibrahim Abu El-khair. International Journal of computing and Information sciences.

([33]) أفرد لها البحث السابق نحو 5 صفحات، ضم فيها كل الكلمات «المبنية» و«الحروف» التي لا معنى لها، مثل حروف الجر والاستثناء، و(الضمائر)، و(الروابط) بين الجمل. واعتمد البرنامج Arabic Stemmers على 958 كلمة ككلمات توقفية، واعتمد برنامج arabicstopwords0.3 على 26 ألف كلمة.

([34]) القائمة الخاصة بالكلمات متوافرة على موقع RANKS.NL.

([35]) http://arabicstopwords.sourceforge.net/

([36]) البرنامج متاح مجانا على الموقع، وغير مطلوب التسجيل في الموقع من أجل استخدامه.

([37]) هو قَانُونٌ مَشْهُورٌ فِي الْقِيَاسَاتِ الْبِبْلُيومِتْرِيَّة (Bibliometrics) يَتَعَلَّقُ بِتكْرَارِ الأَلْفَاظِ فِي النُّصُوصِ. وَقَدْ سُمِّيَ هَذَا الْقَانُونُ بِاسْمِ الْعَالِمِ اللُّغَوِيِّ جورج كينجسلي زيبف. وَيُمْكِنُ بَيَانُ هَذَا الْقَانُونِ إِذَا أَحْصَيْنَا عَدَدَ تكْرَارِ كُلِّ كَلِمَةٍ فِي أَحَدِ النُّصُوصِ، ثُمَّ رتَّبْنَا الْكَلِمَاتِ حَسبَ مَرَاتِبِهَا، فَالْكَلِمَاتُ الَّتِي تَتَكَرَّرُ كَثِيرًا تَرِدُ فِي التَّرْتِيبِ أَوَّلا. وَبِهَذَا يُمْكِنُنَا التَّعْبِيرُ عَنْ قواعد زِييف بالْقَانُونَيْنِ التَّالِيَيْنِ: القَانُونُ الأَوَّلُ: قَانُونُ زِيبف لِلْأَلْفَاظِ عَالِيَةِ التَّرَدُّدِ. أَمَّا دَرَجَةُ عُلُوِّ التَّرَدُّدِ فَتَعْتَمِدُ عَلَى النَّصِّ مَحَلّ التَّحْلِيل. وَالْقَانُونُ الأَوَّل: C = f x r حيث: «r» تَكُونُ المرْتَبَةَ الْخَاصَّةَ بِالْأَلْفَاظِ الَّتِي تَتَكَرَّرُ عَدَدَ «f» مِنَ الْمَرَّاتِ و«C» هِيَ المعلمةُ الَّتِي تعتمِد عَلَى النصِّ الجاري تحليلُهُ. بِمَعْنَى أَنَّها تُقَارِبُ الْمُعَادَلَةَ البَسِيطَةَ لِلْقَطْعِ الزَّائِدِ القائمِ «equilateral hyperbola». وَالْقَانُونُ الثَّانِي لِزيبف يَتَعَلَّقُ بِالْأَلْفَاظِ ذَاتِ التَّرَدُّدِ الْمُنْخَفِضِ. وَدَرَجَةُ الِانْخِفَاضِ تَعْتَمِدُ عَلَى النَّصِّ الْجَارِي تَحْلِيلُهُ: N(f2- ¼) = C، حيث: «N» هِيَ عَدَدُ الأَلْفَاظِ الَّتِي تَكَرَّرَتْ كُلٌّ مِنْهَا «f» مَرَّة. «C» هِيَ معلمةٌ تَعْتَمِدُ عَلَى النَّصِّ الْجَارِي تَحْلِيلُهُ. كما ورد قانون زييف الثاني بصيغة أخرى In ÷ I1 = 3 / (4n2 – 1) حيث: In هِيَ عَدَدُ الأَلْفَاظِ الَّتِي تَكَرَّرَتْ n مَرَّة وI1 هِيَ عَدَدُ الْأَلْفَاظِ الَّتِي تَكَرَّرَتْ مَرَّةً وَاحِدَة.

Human behavior and the principle of least effort. Zipf, G. K. (1949). Cambridge, MA: Addison Wesley

([38]) السجل العلمي لندوة استخدام اللغة العربية في تقنية المعلومات، مطبوعات مكتبة الملك عبد العزيز العامة، سلسلة الأعمال المحكّمة (4)، الحاسوب والتعليم، د. حمد عبد الله عبد القادر، ص632.

0 Reviews

Write a Review

مقالات ذات صلة

زر الذهاب إلى الأعلى