المصطلحات الأساسية في لسانيات المدونات
د. عبدالعزيز بن عبدالله المهيوبي
تحليل المُدَوَّنات النصّية | corpus-based analysis |
هو دراسة الظاهرة اللغوية من خلال مجموعة كبيرة من النصوص التي يمكن قراءتها آلياً، حيث تهدفُ إلى دراسة اللغة وتحليلها كما هي ماثلة في سياقاتٍ تزودنا بها النصوص المُقتبسة من العالم الحقيقي. | |
المدونة النصية | Corpus |
بناء كبير من النصوص يستخدم في تحليل اللغة كمّاً وكيفاً. | |
المدونات | corpora |
انظر – المدونة | |
مدونات حاسوبية | computer corpora |
المجموعات الكبيرة من النصوص أو الملفات الصوتية التي تمثل عينة أو تخصص أو شريحة معينة من اللغة، وهذه النصوص تكون غالبا في صيغة إلكترونية يستطيع الحاسب قراءتها والبحث فيها. | |
علم اللغة الحاسوبي | Computational Linguistics |
فرع من علم اللغة التطبيقي يُعْنى بتطويع اللغة للحاسب (الكمبيوتر) واستخدام هذا الحاسب في الدراسات اللغوية وفي دراسة اللغة ذاتها. | |
مدونات نصية خام | Raw corpus |
مجموعات كبيرة وشاملة من النصوص متوفرة إلكترونيا جمعت دون ترتيب أو منهجية | |
مدونات نصية موسومة | Annotated corpus |
مجموعات كبيرة وشاملة من النصوص محللة تحليلًا لغويًا بأية صورة من الصور أو على أي مستوى من المستويات اللغوية ( المعجمي، الصرفي، التركيبي، الأسلوبي) وهذا التحليل تم يدويا عن طريق متخصصين لغويين. | |
مُدَوَّنة وحيدة اللغة | monolingual corpus |
نصوص مكتوب بلغة واحدة فقط | |
مُدَوَّنة ثنائية اللغة | Bilingual corpus |
نصوص مكتوب بلغتين إحداهما اللغة المصدر والأخرى اللغة الهدف | |
مُدَوَّنة متعددة اللغات | Multilingual corpus |
نصوصو مكتوب بلغات متعددة بحيث يتم عمل تنظير بين الجمل المتقابلة في كل اللغات | |
المدونات المتوازية | Parallel corpora |
هي مدونات تحوي نصوصاً أصيلة من لغة من اللغات و ترجمات هذه النصوص في لغة أخرى | |
المدونات المتقابلة | Comparable Corpus |
مجموعة من النصوص بلغتين أو لهجتين مختلفتين. | |
المدونات العامة | General Corpora |
متعددة الأغراض كمُدَوَّنة مدينة الملك عبد العزيز التي تُستخدم لأغراضٍ مُتَعدِّدة، كَصَنَاعة المَعاجم وتصميم برامج مُعالَجة النُّصوص، بالإضافة إلى استخدامها لأغراض تعليميَّة | |
المدونات الخاصة | Specialized Corpora |
تُستَخدَم لِغَرَضٍ مُعَيَّن. كمُدَوَّنة معجم الثروة اللفظية لطلبة المرحلة الابتدائية في المدارس السعودية الَّتي استخدمت لصناعة معجم لتلاميذ المرحلة الابتدائية. (وكثيرٌ مِن صُنَّاع المَعاجم المُتَخَصِّصَة يستخدِمون مُدَوَّناتِهم لأغراض أخرى) كتحديد المتصاحبات، أو التعبيرات الاصطلاحية، وغيرها… | |
مدونات اللغة المكتوبة | Written Corpora |
وهي مدونات نصية تحتوى على مجموعة هائلة من النصوص المكتوبة والمطبوعة مثل النصوص الكاملة للصحف والمجلات والكتب في مختلف المجالات مثل الآداب والسياسة والعلوم والفنون | |
مدونات اللغة المنطوقة | Spoken Corpora |
وهي مدونات صوتية منطوقة تحتوى على تسجيلات آلاف المحادثات والحوارات والخطب ونشرات الأخبار الإذاعية والبرامج الحوارية والمسلسلات والأفلام وغيرها | |
مدونات اللهجات | Dialect Corpora |
مثل المدونات الخاصة بلهجة واحدة كمدونات اللهجة المصرية | |
مدونة لغة المتعلم | Learner |
هي مدونات تحوي نصوصاً أنتجها متعلمو اللغة الأجنبية التي يدرسونها ، و فائدتها هي أن يدرك الباحث الصعوبات التي يمكن أن تقابل متعلم اللغة الأجنبية نتيجة الاختلافات بين سمات لغته الأم و اللغة التي يتعلمها | |
مُدَوَّنة محددة زمنياً | Synchronic Corpora |
كمُدَوَّنة العربية الفصحى (2004) بجامعة مانشستر، وهي محددة من الفترة قبل الإسلام حتى القرن الحادي عشر | |
مُدَوَّنة شاملة مختلفة الفترات | Diachronic Corpora |
كمدونة مدينة الملك عبد العزيز للعلوم والتقنية والتي تبدأ من العصر الجاهلي وحتى العصر الحديث ومن مختلف المناطق والبلدان | |
المدونات الرسميَّة | Standard Corpora |
مدونات مصممة وفقًا لأغراض خاصة كمدونة معجم التلميذ | |
مُدَوَّنة حرة | Free Corpora |
وهي مدونات متاحة على شبكات الاتصال والتي تضم نصوصًا لا نهاية لها | |
مدونات تعليمية | Pedagogic corpus |
وتكون لأغراض تعليمية | |
مدونة متابعة التطورات اللغوية | Monitor corpus |
مثل تلك المدونات التي تهتم بمتابعة تطور المعجم | |
لسانيات المدونات | Corpus Linguistics |
هو ذلك الفرع من اللسانيات الذي يعنى بجمع المادة اللغوية لغرض وصفها وتحليلها ودراستها، وهو يقوم على منهج يرى أن ما يقوله المتكلمون السليقيون للغة المدروسة هو الحجة الحقيقية التي ينبغي الاحتكام إليها في دراسة اللغة | |
معالجة اللغات الطبيعية | Natural Language Processing |
ونعني بها معالجة اللغات البشرية آليـًا على مستوى الحرف والكلمة والجملة | |
المتصاحبات اللغوية ( المتلازمات اللغوية ) | collocation |
هناك أوصاف أو كلمات دائما تقترن بأوصاف أو كلمات أخرى دون سبب ظاهر أو منطقي، مثل تعبيرات (فتح الباب على مصراعيه) و(رأب الصدع) و (العروة الوثقى) ودراسة المدونات اللغوية تفيد للغاية في البحث عن أمثلة هذه المتصاحبات، من أجل تسجيلها في موادها بالمعجم العربي الحديث. | |
الكلمات المفتاحية الدالة في السياق | KWIC ( Key Words In Context ) |
هي الكلمة أو الكلمات التي يُدخلها الباحث في محرك البحث ويتم عرضها داخل سياقاتها | |
كشافات سياقية | concordances |
يُوَفِّر الكشاف السياقي الكثيرَ مِن الوقت والجُهد، إذ يُعيد بِناء نُصُوص المُدَوَّنة اللُّغَوِيَّة لتظهَرَ في صُورةٍ مُنَظَّمةٍ، يسهل التَّعامُلُ معها آلِيّاً، سواءٌ على مُستوى المُفرَدات، أم على مُستوى الجُمَل والتَّراكيب؛ مِن ناحِيةٍ أخرى فالكشاف السياقي يقوم بِعِدَّة وظائِف، منها:
إعادة تعيين النَّصّ المُدرَج بعد حصر المُفردات وترتيبِها. تعيين كلمات النَّصّ المُدرَج ضِمنَ سياقاتِها. تجميع المُفرَدات المُتَماثِلة في حُقولٍ وإعادة ترتِيبِها. كذلك.. يُعطي البَرنامَج عدداً مِن خيارات التَّرتيب (ترتيب المُفردات ألفبائيّاً ترتيباً تصاعُدِيّاً وتنازُلِيّاً، وترتيب المُفردات بحسب أكثرِها شُيُوعاً وبِحسب أقَلِّها شيوعًا). وهُناك العديد من الكشافات السياقية المُتاحة إلكترونِيًّا، والَّتي تدعم اللُّغةَ العربِيَّة، منها على سبيل المِثال: الكشاف السياقي الآليّ Concapp، وقد أنتَجَته مجموعة Chris Greaves. الكشاف السياقي الآلِيّ a ConCorde، وقد صَنَعه Roberts Andrew، ضِمنَ أطروحَته الَّتي نالَ عليها درَجة الدكتوراه من جامِعة ليدز. الكشاف السياقي الآليّ Concordance، وقد أنتَجَته مجموعة R. J. C. WATT. الكشاف السياقي الآليّ MonoConc، وأنتَجَته مجموعة M. B. A. USA. لكِنَّ الكشافات السياقية المُتاحة تُعانِي من مُشكِلاتٍ في تعامُلِها مع نُصُوص اللُّغة العربِيَّة، إذ تتعامَل معها بوصفها مجموعة من الرُّموز المُتلاصِقة، دون مُراعاةٍ للنِّظام الصَّرفِيّ والاشتقاقِيّ للُّغة العربِيَّة |
|
تجميع المدونة | Corpus compilation |
تجميع المدونة هام جدا لارتباطه بالنتائج التي نحصل عليها. ويجب أن نعرف ما هي النصوص الموجودة بها وكيف تم ترميزهم/ كتابة رموز لهم marked up وقدر أنواع النصوص الموجودة وحجم النصوص المختلفة وكيف تم تجمعهم وغير ذلك | |
التعليم | marked up |
ونعني به تحديد بيانات المؤلف وتاريخ الإنشاء والعنوان واللغة والمجال | |
القارئ الآلي ( قارئة المحارف البصرية ) | Optical Character Reader (OCR) |
يقصد بالتعرف الضوئي على الحروف OCR التحويل الميكانيكي أو الإلكتروني لصور الكتابة اليدوية أو الكتابة بالآلة الكاتبة أو النص المطبوع، والتي يتم عادة التقاطها بالماسحة الضوئية إلى نص قابل للتحرير والقراءة في الحاسب. وقد بلغت تقنية التعرف الضوئي على الحروف شأوا كبيرا في اللغات اللاتينية بل لم تعد مشكلة على الإطلاق، وفى اللغة العربية توجد تطبيقات متطورة للتعرف الضوئي على الحروف العربية المطبوعة من صخر غير أنها باهظة التكلفة وقليلة الانتشار. وما زال التعرف الضوئي على الكتابة باليد أو الكتابة المنحنية المتصلة مجالا للبحث النشط سواء في اللغات اللاتينية أو اللغة العربية | |
عزل علامات الترقيم | separate punctuations |
التحشية ( التوسيم ) | Annotation |
ونعني بها تحديد المعلومات اللغوية وإدخالها مثل فئات أو أقسام الكلام والمشتقات والمعلومات النحوية وبناء الجملة والمعلومات الدلالية ومعلومات عن الأسلوب والصوت بصيغة يفهمها برنامج البحث في المدونة، وسائر أدوات معالجة اللغة، وتتضمن معلومات الوصف تمييز حدود الجمل والعبارات والفقرات وفك لبس حدود الجمل من خلال النقطة والمسافة وتمييز الكلمة الجذر ومشتقاتها. | |
المؤلف | author |
ونعني به كاتب النص أو الشاعر أو مؤلف الكتاب …. | |
تاريخ صنع المدونة | date of creation |
تاريخ بداية بناء المدونة | |
المجال | domain |
زنعني به المجال الذي تغطيه المدونة أفقيا ورأسيا | |
اللغة | Language |
لغة المدونة | |
العنوان | title |
عنوان القصيدة أو الكتاب أو النص | |
المشتقات | Lemma |
الاسمية والفعلية | |
تمييز أجزاء الكلام | Part-of-Speech Tagging |
يعد التمييز باستخدام أجزاء الكلام من أهم أنواع تحشية المدونات. والتذييل بأجزاء الكلام هي عملية إلحاق كل مفردة في النص بشفرة code أو ذيل tag يشير إلى جزء الكلام الذي تنتمي إليه. وعادة ما يتم إلحاق جزء الكلام بالمفردة إما باستخدام underscore character مثال: قال_فعل أو باستخدام رمز & مثال : لون& اسم. التذييل باستخدام أقسام الكلام خطوة أولى وأساسية من أجل الإعراب | |
التمييز الصرفي | Tokenization |
يحدد الكلمات وأجزاءها | |
التمييز الإعرابي | Parsing |
عملية تقسيم الجملة إلى أجزاء الكلام التي تنتمي إليها مع توضيح الشكل والوظيفة والعلاقة النحوية للمفردات بعضها البعض. ومن أشهر المدونات المزودة بأجزاء الكلام والإعراب هي مدونة Penn Treebank أصدرتها جامعة بنسلفانيا وتحتوي على 4.9 مليون كلمة. | |
تحشية الرموز الدلالية | Semantic tagging |
تحديد معاني الكلمات.
تحديد العلاقات الدلالية مثل الفاعل والمفعول به الحقيقي والحدث. تحديد الأبواب الدلالية مثل الكلمات التي لا تحمل معنى (ال، وعلى، وفي، و…)- الجسم وأجزاء الجسم – الألوان تحشية الحديث والنص اللغوي Discourse and text linguistic annotation ترميز الأساليب مثل؛ أسلوب اعتذار مثل : آسف ، أسلوب تحية مثل : عمت صباحاً، أسلوب متأدب : من فضلك ، أسلوب استجابة : رائع….. ترميز مرجعية الضمائر: وهذه المهمة تصلح بشريا فقط |
|
فقرة | Paragraph |
تتضمن معلومات وصف المدونة تمييز حدود الفقرات | |
بداية الصفحة | Page breaks |
تتضمن معلومات وصف المدونة تمييز بداية الصفحات ونهايتها | |
علامات المعلومات التعريفية | Identifying information |
مثل: نوع النص كتاب، عنوان النص، المؤلف، الفصل، عنوان الفصل، الفقرة … | |
الآليات المستخدمة في تحليل المدونات | Corpus Analysis Tools |
تتضمن برامج التحليل الصرفي والنحوي والدلالي ….. | |
علامات الترقيم | punctuation |
نستطيع فك لبس حدود الجمل من خلال النقطة | |
قائمة أبجدية | alphabetical list |
يقوم برنامج الكشاف السياقي بعرض كلمات البحث ويرتبها ترتيبا أبجدياً أو تصاعديا أو …. | |
المفهرس ثنائي اللغة | bilingual concordance |
يعمل على النصوص المتوازية | |
مفهرس الموضوعات | topical concordance |
هو عبارة عن قائمة بالموضوعات التي يشملها الكتاب مع ربط فوري بالجزئيات التي تغطي هذه الموضوعات | |
تحليل الكلمات المفتاحية | analyzing keywords |
تحليل كلمات البحث صرفيا ونحويا ودلاليا …. | |
تحليل تكرار الكلمات | analyzing word frequencies |
تساهم المدونات اللغوية في معرفة أكثر الكلمات شيوعا في اللغة العربية على المستويين المنطوق والمكتوب، وذلك من أجل تعليم هذه الكلمات للأجانب وحتى يتمكنوا من فهم المعاجم العربية، ومما لا شك فيه أن معرفة مستوى شيوع كلمة ما يدل على أهميتها في كل اللغة المكتوبة أو المنطوقة، وبالتالي ترشد المتعلم إلى معرفة مدى ضرورة تعلمها أو إغفالها من عدمه. | |
التحليل الصرفي | morphological analysis |
أداة من أدوات التَّحليلِ اللُّغَوِيِّ للنُّصُوص، يُستَخدَم في استرداد جُذور المُفرَدات وتحديد المعلومات الصَّرفِيَّة الخاصَّة بِكُلِّ مُفردةٍ على حِدَة، كما يُستَخدَم في توليد المُشتَقَّات اللَّفظِيَّة مِن الجِذر اللُّغَوِيّ الواحِد، وهُو – بذلك – يُتَمِّم عملَ الكشاف السياقي. وهُناك العديد من المُحلِّلات الصَّرفِيَّة العربِيَّة المُتاحة إلكترونِيّاً، منها على سبيل المِثال:
المُحلِّل الصَّرفِيّ ArabMorpho، وقد أنتَجَته الشَّركة المِصرِيَّة RDI. المُحلِّل الصَّرفِيّ Buckwalter، وقد أنتَجَته مُؤَسَّسَة شبكة البيانات اللُّغَوِيَّة LDC التَّابِعة لجامِعة بنسلفانيا. المُحلِّل الصَّرفِيّ MLTS، وقد أنتَجَته شركة Cimos الفرنسِيَّة |
|
معلومات التكرار | Frequency information |
تلك المعلومات الإحصائِيَّة الَّتي يُمكِن مِن خلالِها مَعرِفة النِّسبَة التَّقريبِيَّة لشيوع الكَلِمة والغَرَض مِن هذه المعلومات تَعلِيمِيٌّ صِرف، إذ تُوَفِّر هذه المعلومات على مُتَعَلِّم اللُّغة الكثيرَ مِن الوَقت والجُهد، إذ سيَتَّجِه أوَّلاً إلى معرِفة أكثر الجُذور اللُّغَوِيَّة شُيُوعاً، فالتي تليها. | |
لغة اصطناعية | Artificial language |
التحليل التقابلي | Contrastive Analysis |
التشفير الصوتي | Phonetic coding |
النص الإلكتروني |
electronic text |
هو أي نص مخزن على جهاز إلكتروني. هذا النص يمكن التعامل معه باستخدام الحاسب |
|
معنى سياقي | |
معنى الكلمة في السياق الذي ترد فيه، حيث لا يمكن فهم الكلمة بمعزل عن الكلمات الأخرى ذات الصلة بها. | |
معنى معجمي | Lexica meaning |
هو معنى الكلمة في المنظومة الكلامية بمعزل عن السياق | |
شيفرة | Code |
المكانز | Thesaurus |
مفردات مقيدة وديناميكية لمصطلحات متصلة مع بعضها البعض ( دلاليا وجنسا) تغطي احد حقول المعرفة مثل التكنولوجيا أو الطب أو النفط أو الزراعة، من المكانز العربية : مكنز الجامعة 1987و مكنز العمل 1989. | |
توليف الكلام ( إنتاج الكلام ) | Speech Synthesis |
من التطبيقات المهمة للمعالجة الآلية للغة، فهو يقوم بقراءة النصوص أو تحويل الكلام المكتوب إلى صوت مسموع وكلام منطوق مفهوم، ويسمى نظام الحاسب (برمجيات أو أجهزة) المستخدم لهذا الغرض بمولف الكلام، ويقوم نظام تحويل النص إلى كلام بتحويل نص اللغة العادية إلى كلام، أما الأنظمة الأخرى فتعمل على تحويل الرموز اللغوية الصوتية إلى كلام. يمكن إنشاء الكلام المولف من خلال ضم أجزاء متسلسلة من الحديث المسجل المخزن في قاعدة بيانات هي المكانز المنطوقة، وتختلف الأنظمة في حجم وحدات الحديث المخزنة، وفى مجالات استخدام معينة، يتيح تخزين كلمات كاملة أو جمل كاملة إنتاج كلام عالي الجودة. وهناك طريقة أخرى هي تضمين نموذج من جهاز النطق وغيرها من خصائص الصوت الإنساني لإنتاج صوت مولف بالكامل.
ويتم الحكم على جودة مولف الكلام بدرجة تماثله مع الصوت البشرى أو بمدى فهمه، ويتيح برنامج تحويل النصوص إلى كلام مفهوم للمكفوفين والمعاقين بصريا الاستماع إلى الأعمال المكتوبة من خلال الحاسب المنزلي، وقد تضمنت العديد من أنظمة تشغيل الحاسب مولفات كلام منذ بداية الثمانينات. المشكلة التي تواجه إنتاج مولفات كلام باللغة العربية هي غياب علامات التشكيل، ولهذا لابد من إنتاج المشكل الآلي حتى يمكن تحويل النصوص العربية إلى كلام منطوق. |
|
تمييز الكلام ( التعرف على الكلام ) | Speech Recognition |
يختلف هذا التطبيق Speech Recognition عن توليف الكلام في أنه لا يتعرف على نص مكتوب ويحوله إلى كلام منطوق، بل يستمع إلى صوت مسموع ويقوم بالتعرف عليه وتحديد هوية صاحبه، من خلال تحويل الصوت إلى رموز تفهمها الآلة وتتعرف عليه، وهو يختلف كذلك عن مصطلح التعرف على الصوت Voice Recognition ويقصد به التعرف على صوت المتحدث نفسه وليس الكلام الذي يقوله. ومن تطبيقات فهم الكلام الاتصالات الصوتية وتوجيه المكالمات والتحكم في الأجهزة المنزلية والبحث في المحتوى بالصوت وإدخال البيانات البسيطة وإعداد المستندات المنظمة وتحويل الكلام إلى نص مكتوب وفى كابينات القيادة بالطائرات.
|
|
الذكاء الاصطناعي | artificial intelligence |
العلم الذي يجعل الآلات تقلد تفكير وسلوك البشر، بما يجعل النظام الآلي قادرا على أداء وظائف تقترن غالبا بالمفهومية البشرية والذكاء الإنساني، مثل اتخاذ القرارات نتيجة للتحليل والاستدلال الفعلي والتعلم والتعديل الذاتي. وعموما فالذكاء الاصطناعي يهتم بدراسة استخدام الكمبيوتر لمحاكاة التفكير عند الإنسان. فهو يهتم ببناء برامج للكمبيوترات يمكنها حل المشاكل بطريقة خلاقة، بدلا من تنفيذ البرامج خطوة بخطوة كالبرامج التقليدية.
ومن هذه البرامج ما يُعرف بالإجابة على الأسئلة؛ حيث يُعد هذا التطبيق من التطبيقات المنتمية لاسترجاع المعلومات، حيث يفترض بالحاسب أن يستطيع الإجابة على أية أسئلة باللغة العادية من خلال البحث في مجموعة ضخمة من المستندات والوثائق، وتتطلب الإجابة على الأسئلة وسائل معالجة آلية متقدمة للغات مثل استرجاع المستندات، ويعتبرها الكثيرون المرحلة التالية بعد محركات البحث، حيث تقوم بطرح سؤال عادى عن شيء معين، وينبغي على الحاسب أو محرك البحث أن يعرض الإجابة فقط أو المستندات التي تحوى الإجابة فقط. |
|
الكفاية اللغوية | competence |
هي المعرفة الضمنية بقواعد اللغة، وهي قائمة في ذهن كل من يتكلم اللغة. | |
الأداء الكلامي ( الإنجاز ) | Performance |
هو ما يبلغه متكلم أو سامع معين عند مباشرته الفعلية للغة. | |
التوسيم الآلي | Automatic tagging |
ومن أهم برامج التوسيم الآلي التي تدعم اللغة العربية، برنامج (Arabic tagger)
يعمل مباشرة على النص العربي حيث بُني من تركيب تقنيات القواعد اللغوية والقواعد الإحصائية الرموز وهو عبارة عن 177 رمزا مبنية على توصيف النحو التقليدي للغة العربية؛ ولهذا فهي تنقسم لثلاثة أجزاء رئيسة الأسماء والأفعال والأدوات أما الظروف وحروف الجر فتعامل كجزء من الأجزاء الرئيسة. والرموز توضع على الكلمة كاملة أي الكلمة بزوائدها تم عمل مجزئ للكلمة مبني على مرمز صرفي ومرمز إحصائي. وظيفة المجزئ هي رفع الزوائد وتحديد جذر الكلمة ويتم هذا في مرحلة أخري. وبما أن الباب النحوي للكلمة يحَدَد من خلال الزوائد فإن الرموز تحدد من خلال المجزئ. وقد ثبتت دقته بنسبة 97% باستخدام قاموس يحوي 4,748 جذر ثلاثي ورباعي. أما بالنسبة للكلمات اللبسية فعولجت عن طريق الإحصاء وقد عومل عن طريق الاحتمالات المعجمية والاحتمالات السياقية. وقد نجح المرمز الإحصائي في فك اللبس بمعدل 90%. ولرفع مستوى الدقة استخدم ترميز يدوي. كما احتاج لعمليات معالجة قبلية للمركبات فوصل المستوى العام للدقة 86%. |
|
فن صناعة المعاجم ( المعجمية التطبيقية ) | Lexicography |
وهو الفرع التطبيقي لعلم المعاجم Lexicology ويدرس فن صناعة المعجم وتأليفه ؛ من حيث طرق ترتيب المفردات ، واختيار المداخل ، وإعداد التعريفات والشروح للكلمات داخل المعجم ، والصور والنماذج المصاحبة للشروح ، وغير ذلك من العمليات الفنية حتى يتم إخراج المعجم في صورته النهائية.
تساعد المدونات اللغوية على معرفة معلومات غاية في الأهمية لبناء المعجم وهى متابعة الكلمات الجديدة التي تدخل اللغة وتحديد وقت دخولها، ومعرفة الكلمات الموجودة بالفعل التي اكتسبت معنى جديدا، ونجد أن أغلب قواميس ومعاجم اللغة الإنجليزية تحتوى على تواريخ مفصلة لكل كلمة وأصلها اللغوي ومتى تم نحتها أو استخدامها لأول مرة، وبمساعدة المدونات الإلكترونية يستطيع خبراء صناعة المعاجم البحث في ملايين الجمل والسياقات المختلفة واستدعاء جميع الأمثلة لكلمة معينة لمعرفة استخداماتها والألفاظ التي ترد عادة قبلها أو بعدها من أجل تحديد التعبيرات الاصطلاحية والمتتاليات اللغوية، الأمر الذي يسهل تعلم اللغة على الأجانب |
|
عِلْمُ المعَاجِمِ النّظَرِيّ | Lexicology |
وهو يدرسُ ويحلِّلُ الدلالة المعجمية للكلمات؛ من حيث طبيعتها ومكوناتها وتطورها وتغيرها، ولذلك فهو يتداخل أحيانا مع علم الدلالة لاشتراكهما في بعض الموضوعات ، ولكنه أضيق مجالا من علم الدلالة إذ لا يهتم علم المعاجم بوضع النظريات الدلالية ، وإنما يكتفي بدراسة دلالة الكلمات وأنواع الدلالة وما يتصل بذلك | |
علم المصطلح | Terminology |
العِلم الذي يبحث في العلاقة بين المفاهيم العلميّة والألفاظ اللغوية التي تعبّر عنها | |
تحليل الخطاب | Discourse Analysis |
يهدف تحليل الخطاب إلى فك شفرة النص بالتعرف على ما وراءه من افتراضات أو ميول فكرية أو مفاهيم؛ فتحليل الخطاب عبارة عن محاولة للتعرف على الرسائل التي يود النص أن يرسلها، ويضعها في سياقها التاريخي والاجتماعي، وهو يضمر في داخله هدف أو أكثر، وله مرجعية أو مرجعيات وله مصادر يشتق منها مواقفه وتوجهاته. | |
تحليل النصوص | Text Analysis |
لا يختلف عن تحليل الخطاب، ولكن هناك من يجعله موجها للغة المكتوبة | |
تحليل كمي ( إحصائي ) آلي | |
الإحصاء اللغوي الذي يتم على المدونات يمكن أن يثري معالجة اللغات الطبيعية ومن بعض إسهاماته:
1- المستوى الصرفي: – التحليل والتوليد الصرفي الآلي. – تصحيح الأخطاء الإملائية الناتجة عن الصرف. 2- المستوى النحوي: – التحليل النحوي وتفكيك الجملة لعناصرها النحوية الأولية “مبتدأ، خبر، فعل، فاعل– التشكيل الآلي للنصوص. – تعليم النحو للصغار ولغير الناطقين بالعربية باستخدام الحاسوب. 3- المستوى الدلالي: – الترجمة الآلية. – الفهم الآلي للنصوص. – دراسة الترابط النصي في النصوص الحديثة. – تحديد المفردات الأكثر شيوعًا. – تحديد المترادفات الأكثر شيوعًا، وكذلك الأضداد والمتضادات، وجميع الظواهر اللغوية الأخرى. – تحديد الأخطاء اللغوية الشائعة في الكتابات المعاصرة. |
|
تحليل نوعي | |
محاولة تفسير الظاهرة اللغوية، مثل تفسير الباحث لشيوع نوع معين من الكلمات أو التراكيب في جنس معين من النصوص، ومثل تفسير ظاهرة استخدام المبني للمجهول في اللغة العلمية أكثر من غيرها | |
عِلْمُ النّحْوِ أو عِلْمُ النّظْم | Syntax |
ويدرس أحكام وقوانين نظم الكلمات داخل الجمل والعبارات ، وأنواع الجمل والعلاقات النحوية التي تربط بين مكونات الجمل ، وهو جزءٌ من علم القواعد Grammar الذي يشمل هذا العلم بالإضافة إلى علمِ الصرف
يمكن الاستفادة من المدونات في دراسة الملامح الصرفية والبحث عن السوابق واللواحق المعينة التي تدخل على الكلمة فكلمة (علم) تتعدد معانيها بإضافة سوابق أو لواحق مختلفة لتصبح (علمية، علمتنا، علماء، تعليم، علوم)، بجانب تحديد توزيع الكلمة وموقعها في الجملة، وهل تأتى قبل الاسم أم بعد الاسم، وقبل الصفة أم بعد الصفة |
|
عِلْمُ الدّلالة | Semantics |
يدرس الطبيعة الرمزية للغة ، ويحلل الدلالة من حيث علاقتها بالبنية اللغوية ، وتطور الدلالة وتنوعها ، والعلاقات الدلالية بين الكلمات ، والحالات الدلالية وغير ذلك
في السنوات الأخيرة، ظهر اتجاه جديد يعتمد على استخلاص معنى الكلمة من المدونات اللغوية، وتتنوع المعلومات الدلالية بين الترادف والتضاد إلى علاقات أكثر تعقيدا، ويمكن استخلاص هذه المعلومات بسهولة من المدونات اللغوية، وينبغي التنبيه، أنه يشترط لاستخراج هذه المعلومات أن تكون المدونات شاملة وكاملة بقدر المستطاع، حتى لا يتسرب معنى أو استخدام لا توجد أمثلة له في المدونة. |
|
عِلْمُ اللّغةِ التّعْلِيْمِيُّ | Pedagogical Linguistics |
ويهتم هذا العلم بالطرق والوسائل التي تساعد على تعليم اللغة الأم أو اللغات الأخرى التي يتعلمها الطلاب في المدارس ، بالاستفادة من نتائج علم اللغة ؛ الصوتية والصرفية والنحوية والدلالية ، كما يعد البرامج والخطط التي تؤهل معلم اللغة للقيام بواجبه على الوجه الأكمل سواء بنفسه أو بمساعدة المعامل اللغوية.
ويمكننا الإفادة من المدونات اللغوية في تحسين تعليم اللغات الأجنبية؛ فنقوم بتحليل مدى تكرار وشيوع الكلمات ومعرفة تأثير السياق أو الموقف على أسلوب اللغة وهى معلومات مفيدة للغاية في وضع مناهج تعليم اللغة العربية سواء للطلاب الأجانب أو العرب أنفسهم. أيضا باستخدام المدونات اللغوية، يستطيع واضع المراجع والمواد إنشاء تمرينات تعتمد على أمثلة حقيقية تقدم للطلاب فرصة اكتشاف خصائص استخدام اللغة. وبدلا من الاعتماد على البحث في معاجم تقليدية قديمة، يستطيع الطلاب البحث بأنفسهم في برامج المدونات اللغوية من خلال برنامج بحث وإحصاء لغوى متخصص (concordance) ويكتشفون بأنفسهم استخدامات اللغة وقواعدها وخصائصها، ويشجع ذلك على استقلال الطلاب في التوصل إلى نتائج جديدة بدلا من تعليمهم نتائج متوقعة أو معروفة مسبقا. |
|
عِلْمُ اللّغةِ الاجْتِمَاعيُّ | Sociolinguistics |
يدرس عِلْمُ اللّغةِ الاجْتِمَاعيُّ اللهجات الاجتماعية أو الطبقية في كل مجتمع لغوي من حيث خصائصها الصوتية والصرفية والنحوية والدلالية ، وتوزيعها داخل هذا المجتمع ودلالتها على المستويات الاجتماعية المختلفة ، أي يدرس اللغة على المستوى الرأسي ، كما يدرس أيضا مشاكل الازدواج اللغوي مثل الفصحى والعامية وبصورة عامة يدرس التأثير المتبادل بين اللغة والمجتمع.
وفى عِلْمُ اللّغةِ الاجْتِمَاعيُّ، ينصب التركيز على تأثير العمر والنوع والطبقة الاجتماعية والمهنة في استخدام الأفراد للغة، ولا يمكن دراسة ذلك بشكل سريع ودقيق إلا في المدونات اللغوية التي تفيد أيضا في دراسة الأسلوب وتأثره بالمقام أو مقتضى الحال، فالكتابات الأدبية تختلف عن الكتابات السياسية، والكتابات التعليمية تختلف عن المحادثات العادية، وهكذا، وفى كل الأحوال، ينبغي أن تتسم المدونات اللغوية بالشمول، حتى تكون النتائج التي يتم استخلاصها من الدراسة دقيقة وواقعية. |
|
المقاميات ( التداولية ) | Pragmatics |
فرع من علم اللغة يبحث في كيفية اكتشاف السامع مقاصد المتكلم أو هو دراسة معنى المتكلم؛ فمثلاً حين يقول شخص: أنا عطشان (فقد يعني أريد كوب ماء) وليس من الضروري أن يكون إخباراً بأنه عطشان. ومن هنا فالمتكلم كثيراً ما يعني أكثر مما تقوله كلماته. | |
التنقيب فى النصوص | |
يقصد به عملية استخلاص معلومات عالية الجودة من النصوص، وتستمد المعلومات عالية الجودة من تقسيم الأنماط والاتجاهات من خلال وسائل مثل التعلم الإحصائي للأنماط. وتتضمن عملية التنقيب في النصوص هيكلة النصوص المدخلة من خلال الإعراب (الفك إلى الوحدات اللغوية) مع إضافة مزايا لغوية مشتقة وإزالة مزايا أخرى والإدخال التالي في قاعدة البيانات واشتقاق الأنماط داخل البيانات المهيكلة وفى النهاية تقييم وتفسير المخرجات. تتضمن مهام التنقيب في النصوص تصنيف النصوص وعنقدتها واستخراج المفاهيم والهويات وإنتاج التصنيفات المتدرجة وغيرها. وتستخدم تقنيات التنقيب في النصوص في تطبيقات الحماية والرعاية الطبية والبرمجيات والتطبيقات وتحسين نتائج البحث وأغراض التسويق والتطبيقات الأكاديمية. | |
يعتبر هذا التطبيق من التطبيقات المنتمية استرجاع المعلومات، حيث يفترض بالحاسب أن يستطيع الإجابة على أى أسئلة باللغة العادية من خلال البحث فى مجموعة ضخمة من المستندات والوثائق مثل شبكة الويب العالمية، وتتطلب الإجابة على الأسئلة وسائل معالجة آلية متقدمة للغات مثل استرجاع المستندات، ويعتبرها الكثيرون المرحلة التالية بعد محركات البحث، حيث تقوم بطرح سؤال عادى عن شىء معين، وينبغى على الحاسب أو محرك البحث أن يعرض لك الإجابة فقط أو المستندات التى تحوى الإجابة فقط، وبعض الخبراء يقولون إن الإجابة على الأسئلة لن تكون ممكنة إلا بعد تطوير الويب الدلالية خلال السنوات الخمس أو العشر المقبلة، وحتى الآن ما زالت الإجابة على الأسئلة المنطوقة شكل من أشكال الخيال العلمى حيث يسأل الكابتن السفينة الفضائية عن أى شيء وتجيبه بصوت أنثوى رصين | |
المترادفات | |
تحوى اللغة كلمات عديدة تُعد مترادفات لبعضها البعض، ومن خلال المدونة اللغوية يستطيع الباحث بسهولة معرفة مترادفات الكلمة ومعدل شيوعها. | |
الشيوع | |
تساهم المدونات اللغوية في معرفة أكثر الكلمات شيوعا في اللغة العربية على المستويين المنطوق والمكتوب، وذلك من أجل تعليم هذه الكلمات للأجانب وحتى يتمكنوا من فهم المعاجم العربية، ومما لا شك فيه أن معرفة مستوى شيوع كلمة ما يدل على أهميتها في كل اللغة المكتوبة أو المنطوقة، وبالتالي ترشد المتعلم إلى معرفة مدى ضرورة تعلمها أو إغفالها من عدمه. |