الكلمات العربية المستبعدة Arabic Stop Words

Arabic Stop Words

الكلمات المستبعدة


التحميلDownload
الكلمات العربية المستبعدة
Arabic stopwords Download

شارك

الكلمات المستبعدة

الكلمات الشائعة (stop words) أو الكلمات المستبعدة هي الكلمات التي تستبعد قبل المعالجة اللغوية الآلية للبيانات (نصوص). وهي الكلمات التي تتكرر في النصوص مثل (في، من، إلى،...) ويستحسن تجاهلها عدم فهرستها من أجل تحسين البحث.ويرجع الفضل لهانس بيتر لوهن (من الرواد في استرجاع المعلومات) في استعمال هذا المصطلح والمفهوم في التطوير.

وتعتبر هذه الطريقة مقاربة سلبية في التعامل مع الأدوات وحروف المعاني في الجمل. لا توجد قائمة كلمات محددة للاستبعاد، تستعملها كل المحللات الصرفية وأدوات معالجة اللغة الطبيعية. لا تستعمل كل أدوات المعالجة اللغوية قائمة كلمات شائعة. ويمكن للتحليل الصرفي التقليل من استخدام كلمات مستبعدة، لا سيما عند تحليل الجمل.

الكلمات المستبعدة قد تسبب مشاكل عند استخدام محرك بحث للبحث عن العبارات التي تدخل فيها، لا سيما في أسماء مثل 'المفعول به' ، '' ، أو 'رسول من الله"، "وهم".

الكلمات الشائعة

يعتمد الكثيرون من الباحثين عن المستبعدات على جردها جردا يدويا، ومن ثم توليد كل الأشكال الممكنة للكلمة وإدراجها في القائمة، مما يزيد في طول القائمة.

لكن يوجد اختلاف في اعتبار الكلمة مستبعدة، فمثلا يمكن أن تعتبر أسماء الأعداد مستبعدة في نص ما، لكنها تصبح ذات قيمة في نص اقتصادي، وكلمات مثل أسماء الشهور، لها أهمية في النصوص التاريخية، لذا توجب أن يتم تصنيف الكلمات، يمكن للمبرمج فيما بعد أن يحدد ما هي الكلمات التي يريدها.

كما قمنا بوضع قائمة أساسية مصنفة للكلمات، ومن ثم توليد كل الأشكال الممكنة، وذلك حسب التصنيف، فمثلا حروف الجر يمكن أن تتصل بالضمائر، مثل ( إلى، إليه، إليهما، إليهم، إليكم...) بينما لا تتصل أسماء الأفعال بالضمائر.

كما يلجأ المبرمجون إلى إدراج الأشكال المنتظمة للكلمات مثل توحيد شكل الهمزة والتاء المربوطة، وألفات، والألف المقصورة، وهذا يمكن أن يتم برمجيا ابتداء من القائمة الأساسية.

المراجع

  1. أنطوان الدحداح، معجم قواعد اللغة العربية،في جداول ولوحات ، مكتبة لبنان ناشرون، 2008.
  2. Leah S. et al Improving Stemming for Arabic Information Retrieval: Light Stemming and Co-occurrence Analysis, Univ. of Massachusetts, Dept. of Computer Science, 2002
  3. Ibrahim Abu El-Khair, Effect of stop words elimination for Arabic information retrieval: a comparative study, Dept of library and information science, faculty of arts, Minia University-Egypt, iabuelkhair@gmail.com, international journal of computing & information sciences, vol. 4 No. 3 December 2006, On-Line.
Taha Zerrouki