استخراج جملات کلیدی در متون فارسی و انطباق با مستندات قرآنی و روایی
طیبه جمالی
چکیده
هر چه حجم داده ها بیشتر و روابط میان آن ها پیچیده تر باشد، دسترسی به اطلاعات نهفته در میان داده ها مشکلتر می شود و نقش روش های کشف و تحلیل داده ها از اسناد مختلف روشن تر می شود. یکی از این روش ها، راهکار بسيار موثر استخراج کلمات کليدي است که بيانگر مضمون و محتوای اصلي متن است. در این مقاله راهکاری جدید ارائه شده است، که هدف آن، استخراج جملات کليدي با در نظر گرفتن کلمات ترکیبی کلیدی و همچنین انطباق داده های ورودی بلاخص مستندات فارسي با مستندات قرآنی و روایی، به منظور طبقه بندي کارآمد آن ها و کشف حقانیت هدفمند جهان آفرینش برای حق جویان می باشد. براساس بررسي هاي انجام گرفته بر روي چندین سند فارسی و مقايسه نتايجِ بدست آمده با روش هاي ديگر، اين روش مي تواند جملات کليدي موجود در متون را با دقت و سرعت بيشتري استخراج نمايد به گونه اي که اين جملات کليدي، بيانگر مضمون اصلي متن می باشند. سپس با تطبیق این جملات با متون دینی و روایی به یک تعامل دوسویه علم و دین دست می یابیم.
كلمات كليدي: مستندات قرآنی و روایی، اسناد فارسی، طبقه بندی، عمليات استخراج، جملات کليدي، محتوا
مقدمه
دنیای بشدت رقابتی امروز را عصر اطلاعات، عصر ارتباطات و انفورماتیک یا عصر فراصنعتی نامیده اند. اطلاعات و داده ها در چنین جامعه فراصنعتی بعنوان یکی از فاکتورهای تولیدی مهم محسوب می شوند و عمده ترین معیار توسعه و پیشرفت اقتصادی به شمار می روند. با رشد روز افزون اسناد و متون الکترونيکي به زبان فارسي، به کارگيري روش هايي سريع و ارزان براي دسترسي به متون مورد نظر از ميان مجموعه وسيع اين مستندات، اهميت بيشتري مي يابد. این اهمیت زمانی بیشتر مورد توجه قرار می گیرد که بدانیم بسیاری از علوم و اطلاعات اعم از علمی، نجومی، پزشکی، فرهنگی، اجتماعی، اقتصادی، فلسفی، سیاسی، اخلاقی و مذهبی و… به وفور در قرآن و معارف دینی و سنت اسلامی یافت می شود. و با اذعان به اینکه افراد زیادی جهت دستیابی به حقایق مختلف در این زمینه ها با توجه به مستندات دینی و اسلامی، بیشتر پی به حقیقت نظامند و هدفمند جهان آفرینش و خلقت می برند؛ در نتیجه تلاش برای استخراج اطلاعات از داده ها توجه بسیاری از افراد دخیل در صنعت اطلاعات و حوزه های وابسته را به خود جلب نموده است. استراتژی ها و فنون متعددی برای گردآوری، ذخیره، سازماندهی و مدیریت کارآمد داده های موجود و رسیدن به نتایج معنی دار بکار گرفته شده است.
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده های ذخیره شده در این سیستم ها، با استفاده از پرس و جوهای ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آن ها بپردازند؛ اما هنگامی که حجم داده ها زیاد باشد، کاربران هر چند زبر دست و با تجربه باشند، نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم باشند، هزینه عملیات بسیار بالا است. از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس براساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند، در حالی که امروزه نیازمند روش های جدید جهت کشف دانش هستند، یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند.
در این مقاله به ارائه روشی جهت استخراج کلمات و جملات کلیدی و انطباق متن ارائه شده (به سیستم نرم افزاری) با متون و مستندات قرآنی و روایات اهلبیت علیهم السلام با تأکید بر تسریع در تحلیل محتوا و مضمون اصلی مستندات فارسی با کمک کلمات و جملات کلیدی، می پردازیم. قابل ذکر است هر عبارت یا کلمه مهمی که محتویات درون سند را مشخص نماید کلمه یا لغت کلیدی نامیده می شود، بنابراین استخراج کلمات کلیدی تکنیکی مهم جهت بازیابی اسناد، صفحات وب، دسته بندی اسناد، خلاصه سازی، استخراج متن، جستجو در اسناد و … می باشد.
پژوهش های بسیاری پیرامون دسته بندی و تحلیل اسناد فارسی انجام گرفته و راهکارهای متنوعی نیز ارائه شده است. از جمله در مقاله « استفاده از شبکه های عصبی CC4 برای رده بندی اسناد فارسی» نیز شبکه عصبی CC4 به عنوان یک راهکار جهت رده بندی اسناد فارسی مورد بررسی قرار گرفته است. در این روش ابتدا کلمات ریشه یابی شده و سپس ویژگی های آماری کلمات به دست آمده و جهت رده بندی اسناد را در یک فضای K بعدی نگاشت می کند. هم چنین در مقاله « مقايسه دسته بندي متون فارسي با استفاده از الگوريتم هاي KNN و FKNN و انتخاب ويژگي ها براساس بهره اطلاعات و فرکانس سند » نویسنده به بررسی دسته بندی متون فارسی با کمک دو الگوریتم kNN و fkNN پرداخته و هر سند را به یک طبقه ی از پیش تعریف شده منسوب می کند.
1- استخراج کلمات کلیدی
روش های مختلفی برای استخراج کلمات کلیدی وجود دارند از جمله: روش های آماری، روش های نحوی، روش های ساختاری و روش های ادراکی. ( آنالویی مرتضي، 1386)
در این مقاله استخراج کلمات کلیدی برای متون فارسی با استفاده از روش آماری صورت گرفته است. ساختاری که در این پژوهش مورد بررسی قرار گرفته شامل چهار بخش اصلي می باشد:
الف) مراحل پيش پردازش که شامل حذف لغات اضافه و اختصاص وزن (Wi) به هر یک از لغات موجود در سند می باشد.
ب) عمليات استخراج کلمات کليدي (تک لغوی و ترکیبی) براساس اوزانی است که در مراحل قبلی به هر یک از لغات اختصاص داده شده است؛ و اِعمال این اوزان در ماتریس کلمات کلیدی به استخراج کلمات کلیدی ترکیبی منجر شده و نهایتاً با کمک این کلمات و ترکیبات کلیدی به بررسی جملات کلیدی سند پرداخته می شود.
ج) براساس چینش جملات کلیدی در کنار یکدیگر، در نهایت به چکیده دست می یابیم.
د) در مرحله پایانی پس از دادن متن موردنظر به سیستم برای استخراج کلمات و جملات کلیدی و در نهایت ارائه چکیده از متن ورودی موردنظر، معادل و در راستای این چکیده حاصله، آیات و روایت متناسب با آن در اختیار کاربر قرار می گیرد. ( البته قابل ذکر است که بایستی در ابتدا منابع مختلفی از متون دینی و روایی و قرآنی در حافظه سیستم موجود باشد.)
در ادامه مراحل مورد نیاز برای این چهار بخش به تفکیک ارائه شده است.
2- حذف کلمات عمومی
در اولین مرحله برای سند مورد نظر، یک پیرایش اولیه با حذف افعال ربطی و پرتکرار، حروف اضافه و قیود و علائم نگارشی و… صورت می گیرد. در این بخش از دو لیست کلمات عمومی و برخی افعال پرتکرار مطابق جداول 1 و 2 برای حذف استفاده شده است. این افعال و حروف از جمله مواردی هستند که در تمام اسناد فارسی به وفور یافت شده و بدین جهت از اهمیت ناچیزی برخوردار هستند. با حذف این کلمات عمومی از متن، حجم متن کم شده و سرعت محاسبات بیشتر می گردد.
جدول 1 - کلمات عمومی ( حروف و قیود پر تکرار)
از
اگر
البته
اما
اند
این
آن
آنها
باید
بدین
بر
براساس
برای
بسیار
به
تا
چون
خود
در
دو
دیگر
را
زیر
زیرا
فراوان
قبلا
که
ما
می
نمی
نیز
و
وی
ها
های
هر
هم
همچنین
یا
یک
جدول 2 - کلمات عمومی ( افعال پر تکرار )
است
آمد
آمدم
آمدن
آمدند
آمده
آمدی
آمدید
آمدیم
آورد
آوردم
آوردن
آوردند
آورده
آوردی
آوردید
آوردیم
آورم
آورند
آوری
آورید
آوریم
آید
آیم
آیند
آیی
آیید
آییم
باش
باشد
باشم
باشند
باشی
باشید
باشیم
باید
بتوان
بتواند
بتوانم
بتوانی
بتوانند
بتوانید
بتوانیم
بخواه
بخواهد
بخواهم
بخواهند
بخواهی
بخواهید
بخواهیم
بکن
بکند
بکنم
بکنند
بکنی
بکنید
بکنیم
بگو
بگوید
بگویم
بگویند
بگویی
بگویید
بگوییم
بگیر
بگیرد
بگیرم
بگیرند
بگیری
بگیرید
بگیریم
بود
بودم
بودن
بوده
بودی
بودید
بودیم
بیا
بیاب
بیابد
بیابم
بیابند
بیابی
بیابید
بیابیم
بیاور
بیاورد
بیاورم
بیاورند
بیاوری
بیاورید
بیاوریم
بیاید
بیایم
بیایند
بیایی
بیایید
بیاییم
تواند
توانست
توانستم
توانستن
توانستند
توانسته
توانستی
توانستند
توانستیم
توانم
توانند
توانی
توانید
توانیم
خواست
خواستم
خواستن
خواستند
خواسته
خواستی
خواستید
خواستیم
خواهد
خواهم
خواهند
خواهی
خواهید
خواهیم
داد
دار
دارد
دارم
دارند
داری
دارید
داریم
داشت
داشتم
داشتن
داشتند
داشته
داشتی
داشتید
داشتیم
شد
شده
شود
کرد
کردم
کردن
کردند
کرده
کردی
کردید
کردیم
کن
کند
کنم
کنند
کنی
کنید
کنیم
گرفت
گرفتم
گرفتن
گرفتند
گرفته
گرفتی
گرفتید
گرفتیم
گفت
گفتم
گفتن
گفتند
گفته
گفتی
گفتید
گفتیم
گوید
گویم
گویند
گویی
گویید
گوییم
گیرد
گیرم
گیرند
گیری
گیرید
گیریم
می شود
هست
هستم
هستند
هستی
هستید
هستیم
یابد
یابم
یابند
یابی
یابید
یابیم
یافت
یافتم
یافتن
یافتند
یافته
یافتی
یافتید
یافتیم
3- ریشه یابی کلمات و استخراج کلمات کلیدی تک لغوی
در این مرحله، گروه کلمات هم خانواده با ریشه یابی کلمات، با استفاده از الگوريتم N-Gram مشخص شده و استخراج می شوند. هدف از ریشه یابی، حذف اضافات از کلمه و رسیدن به ریشه ي اصلی کلمه می باشد.
روش هاي مختلفی براي ریشه یابی کلمات فارسی پیشنهاد شده است. همچنین در این مرحله می بایست کلمات کلیدی تک لغوی استخراج شوند، که جهت این امر لازم است فراوانی لغات (TF) را بدست آورد؛ البته برای بدست آوردن فراوانی باید توجه داشته باشیم که، فراوانی (TF) یا براساس لغاتی است که در سایر اسناد نیز به وفور یافت می شوند، که اصطلاحاً به آن ها لغات اضافه گویند (لغاتی در مرحله نخست حذف می شوند) و یا تعدد و تکرر این لغات فقط در سند فعلی وجود دارد و در بقیه اسناد این فراوانی مقدار ناچیزی است که اصطلاحاً به این لغات، لغات اصلی گویند (که مد نظر ما نیز این لغات می باشند.)
« برای بدست آوردن این فراوانی از رابطه ی (1) استفاده شده است:
(1)
k =1,2,…,|T|
i =1,2,…,N
بطوریکه:
- TF(di,tk) ماتریس فراوانی کلمات در اسناد
-fred(di,tk) فراوانی کلمه tk ام در سند di ام
- N(di) تعداد کل کلمات موجود در سند
- N تعداد کل اسناد
- |T| تعداد کلمات موجود در فرهنگ لغت
- tk نشانگر کلمه k ام در فرهنگ لغت است
حال جهت به دست آوردن وزن هر لغت می بایست بردار وزن را به صورت رابطه ی (2) ایجاد نمود:
(2)
بطوریکه:
- W(tk) : ماتریس وزن کلمه در سند
- TF(di,tk): فراوانی کلمه tk ام در سند di ام
- N : تعداد کل اسناد
- DF(tk): تعداد اسنادی که کلمه tk در آن ها وجود دارد.
البته می توان فراوانی معکوس (IDF) هر لغت را نیز محاسبه کرد و در محاسبه وزن در لغت از ترکیب فراوانی (TF) و فراوانی معکوس (IDF) استفاده نمود.
پس از ایجاد بردار Wi، در این بردار لغاتی که دارای وزن بیشتری می باشند به عنوان لغات با اهمیت تر شناخته می شوند. حال بردار KW را که حاوی کلمات کلیدی با بیشترین وزن می باشد ایجاد می کنیم. در واقع وزن های کم را حذف می نماییم. این بردار حاوی M لغت کلیدی و غیر تکراری می باشد.
4- پیمایش سند و مقدار دهی به عناصر ماتریس
در این مرحله، می بایست متن سند اولیه را لغت به لغت مورد پیمایش قرار دهیم. برای این منظور تابع Cmp(ti , ti+1) عمل مقایسه را با خروجی های زیر انجام می دهد(ti , ti+1) دو لغت پشت سرهم می باشند:
0
Wti+Wti+1
0
- اگر ti یکی از لغات جداول 1 و 2 باشد.
- اگر یکی یا هر دو لغت ti و ti+1 در ماتریس KWM موجود نباشند.
- اگر لغت ti و ti+1 هر دو در ماتریس KWM باشد.
الگوریتم زیر خلاصه ای از نحوه مقداردهی به درایه های ماتریس KWM می باشد:
for each token di in original document
{
wcmp = Cmp(di , di+1);
KWM = KWM + wcmp;
}
بطوریکه:
r : سطر متناظر با لغت di می باشد
c : ستون متناظر با لغت di+1 یا di+2) ) می باشد
dM
…
d3
d2
d1
0
0
0
0
d1
0
…
0
0
0
d2
0
0
0
0
d3
⁞
⁞
⁞
0
…
0
0
0
dM
تصویر 1. ماتریس KWM.
سطرها لغات پیشین و ستونها لغات پسین
بدیهی است در ماتریس حاصل، وزن درایه های قطر اصلی صفر می باشد، زیرا ترکیب هر لغت با خودش غیر قابل قبول است.
5- استخراج کلمات کلیدي تک لغتی و دو لغتی
استخراج کلمات کلیدی تک لغتی در مرحله قبل و در بردار KW صورت گرفت. حال جهت استخراج کلمات کلیدی ترکیبی دو لغتی، می بایست تمامی درایه های ماتریس KWM (البته بجز قطر اصلی) که دارای وزنی بیشتر هستند را در بردار KW2 قرار داده و سایر درایه هایی که دارای وزن صفر و یا وزنی به مراتب پایین تر از سایر درایه ها هستند را حذف نماییم.» (حسینی خوزانی سیدمحمد ،1389)
6- استخراج جملات کلیدی
در اینجا برای جدا سازی جملات فرض شده است که هر جمله با یکی از علائم “. ؛ ؟ ! ” به پایان می رسد. می توان جملات سند را از یکدیگر تفکیک کرد، که البته می توان این مرحله را قبل از اولین مرحله انجام داد و نتایج آن را در این مرحله استفاده کرد.
با مشخص شدن جملات متن اولیه، حال می توان جملات کلیدي سند را استخراج نمود. تشخیص جملات کلیدی بر این اساس است که باید مشخص کنیم هر یک از جملات دارای چه وزن کلیدی می باشد، برای اینکار وزنی را به هر جمله اختصاص می دهیم. این وزن با توجه به تعداد لغات کلیدی (تک لغتی یا دو لغتی) که در آن جمله به کار رفته است و به صورت رابطه (3) محاسبه می شود:
(3)
بطوریکه:
- WSi : وزن جمله iام
- NKWi : تعداد کلمات کلیدی تک لغوی جمله iام
- NKW2i : تعداد کلمات کلیدی دو لغوی جمله iام
-∑ WKW : مجموع وزن لغات کلیدی تک لغتی
-∑ WKW2 : مجموع وزن لغات کلیدی دو لغتی
جملاتی که دارای بیشترین وزن (WSi) هستند را به عنوان جملات کلیدی در نظر می گیریم.
7- استخراج چکیده و تطبیق سازی با آیات و متون روایی
این مرحله که مرحله نهایی محسوب می شود، با توجه به جملات کلیدی که در مرحله قبل بدست آمد، با چینش این جملات در کنار یکدیگر، به چکیده حاصل از متن ورودی به سیستم دست پیدا می کنیم.سپس از طریق برنامه ساختار جستجویی، از میان مستندات قرآنی و روایی مختلفی که در ابتدا در اختیار سیستم قرار گرفته و در حافظه سیستم موجود می باشد، در راستای چکیده حاصل از متن موردنظر، آیات و روایات مربوطه به همراه چکیده در اختیار کاربر قرار می گیرد.
استنتاجات
اصولاً کلمات ترکیبی به جهت گستردگی که در زبان فارسی دارند نقش موثری در اسناد فارسی و به تبع آن در تحلیل محتوا و مضمون این اسناد ایفا می کنند، ساختاری که در این مقاله مورد بررسی قرار گرفت، نسبت به سایر پژوهش های انجام گرفته در این زمینه دارای وجه تمایز خاصی است؛ از آن جهت که علاوه بر استخراج کلمات کلیدی تک لغوی، کلمات کلیدی دو لغوی را نیز استخراج می کند. همچنین، در این مقاله به استخراج جملات کلیدی نیز پرداخته شده است که این خود منجر به استخراج چکیده ای از سند می شود. و دیگر اینکه مطابق سازی چکیده استخراج شده با مستندات قرآنی و روایی.
همچنین می توان برای استخراج کلمات کلیدی به گونه ای عمل نمود که به فرهنگ لغات و استفاده از اطلاعات سایر اسناد نیاز نباشد. یکی از مشکلات زبان فارسی در رابطه با کلمات ترکیبی تعیین محدوده کلمات می باشد. در زبان فارسی کلماتی وجود دارند که از دو یا سه لغت جدا از هم تشکیل می شوند، که برای بهتر نمودن نتیجه استخراج کلمات کلیدی و خصوصا کلمات کلیدی ترکیبی می توان تعیین عمل محدوده کلمات را پیش از فرایند استخراج کلمات کلیدی انجام داد.
فهرست منابع
1- بصيري محمد احسان، نعمتي شهلا، قاسم آقايي ناصر، “مقايسه دسته بندي متون فارسي با استفاده از الگوريتم هاي KNN و FKNN و انتخاب ويژگي ها براساس بهره اطلاعات و فرکانس سند"، کنفرانس ملی انجمن کامپیوتر ایران، سیزدهیمن دوره، جزیره کیش، 1386.
2- محمدي مسلم، مينايي بيدگلي بهروز، آنالويي مرتضي، “استفاده از شبکه های عصبی CC4 برای رده بندی اسناد فارسی"، کنفرانس داده کاوی ایران(IDMC)، دومین دوره، 1387.
3- محمدي جنقرا مسلم، آنالویی مرتضي،"استخراج کلمات کلیدي اسناد فارسی"، کنفرانس ملی انجمن کامپیوتر ایران، سیزدهیمن دوره، جزیره کیش، 1386.
4- حسینی خوزانی سیدمحمد، جمالی طیبه،"خصوصی سازی روش استخراج کلمات کلیدي اسناد فارسی"، کنفرانس ملی محاسبات نرم و فناوری اطلاعات، اولین دوره، ماهشهر، 1389.
فرم در حال بارگذاری ...
آخرین نظرات