استخراج کلیدواژگان پایاننامۀ فارسی با استفاده از ویژگی آماری و دستهبند بیز | ||
| جستارهای زبانی | ||
| Article 11, Volume 12, Issue 6 - Serial Number 66, 1400, Pages 339-367 PDF (974.5 K) | ||
| Document Type: مقالات علمی پژوهشی | ||
| DOI: 10.52547/LRR.12.6.11 | ||
| Authors | ||
| بهزاد حجازی1; جلال الدین نصیری* 2 | ||
| 1دانشجوی کارشناسی ارشد هوش مصنوعی، دانشگاه آزاد اسلامی واحد تهران شمال، تهران، ایران | ||
| 2استادیار دانشکدۀ علوم ریاضی، دانشگاه فردوسی، مشهد، ایران. | ||
| Abstract | ||
| هدف اصلی استخراج کلمات کلیدی انتخاب مجموعهای از لغات در متن است که میتواند موضوع اصلی متن را بازگو کند. استخراج کلیدواژگان در بازیابی اطلاعات، سیستمهای پیشنهاددهندۀ متنی و دستهبندی متون، نقش مهم را ایفا میکند. در زبان فارسی باتوجه به پیچیدگی ذاتی زبان فارسی استخراج کلیدواژگان بهمراتب دشوارتر شده است. در این پژوهش سعی شده است با رویکرد نوین ترکیبی آماری و یادگیری ماشین به استخراج کلیدواژگان پرداخته شود. ابتدا باتوجه به ساختار زبان فارسی پیشپردازهای لازم برای حذف کلمات و علائم نگارشی صورت میگیرد. سپس با استفاده از سه نوع ویژگی آماری و دستهبند بیز سیستم بهصورت خودکار الگوی کلمات کلیدی با کلمات عادی را آموزش میبیند. همچنین پسپردازش کارا برای کم کردن کلمات مثبت کاذب در چارچوب پیشنهادی طراحی شده است. گفتنی است که مدل ساختهشده قادر به شناسایی تعداد حداکثر 20 کلیدواژه در هر پایاننامه است و این کلمات با کلیدواژگان نوشتهشده در هر متن مقایسه و ارزیابی میشوند. نتایج ارزیابیهای متنوع نشان میدهد روش پیشنهادی با دقت مناسبی توانسته است کلمات کلیدی نوشتارهای فارسی علمی (پایاننامه و رساله) را استخراج کند. | ||
| Keywords | ||
| استخراج کلیدواژگان; دستهبند بیز; ویژگیهای آماری; پیشپردازش; پسپردازش | ||
| References | ||
|
| ||
|
Statistics Article View: 487 PDF Download: 132 |
||
| Number of Journals | 45 |
| Number of Issues | 2,174 |
| Number of Articles | 24,684 |
| Article View | 25,071,315 |
| PDF Download | 17,773,615 |