طراحی و پیاده سازی سیستم تشخیص...

خانه گروه های پژوهشی جزئیات گروه پژوهشی طرح ها و پروژه ها جزئیات طراحی و پیاده سازی سیستم تشخیص...
  تاریخ شروع پروژه : 1395/3/10  کارفرما : معاونت علمی و فناوری ریاست جمهوری
طراحی و پیاده سازی سیستم تشخیص سرقت علمی در مقالات فارسی (مشابهت یاب)

خلاصه طرح

سرقت علمى عبارت است از تصاحب و تملک ایده‌ها، نتایج یا نوشته‌های دیگران بدون ذکر نام و اعتبار آن‌ها.

رشد سريع علم و افزايش روزافزون تعداد مقاله‌ها و گزارش‌های علمی چاپ‌شده از يك‌سو و امكان دست‌يابى سريع و آسان به اطلاعات به‌واسطه فناورى اينترنت از سوى ديگر، شكل‌گيرى پديده‌ دست‌برد علمى را شتاب بخشیده است. امروزه انجام مشابهت‌یابی در متون علمی به کمک نرم‌افزارهای رایانه‌ای یکی از ملزومات سیستم‌های ارزیابی در انتشاراتی‌ها، دانشگاه‌ها و سایر نهادهای علمی به‌شمار می‌رود.

اهداف طرح:

زبان فارسی به دلیل ویژگی‌های مشترک نظام نوشتاری، از جمله زبان‌های «خط عربی‌محور»( Arabic Scripted based Language) محسوب می‌شود. این امر منجر به ویژگی‌های منحصربه‌فردی می‌شود که نمی‌توان برای آن از سیستم‌های مشابهت‌یاب موجود به‌صورت کامل استفاده نمود و باید برای زبان فارسی و ویژگی‌های آن سیستم مجزایی تهیه و طراحی گردد. هدف اصلی از اجرای این طرح، طراحی و توسعه یک سیستم نرم‌افزاری مشابهت‌یاب در متون فارسی می‌باشد. یکی از ضرورت‌های اجرای چنین طرحی، کم نظیر بودن آن در پس‌زمینه‌ خاص زبان فارسی می‌باشد. ضروری است سیستم مشابهت‌یاب از ابتدای طراحی با رویکرد ویژگی‌های نگارشی و دستوری زبان فارسی طراحی و تولید گردد و بتواند در شرایط نیازها و قابلیت‌های کشور کارآمدی لازم را دارا باشد.

اجرا در پنج فاز پیش‌بینی شده است.

فاز اول در دو بخش ارائه گردیده است. بخش اول به مطالعه روش‌ها، مدل‌ها و الگوریتم‌های مشابهت‌یابی متون می‌پردازد و در آن آخرین متدها و الگوریتم‌ها مطالعه گردیده و مورد ارزیابی قرار می‌گیرد. این روش‌ها به دو دسته کلی روش‌های ذاتی و روش‌های بیرونی تشخیص مشابهت تقسیم شده است و روش‌های بیرونی به‌عنوان روشهای پرکاربردتر محسوب گردیده که در آنها ابتدا با روش‌های مختلف مثل نمونه‌گیری از متن، امضا، هش‌، شینگل و.. مشابهت تقریبی متون تعیین شده و سپس در متن‌های با تشابه بالاتر، تشخیص دقیق مشابهت صورت می‌پذیرد.  بخش دوم به ارزیابی نرم‌افزارها و سیستم‌های نرم‌افزاری موجود مشابهت‌یاب متن می‌پردازد و سیستم‌های تجاری خارجی موجود از حیث ابعاد سيستم، محدوديت‌هاي سيستم، ميزان كارآمدي و كارايي و تكنولوژي مورد استفاده و ويژگي‌هاي سيستم بررسی می‌گردد.