سرقت علمى عبارت است از تصاحب و تملک ایدهها، نتایج یا نوشتههای دیگران بدون ذکر نام و اعتبار آنها. رشد سريع علم و افزايش روزافزون تعداد مقالهها و گزارشهای علمی چاپشده از يكسو و امكان دستيابى سريع و آسان به اطلاعات بهواسطه فناورى اينترنت از سوى ديگر، شكلگيرى پديده دستبرد علمى را شتاب بخشیده است. امروزه انجام مشابهتیابی در متون علمی به کمک نرمافزارهای رایانهای یکی از ملزومات سیستمهای ارزیابی در انتشاراتیها، دانشگاهها و سایر نهادهای علمی بهشمار میرود. اهداف طرح: زبان فارسی به دلیل ویژگیهای مشترک نظام نوشتاری، از جمله زبانهای «خط عربیمحور»( Arabic Scripted based Language) محسوب میشود. این امر منجر به ویژگیهای منحصربهفردی میشود که نمیتوان برای آن از سیستمهای مشابهتیاب موجود بهصورت کامل استفاده نمود و باید برای زبان فارسی و ویژگیهای آن سیستم مجزایی تهیه و طراحی گردد. هدف اصلی از اجرای این طرح، طراحی و توسعه یک سیستم نرمافزاری مشابهتیاب در متون فارسی میباشد. یکی از ضرورتهای اجرای چنین طرحی، کم نظیر بودن آن در پسزمینه خاص زبان فارسی میباشد. ضروری است سیستم مشابهتیاب از ابتدای طراحی با رویکرد ویژگیهای نگارشی و دستوری زبان فارسی طراحی و تولید گردد و بتواند در شرایط نیازها و قابلیتهای کشور کارآمدی لازم را دارا باشد. اجرا در پنج فاز پیشبینی شده است. فاز اول در دو بخش ارائه گردیده است. بخش اول به مطالعه روشها، مدلها و الگوریتمهای مشابهتیابی متون میپردازد و در آن آخرین متدها و الگوریتمها مطالعه گردیده و مورد ارزیابی قرار میگیرد. این روشها به دو دسته کلی روشهای ذاتی و روشهای بیرونی تشخیص مشابهت تقسیم شده است و روشهای بیرونی بهعنوان روشهای پرکاربردتر محسوب گردیده که در آنها ابتدا با روشهای مختلف مثل نمونهگیری از متن، امضا، هش، شینگل و.. مشابهت تقریبی متون تعیین شده و سپس در متنهای با تشابه بالاتر، تشخیص دقیق مشابهت صورت میپذیرد. بخش دوم به ارزیابی نرمافزارها و سیستمهای نرمافزاری موجود مشابهتیاب متن میپردازد و سیستمهای تجاری خارجی موجود از حیث ابعاد سيستم، محدوديتهاي سيستم، ميزان كارآمدي و كارايي و تكنولوژي مورد استفاده و ويژگيهاي سيستم بررسی میگردد.