سرقت ادبی شامل اعتبار گرفتن برای ایدهها، کلمات یا تصاویر دیگران است، عملی که در نظر گرفته میشود غیر اخلاقی است در محیط های آکادمیک و حرفه ای دانشآموزانی که ممکن است بهطور تصادفی کلمات شخص دیگری را بدون انتساب مناسب بازنویسی کنند، میتواند مورد توجه قرار نگیرد. از آنجایی که هنگام بازنویسی چیزی از علامت نقل قول استفاده نمی شود، به راحتی می تواند از چنگ مصحح فرار کند و به پیش نویس نهایی ادامه دهد. با این حال، این کاملاً دست نیافتنی نیست، به ویژه از آنجایی که بررسیکنندههای سرقت ادبی امروزه تفسیر را به طور مؤثرتری تشخیص میدهند.
تشخیص بازنویسی می تواند یک کار چالش برانگیز باشد، زیرا شامل شناسایی شباهت ها و تفاوت های بین متون است. در بخشهای بعدی، به بحثی جامع در مورد روشها و تکنیکهای رایجی که برای تشخیص نمونههای بازنویسی استفاده میشوند، خواهیم پرداخت.
بررسیکنندههای سرقت ادبی چگونه پارافراسی را تشخیص میدهند: روشهای مناسب بررسی شده است
در چشمانداز آموزشی امروزی، بررسیکننده سرقت ادبی به طور فزایندهای پیشرفته شدهاند، و فراتر از پرچمگذاری متن کپی شده و همچنین شناسایی محتوای بازنویسیشده است. این مقاله روشهایی را بررسی میکند که به این ابزارها اجازه میدهد تا بهطور مؤثری بازنویسی را شناسایی کنند.
1. تطبیق رشته
این روش شامل مقایسه متون در سطح کاراکتر یا کلمه برای مشخص کردن تطابق دقیق است. درجه بالایی از شباهت در توالی کاراکترها یا انتخاب کلمات بین دو متن می تواند نشانه ای از نقل قول باشد. این ابزارها الگوریتمهای پیچیدهای را به کار میگیرند که حتی میتوانند معنای متنی کلمات را در نظر بگیرند، و ناشناخته ماندن مطالب سرقتشده و ترجمهشده را به طور فزایندهای دشوار میکنند.
2. تشابه کسینوس
تشابه کسینوس یکی از روشهایی است که بررسیکننده سرقت ادبی، پارافراسی را تشخیص میدهد. شباهت بین دو متن را بر اساس زاویه بین نمایش های برداری آنها در فضایی با ابعاد بالا اندازه گیری می کند. این ابزارها با نمایش متون بهعنوان بردار بسامدهای کلمه یا جاسازیها، میتوانند امتیاز شباهت کسینوس را محاسبه کنند تا توانایی خود را برای تشخیص محتوای بازنویسی شده بیشتر اصلاح کنند.
3. مدل های تراز کلمات
این مدل ها کلمات یا عبارات را بین دو متن تراز می کنند تا مطابقت آنها را مشخص کنند. با مقایسه بخشهای تراز شده، میتوانید بر اساس شباهتها و تفاوتها در دنبالههای همسان، بازنویسی را تشخیص دهید.
4. تحلیل معنایی
این رویکرد شامل تحلیل معنا و بافت کلمات و عبارات در متون است. تکنیکهایی مانند تحلیل معنایی پنهان (LSA)، جاسازی کلمات (مانند Word2Vec یا GloVe)، یا مدلهای یادگیری عمیق مانند BERT میتوانند روابط معنایی بین کلمات را ثبت کنند و بر اساس شباهت بازنماییهای معنایی آنها، بازنویسی را شناسایی کنند.
5 یادگیری ماشین
الگوریتمهای یادگیری ماشینی تحت نظارت را میتوان بر روی مجموعه دادههای برچسبگذاریشده از جفت متون بازنویسیشده و غیرقابلترتیب آموزش داد. این مدلها میتوانند الگوها و ویژگیهایی را بیاموزند که پارافریها را متمایز میکنند و میتوانند برای طبقهبندی نمونههای جدید متن بهعنوان بازنویسی شده یا غیرقابل استفاده، استفاده شوند.
6. تجزیه و تحلیل N-gram
N-gram ها گروهی از کلمات هستند که درست در کنار یکدیگر قرار دارند. وقتی بررسی می کنید که این گروه ها چند بار در متون مختلف ظاهر می شوند و آنها را با هم مقایسه می کنید، می توانید عبارات یا دنباله های مشابهی را پیدا کنید. اگر الگوهای مشابه زیادی وجود داشته باشد، می تواند به این معنی باشد که متن ممکن است بازنویسی شده باشد.
7. نزدیک به تشخیص تکراری
آخرین راهی که بررسیکنندههای سرقت ادبی به طور مؤثر پارافریسی را تشخیص میدهند.
الگوریتمهای تشخیص تقریباً تکراری اغلب در تشخیص بازنویسی برای مشخص کردن بخشهای متنی که درجه بالایی از شباهت را نشان میدهند یا تقریباً یکسان هستند، استفاده میشوند. این الگوریتم ها به طور خاص ساخته شده اند تا محتوای بازنویسی شده را از طریق مقایسه شباهت متن در سطح دقیق تشخیص دهند.
نرم افزارهای پیشگیری از سرقت ادبی معمولاً از کدام روش استفاده می کنند؟
راهحلهای تکنولوژیکی مورد استفاده توسط خدمات حرفهای پیشگیری از سرقت ادبی معمولاً بر تجزیه و تحلیل n-gram تکیه میکنند. با استفاده از فناوری مبتنی بر n-gram، این خدمات به نرخ دقت بسیار بالایی دست می یابند. این یکی از بهترین راههایی است که بررسیکنندههای سرقت ادبی، پارافراسی را تشخیص میدهند، که امکان شناسایی و برجسته کردن دقیق کلمات بازنویسی شده را فراهم میکند.
مکانیک چگونگی تشخیص سرقت ادبی توسط چککنندههای ترجمه
خدمات پیشگیری از سرقت ادبی معمولاً از تکنیک انگشت نگاری برای مقایسه اسناد استفاده می کنند. این شامل استخراج n-gram های لازم از اسنادی است که باید تأیید شوند و آنها را با n-gram های همه اسناد موجود در پایگاه داده آنها مقایسه می کنند.
مثال
فرض کنید یک جمله وجود دارد: « Le mont Olympe est la plus haute montagne de Grèce. »
La n-گرم (به عنوان مثال 3 گرم) از این جمله خواهد بود:
- لو مونت المپ
- Mont Olympe est
- Olympe est la
- بیشترین است
- لا پلاس هاوت
- به علاوه مونتانی بالا
- Haute montagne de
- Montagne de Grèce
مورد 1. جایگزینی
اگر کلمه با کلمه دیگر جایگزین شود، باز هم برخی از n-گرم مطابقت دارد و با تجزیه و تحلیل بیشتر می توان جایگزین کلمه را تشخیص داد.
جمله تغییر یافته: "" کوه Olympe est la plus haute montagne de پلوپونزاست. »
اصل 3 گرم | 3 گرم متن تغییر یافته |
لو مونت المپ Mont Olympe est Olympe est la بیشترین است لا پلاس هاوت به علاوه مونتانی بالا Haute montagne de Montagne de Grèce | Le کوه کوه المپ در مقدونیه کوه Olympe est Olympe est la بیشترین است لا پلاس هاوت به علاوه مونتانی بالا Haute montagne de Montagne de پلوپونز |
مورد 2. ترتیب کلمات (یا جملات، پاراگراف ها) را تغییر داد.
هنگامی که ترتیب جمله تغییر می کند، باز هم مقداری از 3 گرم مطابقت دارد، بنابراین می توان تغییر را تشخیص داد.
جمله تغییر یافته: « La plus haute montagne de Grèce est Le mont Olympe. »
اصل 3 گرم | 3 گرم متن تغییر یافته |
لو مونت المپ Mont Olympe est Olympe est la بیشترین است لا پلاس هاوت به علاوه مونتانی بالا Haute montagne de Montagne de Grèce | لا پلاس هاوت به علاوه مونتانی بالا Haute montagne de Montagne de Grèce de Grèce est Grèce est Le est Le mont لو مونت المپ |
مورد 3. کلمات جدید اضافه شده است
هنگامی که کلمات جدید اضافه می شوند، هنوز حدود 3 گرم وجود دارد که مطابقت دارند، بنابراین می توان تغییر را تشخیص داد.
جمله تغییر یافته: « Le mont Olympe est از دور la plus haute montagne de Grèce. »
اصل 3 گرم | 3 گرم متن تغییر یافته |
لو مونت المپ Mont Olympe est Olympe est la بیشترین است لا پلاس هاوت به علاوه مونتانی بالا Haute montagne de Montagne de Grèce | لو مونت المپ Mont Olympe est Olympe est de est de loin خیلی دور کمر لا پلاس لا پلاس هاوت به علاوه مونتانی بالا Haute montagne de Montagne de Grèce |
مورد 4. برخی از کلمات را حذف کرد
هنگامی که کلمه حذف می شود، هنوز مقداری 3 گرم وجود دارد که مطابقت دارند، بنابراین می توان تغییر را تشخیص داد.
جمله تغییر یافته: « L'Olympe est la plus haute montagne de Grèce. »
اصل 3 گرم | 3 گرم متن تغییر یافته |
لو مونت المپ Mont Olympe est Olympe est la بیشترین است لا پلاس هاوت به علاوه مونتانی بالا Haute montagne de Montagne de Grèce | L'Olympe est la بیشترین است لا پلاس هاوت به علاوه مونتانی بالا Haute montagne de Montagne de Grèce |
نمونه ای از دنیای واقعی
پس از تکمیل تأیید در یک سند واقعی، بخش های بازنویسی شده اغلب از طریق علامت گذاری های منقطع شناسایی می شوند. این وقفه ها، که به کلمات تغییر یافته دلالت می کنند، برای افزایش دید و تمایز برجسته می شوند.
در زیر نمونه ای از یک سند واقعی را خواهید دید.
- اولین گزیده از فایلی می آید که با استفاده از آن تأیید شده است OXSICO خدمات پیشگیری از سرقت ادبی:
- گزیده دوم از سند منبع اصلی است:
پس از تجزیه و تحلیل عمیق تر، مشخص می شود که بخش انتخاب شده از سند با ایجاد تغییرات زیر بازنویسی شده است:
متن اصلی | متن بازنویسی شده | تبادل |
پشتیبانی از نوآوری نیز مشخص می شود | پشتیبان نوآوری علاوه بر تعریف شده است | جایگزینی |
دانش اقتصادی و اجتماعی، سیستم های کارآمد | آگاهی اقتصادی و اجتماعی، سازمان کارآمد | جایگزینی |
پیشنهادات (ایده ها) | توصیه | تعویض، حذف |
نگرش | موقعیت ها | جایگزینی |
موفقیت | برنده | جایگزینی |
فرآیند (پرنک، هولوب-ایوان | فرآیند شناختی (پرنک، هولوب - ایوان | اضافه |
طرفدار نوآوری | مطلوب | جایگزینی |
ایجاد آب و هوا | : ایجاد شرط | جایگزینی |
مطلوب | موفق | جایگزینی |
در حال توسعه دانش | آگاهی توسعه | جایگزینی |
نتیجه
سرقت ادبی، که اغلب در موارد نقل قول شناسایی نمی شود، همچنان یک نگرانی مهم در دانشگاه است. پیشرفتهای فنآوری، چککنندههای سرقت ادبی را به توانایی شناسایی مؤثر محتوای بازنویسی شده مجهز کرده است. به طور خاص، بررسیکننده سرقت ادبی، تفسیر را از طریق روشهای مختلف مانند تطبیق رشته، شباهت کسینوس و تجزیه و تحلیل n-gram تشخیص میدهد. قابل ذکر است، تجزیه و تحلیل n-gram به دلیل دقت بالای آن متمایز است. این پیشرفتها بهطور قابلتوجهی احتمال ناشناخته ماندن مطالب سرقتشده و ترجمهشده را کاهش میدهند و در نتیجه یکپارچگی تحصیلی را افزایش میدهند. |