Плагіят прадугледжвае прысваенне чужых ідэй, слоў ці малюнкаў, разглядаецца практыка неэтычна у акадэмічным і прафесійным асяроддзі. Гэта можа застацца незаўважаным студэнтамі, якія могуць выпадкова перафразаваць чужыя словы без належнага пазначэння аўтарства. Паколькі двукоссі не выкарыстоўваюцца, калі нешта перафразавана, гэта можа лёгка вырвацца з рук карэктара і перайсці ў канчатковы чарнавік. Аднак гэта не зусім недасяжна, тым больш, што ў наш час сродкі праверкі плагіяту выяўляюць перафразаванне больш эфектыўна.
Выяўленне перафразавання можа быць складанай задачай, бо яно ўключае выяўленне падабенстваў і адрозненняў паміж тэкстамі. У наступных раздзелах мы паглыбімся ў ўсебаковае абмеркаванне агульных метадаў і метадаў, якія выкарыстоўваюцца для распазнання выпадкаў перафразавання.
Як сродкі праверкі плагіяту выяўляюць перафразаванне: разглядаюцца прыдатныя метады
У сучасным адукацыйным асяроддзі сродкі праверкі плагіяту становяцца ўсё больш прасунутымі, выходзячы за рамкі толькі пазначэння скапіраванага тэксту і выяўляючы перафразаваны кантэнт. У гэтым артыкуле даследуюцца метады, якія дазваляюць гэтым інструментам эфектыўна ідэнтыфікаваць перафразаванне.
1. Супастаўленне радкоў
Гэты метад прадугледжвае параўнанне тэкстаў на ўзроўні знакаў або слоў для дакладнага выяўлення дакладных супадзенняў. Высокая ступень падабенства ў паслядоўнасці сімвалаў або выбары слоў паміж двума тэкстамі можа сведчыць аб перафразаванні. Гэтыя інструменты выкарыстоўваюць складаныя алгарытмы, якія могуць нават улічваць кантэкстуальнае значэнне слоў, што робіць усё цяжэй незаўважаным плагіят, перафразаваны матэрыял.
2. Косінус падабенства
Косінуснае падабенства - адзін з метадаў, з дапамогай якога сродкі праверкі плагіяту выяўляюць перафразаванне. Ён вымярае падабенства паміж двума тэкстамі на аснове вугла паміж іх вектарнымі адлюстраваннямі ў шматмернай прасторы. Прадстаўляючы тэксты ў выглядзе вектараў частаты слоў або ўкладанняў, гэтыя інструменты могуць вылічваць ацэнку падабенства косінуса для далейшага ўдасканалення сваёй здольнасці выяўляць перафразаваны кантэнт.
3. Мадэлі выраўноўвання слоў
Гэтыя мадэлі выраўноўваюць словы або фразы паміж двума тэкстамі, каб вызначыць іх адпаведнасць. Параўноўваючы выраўнаваныя сегменты, вы можаце выявіць перафразаванне на аснове падабенства і адрозненняў у супастаўленых паслядоўнасцях.
4. Семантычны аналіз
Такі падыход прадугледжвае аналіз значэння і кантэксту слоў і фраз у тэкстах. Такія метады, як латэнтны семантычны аналіз (LSA), убудаванне слоў (напрыклад, Word2Vec або GloVe) або мадэлі глыбокага навучання, такія як BERT, могуць фіксаваць семантычныя адносіны паміж словамі і ідэнтыфікаваць перафразаванне на аснове падабенства іх семантычных уяўленняў.
5. навучанне з дапамогай машыны
Кантраляваныя алгарытмы машыннага навучання можна навучыць на пазначаных наборах даных перафразаваных і неперафразаваных пар тэкстаў. Гэтыя мадэлі могуць вывучаць шаблоны і асаблівасці, якія адрозніваюць перафраз, і могуць быць выкарыстаны для класіфікацыі новых асобнікаў тэксту як перафразаванага ці не.
6. N-грам аналіз
N-грамы - гэта групы слоў, якія знаходзяцца побач адна з адной. Калі вы праверыце, як часта гэтыя групы сустракаюцца ў розных тэкстах і параўнаеце іх, вы можаце знайсці падобныя фразы або паслядоўнасці. Калі падобных шаблонаў шмат, гэта можа азначаць, што тэкст мог быць перафразаваны.
7. Выяўленне амаль дублікатаў
Апошні спосаб праверкі плагіяту эфектыўна выяўляе перафразаванне.
Алгарытмы выяўлення амаль дублікатаў часта выкарыстоўваюцца пры выяўленні перафразавання, каб дакладна вызначыць сегменты тэксту, якія паказваюць высокую ступень падабенства або амаль ідэнтычныя. Гэтыя алгарытмы спецыяльна створаны для распазнання перафразаванага змесціва шляхам параўнання падабенства тэксту на дэталёвым узроўні.
Які метад звычайна выкарыстоўваецца праграмным забеспячэннем для прадухілення плагіяту?
Тэхналагічныя рашэнні, якія выкарыстоўваюцца прафесійнымі службамі па прадухіленні плагіяту, звычайна абапіраюцца на аналіз n-грам. Выкарыстоўваючы тэхналогію, заснаваную на n-gram, гэтыя паслугі дасягаюць надзвычай высокай дакладнасці. Гэта адзін з лепшых спосабаў праверкі плагіяту выяўлення перафразавання, дазваляючы ідэнтыфікаваць і выдзяляць дакладныя словы, якія былі перапісаны.
Механізм таго, як сродкі праверкі плагіяту выяўляюць перафразаванне
Службы прадухілення плагіяту звычайна выкарыстоўваюць тэхніку дактыласкапіі для параўнання дакументаў. Гэта прадугледжвае выманне неабходных n-грам з дакументаў, якія падлягаюць праверцы, і параўнанне іх з n-грамамі ўсіх дакументаў у іх базах дадзеных.
Прыклад
Скажам, ёсць сказ: «Le mont Olympe est la plus haute montagne de Grèce. »
,en п-грам (напрыклад, 3 грама) гэтага сказа будзе:
- Мон-Алімп
- Мон-Алімп эст
- Алімпія гэта ла
- з'яўляецца найбольш
- la plus haute
- самая высокая гара
- Haute Mountain de
- montagne de Grèce
Выпадак 1. Замена
Калі слова замяняецца іншым словам, па-ранейшаму некаторыя з п-грам супадаюць і можна выявіць словазамену шляхам далейшага аналізу.
Зменены сказ: " Горы Olympe est la plus haute montagne de Пелапанес. "
Арыгінальны 3-грам | 3-грамы змененага тэксту |
Мон-Алімп Мон-Алімп эст Алімпія гэта ла з'яўляецца найбольш la plus haute самая высокая гара Haute Mountain de montagne de Grèce | Le Горы Алімп Горы Алімпія эст Алімпія гэта ла з'яўляецца найбольш la plus haute самая высокая гара Haute Mountain de Мантан дэ Пелапанес |
Выпадак 2. Зменены парадак слоў (або прапаноў, абзацаў)
Калі парадак прапановы змяняецца, некаторыя 3-грамы ўсё яшчэ супадаюць, так што можна выявіць змяненне.
Зменены сказ: «La plus haute montagne de Grèce est Le mont Olympe. »
Арыгінальны 3-грам | 3-грамы змененага тэксту |
Мон-Алімп Мон-Алімп эст Алімпія гэта ла з'яўляецца найбольш la plus haute самая высокая гара Haute Mountain de montagne de Grèce | La plus haute самая высокая гара Haute Mountain de montagne de Grèce de Grèce эст Грэцыя эст Ле эст Ле Монт Мон-Алімп |
Справа 3. Дададзены новыя словы
Калі дадаюцца новыя словы, застаюцца некаторыя 3-грамы, якія супадаюць, так што можна выявіць змены.
Зменены сказ: «Le mont Olympe est здалёк la plus haute montagne de Grèce. »
Арыгінальны 3-грам | 3-грамы змененага тэксту |
Мон-Алімп Мон-Алімп эст Алімпія гэта ла з'яўляецца найбольш la plus haute самая высокая гара Haute Mountain de montagne de Grèce | Мон-Алімп Мон-Алімп эст Olympe est de гэта паясніца далёка карэйка ла плюс la plus haute самая высокая гара Haute Mountain de montagne de Grèce |
Выпадак 4. Выдалены некаторыя словы
Калі слова выдаляецца, застаюцца некаторыя 3-грамы, якія супадаюць, так што можна выявіць змяненне.
Зменены сказ: « L'Olympe est la plus haute montagne de Grèce. »
Арыгінальны 3-грам | 3-грамы змененага тэксту |
Мон-Алімп Мон-Алімп эст Алімпія гэта ла з'яўляецца найбольш la plus haute самая высокая гара Haute Mountain de montagne de Grèce | L'Olympe est la з'яўляецца найбольш la plus haute самая высокая гара Haute Mountain de montagne de Grèce |
Прыклад з рэальнага свету
Пасля завяршэння праверкі ў рэальным дакуменце перафразаваныя раздзелы часта ідэнтыфікуюцца праз перапыненыя маркіроўкі. Гэтыя перапынкі, якія абазначаюць змененыя словы, вылучаюцца для паляпшэння бачнасці і адрознення.
Ніжэй вы знойдзеце прыклад фактычнага дакумента.
- Першы ўрывак паходзіць з файла, які быў правераны з дапамогай ОКСІКА служба прадухілення плагіяту:
- Другі ўрывак з першакрыніцы:
Пасля больш глыбокага аналізу відаць, што выбраная частка дакумента была перафразавана шляхам унясення наступных змяненняў:
Арыгінальны тэкст | Перафразаваны тэкст | Змены |
падтрымлівае інавацыі таксама характарызуецца | падтрымлівае інавацыі, акрамя таго, вызначана | Замена |
эканамічныя і сацыяльныя веды, эфектыўныя сістэмы | эканамічная і сацыяльная дасведчанасць, эфектыўная арганізацыя | Замена |
прапановы (ідэі) | рэкамендацыя | Замена, выдаленне |
адносіны | паставы | Замена |
поспех | пераможца | Замена |
працэс (Перэнц, Голуб-Іван | пазнавальны працэс (Перэнц, Голуб – Іван | Дадатак |
за інавацыі | спрыяльны | Замена |
стварэнне клімату | : стварэнне ўм | Замена |
спрыяльны | квітнеючы | Замена |
развіццё ведаў | развіццё дасведчанасці | Замена |
заключэнне
Плагіят, які часта не выяўляецца ў выпадках перафразавання, застаецца сур'ёзнай праблемай у навуковых колах. Тэхналагічныя дасягненні надзялілі сродкі праверкі плагіяту здольнасцю эфектыўна ідэнтыфікаваць перафразаваны кантэнт. У прыватнасці, сродкі праверкі плагіяту выяўляюць перафразаванне з дапамогай розных метадаў, такіх як супастаўленне радкоў, падабенства косінуса і аналіз n-грам. Характэрна, што аналіз n-грамаў вылучаецца сваёй высокай дакладнасцю. Гэтыя дасягненні істотна зніжаюць верагоднасць таго, што плагіят і перафразаваны матэрыял застануцца незаўважанымі, тым самым павышаючы акадэмічную добрасумленнасць. |