Plagiátorstvo zahŕňa uznanie za nápady, slová alebo obrázky niekoho iného, čo je prax neetické v akademickom a profesionálnom prostredí. Študenti, ktorí môžu náhodne preformulovať slová niekoho iného bez náležitého uvedenia zdroja, si to môžu nevšimnú. Keďže sa pri parafrázovaní niečoho nepoužívajú úvodzovky, môže to ľahko uniknúť z rúk korektora a prejsť do konečného návrhu. Nie je to však úplne nedosiahnuteľné, najmä preto, že kontrolóri plagiátov odhaľujú parafrázovanie v dnešnej dobe efektívnejšie.
Detekcia parafrázovania môže byť náročná úloha, pretože zahŕňa identifikáciu podobností a rozdielov medzi textami. V nasledujúcich častiach sa ponoríme do komplexnej diskusie o bežných metódach a technikách používaných na rozpoznanie prípadov parafrázovania.
Ako kontrolóri plagiátorstva zisťujú parafrázovanie: Skúmali sa vhodné metódy
V dnešnom vzdelávacom prostredí sa kontrola plagiátorstva stáva čoraz pokročilejšou, pričom ide nielen o nahlásenie skopírovaného textu, ale aj o detekciu parafrázovaného obsahu. Tento článok skúma metódy umožňujúce týmto nástrojom efektívne identifikovať parafrázovanie.
1. Zhoda reťazcov
Táto metóda zahŕňa porovnávanie textov na úrovni znakov alebo slov s cieľom určiť presné zhody. Vysoká miera podobnosti sekvencií znakov alebo výberu slov medzi dvoma textami by mohla signalizovať parafrázovanie. Tieto nástroje využívajú zložité algoritmy, ktoré dokonca dokážu zvážiť kontextový význam slov, čím je čoraz ťažšie, aby plagiát, parafrázovaný materiál zostal neodhalený.
2. Kosínusová podobnosť
Kosínusová podobnosť je jednou z metód, pomocou ktorých kontrolóri plagiátorstva odhaľujú parafrázovanie. Meria podobnosť medzi dvoma textami na základe uhla medzi ich vektorovými reprezentáciami vo vysokorozmernom priestore. Reprezentáciou textov ako vektorov frekvencií slov alebo vložení môžu tieto nástroje vypočítať skóre kosínusovej podobnosti, aby sa ďalej zlepšila ich schopnosť odhaliť parafrázovaný obsah.
3. Modely zarovnania slov
Tieto modely zarovnávajú slová alebo frázy medzi dva texty, aby identifikovali ich zhody. Porovnaním zoradených segmentov môžete zistiť parafrázovanie na základe podobností a rozdielov v zhodných sekvenciách.
4. Sémantická analýza
Tento prístup zahŕňa analýzu významu a kontextu slov a fráz v textoch. Techniky ako latentná sémantická analýza (LSA), vkladanie slov (napríklad Word2Vec alebo GloVe) alebo modely hlbokého učenia ako BERT dokážu zachytiť sémantické vzťahy medzi slovami a identifikovať parafrázovanie na základe podobnosti ich sémantických reprezentácií.
5. Strojové učenie
Riadené algoritmy strojového učenia možno trénovať na označených súboroch údajov parafrázovaných a neparafrázovaných párov textov. Tieto modely sa môžu naučiť vzory a funkcie, ktoré rozlišujú parafrázy, a možno ich použiť na klasifikáciu nových prípadov textu ako parafrázovaného alebo neparafrázovaného.
6. N-gramová analýza
N-gramy sú skupiny slov, ktoré sú tesne vedľa seba. Keď skontrolujete, ako často sa tieto skupiny vyskytujú v rôznych textoch a porovnáte ich, môžete nájsť podobné frázy alebo sekvencie. Ak existuje veľa podobných vzorov, mohlo by to znamenať, že text mohol byť parafrázovaný.
7. Detekcia blízko duplikátu
Posledný spôsob, ako kontrolóri plagiátorstva efektívne zisťujú parafrázovanie.
Takmer duplicitné detekčné algoritmy sa často používajú pri parafrázovanej detekcii na presné určenie textových segmentov, ktoré vykazujú vysoký stupeň podobnosti alebo sú takmer identické. Tieto algoritmy sú špeciálne vytvorené tak, aby rozpoznali parafrázovaný obsah prostredníctvom porovnania podobnosti textu na detailnej úrovni.
Ktorú metódu zvyčajne používa softvér na prevenciu plagiátorstva?
Technologické riešenia využívané profesionálnymi službami na prevenciu plagiátorstva sa zvyčajne spoliehajú na n-gramovú analýzu. Využitím technológie založenej na n-gramoch dosahujú tieto služby pozoruhodne vysokú mieru presnosti. Toto je jeden z najlepších spôsobov, ako kontrolóri plagiátov zisťujú parafrázovanie, čo umožňuje identifikáciu a zvýraznenie presných slov, ktoré boli prepísané.
Mechanika toho, ako kontrolóri plagiátorstva zisťujú parafrázovanie
Služby prevencie plagiátorstva bežne využívajú techniku snímania odtlačkov prstov na porovnávanie dokumentov. To zahŕňa extrakciu potrebných n-gramov z dokumentov, ktoré sa majú overiť, a ich porovnanie s n-gramami všetkých dokumentov v ich databázach.
Príklad
Povedzme, že existuje veta: «Le mont Olympe est la plus haute montagne de Grèce. »
n-gramov (napríklad 3 gramy) tejto vety bude:
- Le mont Olympe
- Mont Olympe est
- Olympe est la
- je najviac
- la plus haute
- najvyšší vrch
- haute montagne de
- hora de Grèce
Prípad 1. Výmena
Ak je slovo nahradené iným slovom, stále niektoré z nich n-gramov zhodou a je možné pomocou ďalšej analýzy zistiť zámenu slova.
Zmenená veta: ďalej len " hory Olympe est la plus haute montagne de Peloponéz. "
Originál 3 gramy | 3-gramy zmeneného textu |
Le mont Olympe Mont Olympe est Olympe est la je najviac la plus haute najvyšší vrch haute montagne de hora de Grèce | Le hory Olympus hory Olympe est Olympe est la je najviac la plus haute najvyšší vrch haute montagne de Montagne de Peloponéz |
Prípad 2. Zmenené poradie slov (alebo viet, odsekov)
Pri zmene poradia vety sa ešte nejaké 3 gramy zhodujú, takže je možné zistiť zmenu.
Zmenená veta: « La plus haute montagne de Grèce est Le mont Olympe. »
Originál 3 gramy | 3-gramy zmeneného textu |
Le mont Olympe Mont Olympe est Olympe est la je najviac la plus haute najvyšší vrch haute montagne de hora de Grèce | La plus haute najvyšší vrch haute montagne de hora de Grèce de Grèce est Grèce est Le est Le mont Le mont Olympe |
Prípad 3. Pridané nové slová
Po pridaní nových slov sú tam ešte nejaké 3-gramy, ktoré sa zhodujú, takže je možné zistiť zmenu.
Zmenená veta: « Le mont Olympe est zdaleka la plus haute montagne de Grèce. »
Originál 3 gramy | 3-gramy zmeneného textu |
Le mont Olympe Mont Olympe est Olympe est la je najviac la plus haute najvyšší vrch haute montagne de hora de Grèce | Le mont Olympe Mont Olympe est Olympe est de est de loin ďaleko bedrá la plus la plus haute najvyšší vrch haute montagne de hora de Grèce |
Prípad 4. Vymazané niektoré slová
Keď je slovo odstránené, stále existujú nejaké 3-gramy, ktoré sa zhodujú, takže je možné zistiť zmenu.
Zmenená veta: «L'Olympe est la plus haute montagne de Grèce. »
Originál 3 gramy | 3-gramy zmeneného textu |
Le mont Olympe Mont Olympe est Olympe est la je najviac la plus haute najvyšší vrch haute montagne de hora de Grèce | L'Olympe est la je najviac la plus haute najvyšší vrch haute montagne de hora de Grèce |
Príklad z reálneho sveta
Po dokončení overovania v skutočnom dokumente sú parafrázované časti často identifikované prerušovanými značkami. Tieto prerušenia, ktoré označujú zmenené slová, sú zvýraznené, aby sa zlepšila viditeľnosť a rozlíšenie.
Nižšie nájdete príklad skutočného dokumentu.
- Prvý úryvok pochádza zo súboru, ktorý bol overený pomocou OXSICO služba prevencie plagiátorstva:
- Druhý úryvok je z pôvodného zdrojového dokumentu:
Po hlbšej analýze je zrejmé, že vybraná časť dokumentu bola parafrázovaná vykonaním nasledujúcich zmien:
Pôvodný text | Parafrázovaný text | Zmeny |
podporuje inovácie je tiež charakterizovaná | podporuje inovácie je okrem toho definovaná | Výmena |
ekonomické a sociálne znalosti, efektívne systémy | ekonomické a spoločenské povedomie, efektívna organizácia | Výmena |
návrhy (nápady) | odporúčanie | Nahradenie, vymazanie |
postoje | postures | Výmena |
úspech | víťaz | Výmena |
procesu (Perenc, Holub-Ivan | kognitívny proces (Perenc, Holub – Ivan | Adición |
proinovácia | priaznivý | Výmena |
vytváranie klímy | : vytvorenie podmienky | Výmena |
priaznivý | prosperujúcej | Výmena |
rozvíjanie vedomostí | rozvojové povedomie | Výmena |
záver
Plagiátorstvo, ktoré sa v prípadoch parafrázovania často neodhalí, zostáva v akademickej obci veľkým problémom. Technologický pokrok vybavil kontrolórov plagiátov schopnosťou efektívne identifikovať parafrázovaný obsah. Konkrétne, kontrolóri plagiátov zisťujú parafrázovanie pomocou rôznych metód, ako je porovnávanie reťazcov, kosínusová podobnosť a n-gramová analýza. Najmä n-gramová analýza vyniká vysokou presnosťou. Tieto vylepšenia podstatne znižujú pravdepodobnosť, že plagiát a parafrázovaný materiál zostane neodhalený, čím sa zvyšuje akademická integrita. |