Plagiat involverer at tage æren for andres ideer, ord eller billeder, en praksis, der overvejes uetisk i akademiske og professionelle miljøer. Det kan gå ubemærket hen af elever, der ved et uheld kan omformulere en andens ord uden korrekt tilskrivning. Da anførselstegn ikke bruges, når noget omskrives, kan det let undslippe en korrekturlæser og gå videre til det endelige udkast. Det er dog ikke helt uopnåeligt, især da plagiatkontrol registrerer omskrivning mere effektivt i dag.
At opdage parafrasering kan være en udfordrende opgave, da det involverer at identificere ligheder og forskelle mellem tekster. I de efterfølgende afsnit vil vi dykke ned i en omfattende diskussion om almindelige metoder og teknikker, der anvendes til at skelne tilfælde af parafrasering.
Hvordan opdager plagiatcheckere parafrasering: Egnede metoder undersøgt
I nutidens uddannelseslandskab er plagiatkontrol blevet mere og mere avanceret og går ud over kun at markere kopieret tekst til også at detektere parafraseret indhold. Denne artikel undersøger metoderne, der gør det muligt for disse værktøjer effektivt at identificere parafrasering.
1. Strengmatchning
Denne metode indebærer at sammenligne tekster på tegn- eller ordniveau for at finde præcise overensstemmelser. En høj grad af lighed i tegnsekvenser eller ordvalg mellem to tekster kunne signalere parafrasering. Disse værktøjer anvender komplekse algoritmer, der endda kan overveje den kontekstuelle betydning af ord, hvilket gør det stadig vanskeligere for plagieret, omskrevet materiale at blive uopdaget.
2. Cosinus lighed
Cosinus-lighed er en af metoderne, hvorved plagiat-tjekkere opdager parafrasering. Den måler ligheden mellem to tekster baseret på vinklen mellem deres vektorrepræsentationer i et højdimensionelt rum. Ved at repræsentere tekster som vektorer af ordfrekvenser eller indlejringer, kan disse værktøjer beregne cosinus-lighedsscoren for yderligere at forfine deres evne til at opdage parafraseret indhold.
3. Ordjusteringsmodeller
Disse modeller justerer ord eller sætninger mellem to tekster for at identificere deres korrespondancer. Ved at sammenligne de justerede segmenter kan du detektere parafrasering baseret på ligheder og forskelle i de matchede sekvenser.
4. Semantisk analyse
Denne tilgang involverer at analysere betydningen og konteksten af ord og sætninger i tekster. Teknikker som latent semantisk analyse (LSA), ordindlejringer (såsom Word2Vec eller GloVe) eller deep learning-modeller som BERT kan fange semantiske relationer mellem ord og identificere parafrasering baseret på ligheden mellem deres semantiske repræsentationer.
5. Maskinindlæring
Overvågede maskinlæringsalgoritmer kan trænes på mærkede datasæt af parafraserede og ikke-parafraserede tekstpar. Disse modeller kan lære mønstre og funktioner, der adskiller parafraser og kan bruges til at klassificere nye forekomster af tekst som omskrevet eller ej.
6. N-gram analyse
N-gram er grupper af ord, der er lige ved siden af hinanden. Når du tjekker, hvor ofte disse grupper optræder i forskellige tekster og sammenligner dem, kan du finde lignende sætninger eller sekvenser. Hvis der er mange lignende mønstre, kan det betyde, at teksten måske er blevet omskrevet.
7. Nær duplikatdetektion
Den sidste måde, hvorpå plagiatcheckere registrerer parafrasering effektivt.
Næsten duplikatdetekteringsalgoritmer anvendes ofte til at parafrasere detektion for at lokalisere tekstsegmenter, der viser en høj grad af lighed eller er næsten identiske. Disse algoritmer er specielt udformet til at genkende parafraseret indhold gennem sammenligning af tekstlighed på et detaljeret niveau.
Hvilken metode bruges normalt af software til forebyggelse af plagiat?
Teknologiske løsninger, der anvendes af professionelle plagiatforebyggende tjenester, er typisk afhængige af n-gram-analyse. Ved at udnytte n-gram-baseret teknologi opnår disse tjenester en bemærkelsesværdig høj præcisionshastighed. Dette er en af de bedste måder, hvorpå plagiatkontrol registrerer parafrasering, hvilket muliggør identifikation og fremhævelse af nøjagtige ord, der er blevet omskrevet.
Mekanik af, hvordan plagiatkontrol registrerer parafrasering
Plagiatforebyggende tjenester anvender almindeligvis fingeraftryksteknikken til at sammenligne dokumenter. Dette indebærer at udtrække de nødvendige n-gram fra de dokumenter, der skal verificeres, og sammenligne dem med n-grammer for alle dokumenter i deres databaser.
Eksempel
Lad os sige, at der er en sætning: « Le mont Olympe est la plus haute montagne de Grèce. »
n-gram (for eksempel 3 gram) af denne sætning vil være:
- Le mont Olympe
- Mont Olympe est
- Olympe est la
- er mest
- la plus haute
- højeste bjerg
- haute montagne de
- Montagne de Grèce
Case 1. Udskiftning
Hvis ordet erstattes af det andet ord, stadig nogle af de n-gram match, og det er muligt at opdage orderstatningen ved yderligere analyse.
Ændret sætning: "The bjerge Olympe est la plus haute montagne de Péloponnese. "
Original 3-gram | 3-grams ændret tekst |
Le mont Olympe Mont Olympe est Olympe est la er mest la plus haute højeste bjerg haute montagne de Montagne de Grèce | Le bjerge Olympus bjerge Olympe est Olympe est la er mest la plus haute højeste bjerg haute montagne de Montagne de Péloponnese |
Tilfælde 2. Ændrede rækkefølgen af ord (eller sætninger, afsnit)
Når rækkefølgen af sætningen ændres, matcher stadig nogle 3-grams, så det er muligt at opdage ændringen.
Ændret sætning: « La plus haute montagne de Grèce est Le mont Olympe. »
Original 3-gram | 3-grams ændret tekst |
Le mont Olympe Mont Olympe est Olympe est la er mest la plus haute højeste bjerg haute montagne de Montagne de Grèce | La plus haute højeste bjerg haute montagne de Montagne de Grèce de Grèce est Grækenland er Le est Le mont Le mont Olympe |
Case 3. Tilføjet nye ord
Når de nye ord tilføjes, er der stadig nogle 3-gram, der matcher, så det er muligt at opdage ændringen.
Ændret sætning: « Le mont Olympe est langvejs fra la plus haute montagne de Grèce. »
Original 3-gram | 3-grams ændret tekst |
Le mont Olympe Mont Olympe est Olympe est la er mest la plus haute højeste bjerg haute montagne de Montagne de Grèce | Le mont Olympe Mont Olympe est Olympe est de er langt langt væk lænd la plus la plus haute højeste bjerg haute montagne de Montagne de Grèce |
Case 4. Slettede nogle ord
Når ordet er fjernet, er der stadig nogle 3-gram, der matcher, så det er muligt at opdage ændringen.
Ændret sætning: « L'Olympe est la plus haute montagne de Grèce. »
Original 3-gram | 3-grams ændret tekst |
Le mont Olympe Mont Olympe est Olympe est la er mest la plus haute højeste bjerg haute montagne de Montagne de Grèce | L'Olympe est la er mest la plus haute højeste bjerg haute montagne de Montagne de Grèce |
Eksempel på den virkelige verden
Efter afslutning af verifikation i et faktisk dokument identificeres omskrevet sektioner ofte gennem afbrudte markeringer. Disse afbrydelser, der angiver ændrede ord, er fremhævet for at øge synlighed og skelnen.
Nedenfor finder du et eksempel på et faktisk dokument.
- Det første uddrag kommer fra en fil, der er blevet verificeret ved hjælp af OXSICO Plagiatforebyggende service:
- Det andet uddrag er fra det originale kildedokument:
Efter en dybere analyse er det tydeligt, at den valgte del af dokumentet blev omskrevet ved at foretage følgende ændringer:
Oprindelig tekst | Omskrevet tekst | Ændringer |
understøtter innovation er også karakteriseret | bakker op om innovation er desuden defineret | Udskiftning |
økonomisk og social viden, effektive systemer | økonomisk og samfundsmæssig bevidsthed, effektiv organisation | Udskiftning |
forslag (ideer) | henstilling | Udskiftning, sletning |
holdninger | arbejdsstillinger | Udskiftning |
succes | vinder | Udskiftning |
proces (Perenc, Holub-Ivan | kognitiv proces (Perenc, Holub – Ivan | Tilsætning |
pro-innovation | gunstig | Udskiftning |
skabe et klima | : at skabe en betingelse | Udskiftning |
gunstig | blomstrende | Udskiftning |
udvikle viden | udviklingsbevidsthed | Udskiftning |
Konklusion
Plagiat, ofte uopdaget i tilfælde af parafrasering, er fortsat et væsentligt problem i den akademiske verden. Teknologiske fremskridt har udstyret plagiatcheckere med evnen til effektivt at identificere parafraseret indhold. Specifikt registrerer plagiatcheckere parafrasering gennem forskellige metoder som strengmatchning, cosinus-lighed og n-gram-analyse. Især skiller n-gram analyse sig ud for sin høje præcisionshastighed. Disse fremskridt reducerer væsentligt sandsynligheden for, at plagieret og parafraseret materiale bliver uopdaget, og derved forbedrer den akademiske integritet. |