Bij plagiaat gaat het om het opeisen van de ideeën, woorden of afbeeldingen van iemand anders, een praktijk die wordt overwogen onethisch in academische en professionele omgevingen. Het kan onopgemerkt blijven door leerlingen die per ongeluk de woorden van iemand anders herformuleren zonder de juiste bronvermelding. Omdat er bij het parafraseren van iets geen aanhalingstekens worden gebruikt, kan het gemakkelijk aan de greep van een proeflezer ontsnappen en doorgaan naar de definitieve versie. Het is echter niet geheel onhaalbaar, vooral omdat plagiaatcontroleurs tegenwoordig efficiënter parafraseren.
Het detecteren van parafrasering kan een uitdagende taak zijn, omdat het gaat om het identificeren van overeenkomsten en verschillen tussen teksten. In de volgende secties zullen we dieper ingaan op een uitgebreide discussie over algemene methoden en technieken die worden gebruikt om gevallen van parafrasering te onderscheiden.
Hoe detecteren plagiaatcontroleurs parafrasering: geschikte methoden onderzocht
In het huidige onderwijslandschap zijn plagiaatcontroles steeds geavanceerder geworden en gaan ze verder dan alleen het markeren van gekopieerde tekst, maar ook het detecteren van geparafraseerde inhoud. Dit artikel onderzoekt de methoden waarmee deze tools parafrasering effectief kunnen identificeren.
1. Stringmatching
Deze methode omvat het vergelijken van teksten op teken- of woordniveau om exacte overeenkomsten te lokaliseren. Een hoge mate van gelijkenis in tekenreeksen of woordkeuzes tussen twee teksten kan duiden op parafrasering. Deze tools maken gebruik van complexe algoritmen die zelfs rekening kunnen houden met de contextuele betekenis van woorden, waardoor het steeds moeilijker wordt voor geplagieerd, geparafraseerd materiaal om onopgemerkt te blijven.
2. Cosinus-overeenkomst
Cosinus-gelijkenis is een van de methoden waarmee plagiaatcontroleurs parafrasering detecteren. Het meet de gelijkenis tussen twee teksten op basis van de hoek tussen hun vectorrepresentaties in een hoogdimensionale ruimte. Door teksten weer te geven als vectoren van woordfrequenties of inbedding, kunnen deze tools de cosinus-gelijkenisscore berekenen om hun vermogen om geparafraseerde inhoud te detecteren verder te verfijnen.
3. Modellen voor woorduitlijning
Deze modellen lijnen woorden of zinsdelen tussen twee teksten uit om hun overeenkomsten te identificeren. Door de uitgelijnde segmenten te vergelijken, kunt u parafrasering detecteren op basis van overeenkomsten en verschillen in de overeenkomende reeksen.
4. Semantische analyse
Deze benadering omvat het analyseren van de betekenis en context van woorden en zinnen in teksten. Technieken zoals latente semantische analyse (LSA), woordinbedding (zoals Word2Vec of GloVe), of deep learning-modellen zoals BERT kunnen semantische relaties tussen woorden vastleggen en parafrasering identificeren op basis van de gelijkenis van hun semantische representaties.
5. Machinaal leren
Algoritmen voor machinaal leren onder supervisie kunnen worden getraind op gelabelde datasets van geparafraseerde en niet-geparafraseerde tekstparen. Deze modellen kunnen patronen en kenmerken leren die parafrasen onderscheiden en kunnen worden gebruikt om nieuwe tekstinstanties te classificeren als geparafraseerd of niet.
6. N-gram-analyse
N-grammen zijn groepen woorden die vlak naast elkaar staan. Als je controleert hoe vaak deze groepen in verschillende teksten voorkomen en ze vergelijkt, kun je vergelijkbare zinnen of reeksen vinden. Als er veel vergelijkbare patronen zijn, kan dit betekenen dat de tekst mogelijk is geparafraseerd.
7. Bijna-duplicaatdetectie
De laatste manier waarop plagiaatcontroleurs parafrasering effectief kunnen detecteren.
Bijna-duplicaatdetectiealgoritmen worden vaak gebruikt bij het parafraseren van tekstsegmenten die een hoge mate van gelijkenis vertonen of vrijwel identiek zijn. Deze algoritmen zijn speciaal ontworpen om geparafraseerde inhoud te herkennen door de gelijkenis van tekst op een gedetailleerd niveau te vergelijken.
Welke methode wordt meestal gebruikt door plagiaatpreventiesoftware?
Technologische oplossingen die door professionele plagiaatpreventiediensten worden gebruikt, zijn doorgaans afhankelijk van n-gram-analyse. Door gebruik te maken van op n-gram gebaseerde technologie bereiken deze services een opmerkelijk hoge nauwkeurigheid. Dit is een van de beste manieren waarop plagiaatcontroleurs parafrasering detecteren, waardoor exacte woorden die zijn herschreven kunnen worden geïdentificeerd en gemarkeerd.
Mechanica van hoe plagiaatcontroleurs parafrasering detecteren
Plagiaatpreventiediensten maken gewoonlijk gebruik van de techniek van vingerafdrukken om documenten te vergelijken. Dit omvat het extraheren van de benodigde n-grammen uit de te verifiëren documenten en deze te vergelijken met de n-grammen van alle documenten in hun databases.
Voorbeeld
Laten we zeggen dat er een zin is: « Le mont Olympe is de plus van de haute montagne de Grèce. »
De n-gram (bijvoorbeeld 3 gram) van deze zin zal zijn:
- De berg Olympe
- Mont Olympe est
- Olympe is la
- is het meest
- la plus hoog
- hoogste berg
- hoge berg de
- berg de Grèce
Geval 1. Vervanging
Als het woord wordt vervangen door het andere woord, blijft een deel van de n-gram overeenkomen en het is mogelijk om de woordvervanging te detecteren door verdere analyse.
Gewijzigde zin: De bergen Olympe is de plus hoge berg Peloponnesos. '
Origineel 3 gram | 3 gram gewijzigde tekst |
De berg Olympe Mont Olympe est Olympe is la is het meest la plus hoog hoogste berg hoge berg de berg de Grèce | Le bergen Olympus bergen Olympisch est Olympe is la is het meest la plus hoog hoogste berg hoge berg de Berg van Peloponnesos |
Geval 2. Veranderde de volgorde van woorden (of zinnen, paragrafen)
Wanneer de volgorde van de zin wordt gewijzigd, komen er nog steeds ongeveer 3 gram overeen, zodat het mogelijk is de verandering te detecteren.
Gewijzigde zin: « La plus haute montagne de Grèce est Le mont Olympe. »
Origineel 3 gram | 3 gram gewijzigde tekst |
De berg Olympe Mont Olympe est Olympe is la is het meest la plus hoog hoogste berg hoge berg de berg de Grèce | La plus hoog hoogste berg hoge berg de berg de Grèce de Grece est Griekenland est Le est Le mont De berg Olympe |
Geval 3. Nieuwe woorden toegevoegd
Wanneer de nieuwe woorden worden toegevoegd, zijn er nog ongeveer 3 gram die overeenkomen, dus het is mogelijk om de verandering te detecteren.
Gewijzigde zin: « Le Mont Olympe est van ver la plus haute montagne de Grèce. »
Origineel 3 gram | 3 gram gewijzigde tekst |
De berg Olympe Mont Olympe est Olympe is la is het meest la plus hoog hoogste berg hoge berg de berg de Grèce | De berg Olympe Mont Olympe est Olympe is de is veruit ver weg lendenen plus la plus hoog hoogste berg hoge berg de berg de Grèce |
Geval 4. Enkele woorden verwijderd
Wanneer het woord wordt verwijderd, zijn er nog steeds ongeveer 3 gram die overeenkomen, dus het is mogelijk om de verandering te detecteren.
Gewijzigde zin: « L'Olympe is de plus van de haute montagne de Grèce. »
Origineel 3 gram | 3 gram gewijzigde tekst |
De berg Olympe Mont Olympe est Olympe is la is het meest la plus hoog hoogste berg hoge berg de berg de Grèce | L'Olympe is la is het meest la plus hoog hoogste berg hoge berg de berg de Grèce |
Voorbeeld uit de echte wereld
Na voltooiing van de verificatie in een echt document, worden geparafraseerde secties vaak geïdentificeerd door middel van onderbroken markeringen. Deze onderbrekingen, die gewijzigde woorden aangeven, zijn gemarkeerd om de zichtbaarheid en het onderscheid te vergroten.
Hieronder vindt u een voorbeeld van een daadwerkelijk document.
- Het eerste fragment komt uit een bestand dat is geverifieerd met behulp van de OXSICO dienst voor plagiaatpreventie:
- Het tweede fragment komt uit het originele brondocument:
Na een diepere analyse is het duidelijk dat het geselecteerde deel van het document werd geparafraseerd door de volgende wijzigingen aan te brengen:
Originele tekst | Geparafraseerde tekst | Wijzigingen |
ondersteunt innovatie wordt ook gekenmerkt | back-up van innovatie is bovendien gedefinieerd | Vervanging |
economische en sociale kennis, efficiënte systemen | economisch en maatschappelijk bewustzijn, efficiënte organisatie | Vervanging |
voorstellen (ideeën) | aanbeveling | Vervanging, verwijdering |
houdingen | houdingen | Vervanging |
succes | winnaar | Vervanging |
proces (Perenc, Holub-Ivan | cognitief proces (Perenc, Holub – Ivan | Toevoeging |
pro-innovatie | gunstig | Vervanging |
creëren van een klimaat | : een voorwaarde scheppen | Vervanging |
gunstig | welvarend | Vervanging |
kennis ontwikkelen | ontwikkelingsbewustzijn | Vervanging |
Conclusie
Plagiaat, dat vaak onopgemerkt blijft bij parafrasering, blijft een groot probleem in de academische wereld. Technologische vooruitgang heeft plagiaatcontroleurs uitgerust met de mogelijkheid om geparafraseerde inhoud effectief te identificeren. In het bijzonder detecteren plagiaatcontroles parafrasering via verschillende methoden, zoals het matchen van tekenreeksen, cosinus-overeenkomst en n-gram-analyse. Met name valt de n-gram-analyse op door zijn hoge nauwkeurigheid. Deze vooruitgang verkleint aanzienlijk de kans dat geplagieerd en geparafraseerd materiaal onopgemerkt blijft, waardoor de academische integriteit wordt vergroot. |