Le plagiat consiste à s'attribuer le mérite des idées, des mots ou des images de quelqu'un d'autre, une pratique considérée comme immoral dans les milieux académiques et professionnels. Cela peut passer inaperçu auprès des étudiants qui peuvent accidentellement reformuler les mots de quelqu'un d'autre sans attribution appropriée. Étant donné que les guillemets ne sont pas utilisés lorsque quelque chose est paraphrasé, cela peut facilement échapper à l'emprise d'un relecteur et se retrouver dans la version finale. Cependant, cela n’est pas totalement irréalisable, d’autant plus que les vérificateurs de plagiat détectent aujourd’hui plus efficacement les paraphrases.
Détecter la paraphrase peut être une tâche difficile, car elle implique d'identifier les similitudes et les différences entre les textes. Dans les sections suivantes, nous approfondirons une discussion approfondie sur les méthodes et techniques courantes utilisées pour discerner les cas de paraphrase.
Comment les vérificateurs de plagiat détectent-ils les paraphrases : méthodes appropriées explorées
Dans le paysage éducatif actuel, les vérificateurs de plagiat sont devenus de plus en plus avancés, allant au-delà du simple signalement du texte copié pour détecter également le contenu paraphrasé. Cet article explore les méthodes permettant à ces outils d’identifier efficacement les paraphrases.
1. Correspondance de chaînes
Cette méthode consiste à comparer des textes au niveau des caractères ou des mots pour identifier les correspondances exactes. Un degré élevé de similitude dans les séquences de caractères ou dans les choix de mots entre deux textes pourrait indiquer une paraphrase. Ces outils utilisent des algorithmes complexes qui peuvent même prendre en compte la signification contextuelle des mots, ce qui rend de plus en plus difficile la détection de contenus plagiés et paraphrasés.
2. Similitude cosinus
La similarité cosinus est l’une des méthodes par lesquelles les vérificateurs de plagiat détectent les paraphrases. Il mesure la similarité entre deux textes en fonction de l'angle entre leurs représentations vectorielles dans un espace de grande dimension. En représentant les textes comme des vecteurs de fréquences de mots ou d'intégrations, ces outils peuvent calculer le score de similarité cosinus pour affiner davantage leur capacité à détecter le contenu paraphrasé.
3. Modèles d'alignement de mots
Ces modèles alignent des mots ou des phrases entre deux textes pour identifier leurs correspondances. En comparant les segments alignés, vous pouvez détecter une paraphrase basée sur les similitudes et les différences dans les séquences correspondantes.
4. Analyse sémantique
Cette approche consiste à analyser le sens et le contexte des mots et des phrases dans les textes. Des techniques telles que l'analyse sémantique latente (LSA), les incorporations de mots (telles que Word2Vec ou GloVe) ou des modèles d'apprentissage en profondeur comme BERT peuvent capturer les relations sémantiques entre les mots et identifier la paraphrase en fonction de la similitude de leurs représentations sémantiques.
5. Apprentissage machine
Les algorithmes d'apprentissage automatique supervisé peuvent être entraînés sur des ensembles de données étiquetés de paires de textes paraphrasés et non paraphrasés. Ces modèles peuvent apprendre des modèles et des caractéristiques qui distinguent les paraphrases et peuvent être utilisés pour classer de nouvelles instances de texte comme paraphrasées ou non.
6. Analyse N-gramme
Les N-grammes sont des groupes de mots placés les uns à côté des autres. Lorsque vous vérifiez la fréquence à laquelle ces groupes apparaissent dans différents textes et que vous les comparez, vous pouvez trouver des phrases ou des séquences similaires. S’il existe de nombreux modèles similaires, cela pourrait signifier que le texte a peut-être été paraphrasé.
7. Détection de quasi-doublons
C’est la dernière façon dont les vérificateurs de plagiat détectent efficacement les paraphrases.
Les algorithmes de détection de quasi-doublons sont fréquemment utilisés dans la détection de paraphrase pour identifier les segments de texte qui affichent un degré élevé de similitude ou sont presque identiques. Ces algorithmes sont spécialement conçus pour reconnaître le contenu paraphrasé grâce à la comparaison de la similarité du texte à un niveau détaillé.
Quelle méthode est généralement utilisée par les logiciels de prévention du plagiat ?
Les solutions technologiques utilisées par les services professionnels de prévention du plagiat reposent généralement sur l’analyse n-gram. En tirant parti de la technologie basée sur n-gram, ces services atteignent un taux de précision remarquablement élevé. C’est l’un des meilleurs moyens par lesquels les vérificateurs de plagiat détectent les paraphrases, permettant ainsi d’identifier et de mettre en évidence les mots exacts qui ont été réécrits.
Mécanismes permettant aux vérificateurs de plagiat de détecter les paraphrases
Les services de prévention du plagiat utilisent couramment la technique des empreintes digitales pour comparer les documents. Cela implique d'extraire les n-grammes nécessaires des documents à vérifier et de les comparer avec les n-grammes de tous les documents de leurs bases de données.
Exemple
Disons qu'il y a une phrase : « Le mont Olympe est la plus haute montagne de Grèce. »
L' n-grammes (par exemple 3 grammes) de cette phrase sera :
- Le mont Olympe
- mont Olympe est
- Olympe est la
- c'est le plus
- la plus haute
- plus haute montagne
- haute montagne de
- montagne de Grèce
Cas 1. Remplacement
Si le mot est remplacé par l'autre mot, encore certains des n-grammes match et il est possible de détecter le mot de remplacement par une analyse plus poussée.
Phrase modifiée : «Le montagne Olympe est la plus haute montagne de Péloponnèse. »
Original 3 grammes | 3 grammes de texte modifié |
Le mont Olympe mont Olympe est Olympe est la c'est le plus la plus haute plus haute montagne haute montagne de montagne de Grèce | Le montagne Olympe montagne Olympe est Olympe est la c'est le plus la plus haute plus haute montagne haute montagne de Montagne de Péloponnèse |
Cas 2. Modification de l'ordre des mots (ou phrases, paragraphes)
Lorsque l'ordre de la phrase est modifié, certains 3 grammes correspondent toujours, il est donc possible de détecter le changement.
Phrase modifiée : « La plus haute montagne de Grèce est Le mont Olympe. »
Original 3 grammes | 3 grammes de texte modifié |
Le mont Olympe mont Olympe est Olympe est la c'est le plus la plus haute plus haute montagne haute montagne de montagne de Grèce | La plus haute plus haute montagne haute montagne de montagne de Grèce de Grèce est Grèce est Le est Le mont Le mont Olympe |
Cas 3. Ajout de nouveaux mots
Lorsque les nouveaux mots sont ajoutés, il y a encore quelques 3 grammes qui correspondent, il est donc possible de détecter le changement.
Phrase modifiée : « Le mont Olympe est de longe la plus haute montagne de Grèce. »
Original 3 grammes | 3 grammes de texte modifié |
Le mont Olympe mont Olympe est Olympe est la c'est le plus la plus haute plus haute montagne haute montagne de montagne de Grèce | Le mont Olympe mont Olympe est Olympe est de est de loin de loin la longe la plus la plus haute plus haute montagne haute montagne de montagne de Grèce |
Cas 4. Suppression de certains mots
Lorsque le mot est supprimé, il y a encore quelques 3 grammes qui correspondent, il est donc possible de détecter le changement.
Phrase modifiée : « L'Olympe est la plus haute montagne de Grèce. »
Original 3 grammes | 3 grammes de texte modifié |
Le mont Olympe mont Olympe est Olympe est la c'est le plus la plus haute plus haute montagne haute montagne de montagne de Grèce | L'Olympe est la c'est le plus la plus haute plus haute montagne haute montagne de montagne de Grèce |
Exemple du monde réel
À la fin de la vérification dans un document réel, les sections paraphrasées sont souvent identifiées par des marquages interrompus. Ces interruptions, indiquant des mots modifiés, sont mises en évidence pour améliorer la visibilité et la distinction.
Ci-dessous, vous trouverez un exemple de document réel.
- Le premier extrait provient d'un fichier qui a été vérifié à l'aide du OXSICO Service de prévention du plagiat :
- Le deuxième extrait est tiré du document source original :
Après une analyse plus approfondie, il apparaît évident que la partie sélectionnée du document a été paraphrasée en apportant les modifications suivantes :
Texte original | Texte paraphrasé | Modifications |
soutient l'innovation se caractérise également | soutient l'innovation est d'ailleurs définie | après extraction |
connaissances économiques et sociales, systèmes efficaces | conscience économique et sociétale, organisation efficace | après extraction |
propositions (idées) | recommandation | Remplacement, suppression |
les attitudes | postures | après extraction |
succès | gagnant | après extraction |
processus (Perenc, Holub-Ivan | processus cognitif (Perenc, Holub – Ivan | Addition |
pro-innovation | favorable | après extraction |
créer un climat | : créer une condition | après extraction |
favorable | prospère | après extraction |
développer des connaissances | sensibilisation au développement | après extraction |
Conclusion
Le plagiat, souvent non détecté dans les cas de paraphrase, reste une préoccupation majeure dans le monde universitaire. Les progrès technologiques ont doté les vérificateurs de plagiat de la capacité d’identifier efficacement le contenu paraphrasé. Plus précisément, les vérificateurs de plagiat détectent les paraphrases grâce à diverses méthodes telles que la correspondance de chaînes, la similarité cosinus et l'analyse n-gramme. L’analyse n-grammes se distingue notamment par son taux de haute précision. Ces progrès réduisent considérablement la probabilité que des documents plagiés et paraphrasés ne soient pas détectés, améliorant ainsi l'intégrité académique. |