Plagiarism ya ƙunshi ɗaukan yabo don ra'ayoyin wani, kalmomi, ko hotunan wani, aikin da aka yi la'akari m a fagen ilimi da sana'a. Dalibai ba za su iya lura da su ba waɗanda za su iya sake maimaita kalmomin wani ba tare da wata alama ba. Tun da ba a yi amfani da alamar zance ba lokacin da aka fayyace wani abu, yana iya tserewa daga hannun mai karantawa cikin sauƙi kuma ya ci gaba zuwa daftarin ƙarshe. Duk da haka, ba gaba ɗaya ba za a iya cimma shi ba, musamman tun da masu binciken saɓo suna gano fassarori da inganci a zamanin yau.
Gano fassarori na iya zama aiki mai wahala, domin ya ƙunshi gano kamanceceniya da bambance-bambance tsakanin rubutu. A cikin sassan da ke gaba, za mu shiga cikin cikakkiyar tattaunawa game da hanyoyin gama gari da dabaru da aka yi amfani da su don gane misalan fassarori.
Ta yaya masu duba saɓo suke gano juzu'i: Hanyoyi masu dacewa sun bincika
A cikin yanayin ilimi na yau, masu duba saƙon saƙo sun ƙara haɓaka, sun wuce nuna kwafin rubutu kawai zuwa gano abubuwan da aka kwafi. Wannan labarin yana bincika hanyoyin da ke ba da damar waɗannan kayan aikin don gano fassarorin yadda ya kamata.
1. Daidaiton igiya
Wannan hanyar ta ƙunshi kwatanta rubutu a matakin hali ko kalma don nuna ainihin matches. Matsayi mai girma na kamanni a jerin haruffa ko zaɓin kalmomi tsakanin rubutu biyu na iya sigina juzu'i. Waɗannan kayan aikin suna amfani da ƙayyadaddun algorithms waɗanda za su iya yin la'akari da ma'anar mahallin kalmomi, yana mai daɗa wahala ga abin da aka zayyana, abubuwan da aka zayyana su tafi ba a gano su ba.
2. Kwatankwacin Cosine
Kamancen cosine yana ɗaya daga cikin hanyoyin da masu binciken saɓo suke gano fassarori. Yana auna kamanceceniya tsakanin matani biyu dangane da kusurwar da ke tsakanin sifofin vector nasu a cikin sararin sarari mai girma. Ta hanyar wakiltar rubutu a matsayin madaidaitan kalmomi ko abubuwan haɗawa, waɗannan kayan aikin na iya ƙididdige makin kamanni na cosine don ƙara inganta ikonsu na gano abubuwan da aka fassara.
3. Samfuran daidaita kalmomi
Waɗannan samfuran suna daidaita kalmomi ko jimloli tsakanin rubutu guda biyu don tantance saƙonsu. Ta hanyar kwatanta ɓangarorin da aka haɗa, za ku iya gano fassarori dangane da kamanceceniya da bambance-bambance a cikin jerin da suka dace.
4. Nazarin Semantic
Wannan hanya ta ƙunshi nazarin ma'ana da mahallin kalmomi da jimloli a cikin matani. Dabaru kamar latent semantic analysis (LSA), kalmomin shigar da kalmomi (kamar Word2Vec ko GloVe), ko ƙirar ilmantarwa mai zurfi kamar BERT na iya ɗaukar alaƙar ma'anar kalmomi tsakanin kalmomi da gano fassarori dangane da kamanceceniyar mizanin fassarar su.
5. Koyon inji
Za a iya horar da algorithms na koyon injin da ake sa ido akan maƙallan bayanai na rubutun da ba a fassara su ba da kuma nau'i-nau'i na rubutu. Waɗannan ƙirar za su iya koyan ƙira da fasali waɗanda ke bambance juzu'i kuma ana iya amfani da su don rarraba sabbin misalan rubutu azaman juzu'i ko a'a.
6. N-gram bincike
N-grams rukuni ne na kalmomin da ke kusa da juna. Lokacin da kuka bincika sau nawa waɗannan ƙungiyoyi ke fitowa a cikin rubutu daban-daban kuma kuna kwatanta su, zaku iya samun jimloli iri ɗaya ko jeri. Idan akwai nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan nau'ikan na iya nufin cewa ana iya jujjuya rubutun.
7. Kusa da gano kwafi
Hanya ta ƙarshe da masu binciken saɓo suke gano fassarori yadda ya kamata.
Ana yin amfani da algorithms na gano kusa-kwafi akai-akai a cikin gano juzu'i don nuna ɓangarorin rubutu waɗanda ke nuna girman kamanni ko kusan iri ɗaya. Waɗannan algorithms an ƙirƙira su musamman don gane abubuwan da aka fassara ta hanyar kwatanta kamanni na rubutu akan matakin daki-daki.
Wace hanya ce ake amfani da ita ta software na rigakafin satar bayanai?
Hanyoyin fasaha da sabis na rigakafin ƙwararru ke amfani da su galibi suna dogara ne akan binciken n-gram. Ta hanyar yin amfani da fasahar tushen n-gram, waɗannan ayyukan suna samun daidaitaccen ƙimar ƙimar gaske. Wannan ita ce hanya mafi kyaun hanyoyin da masu binciken saɓo suke gano juzu'i, suna ba da damar ganowa da bayyana ainihin kalmomin da aka sake rubutawa.
Makanikai na yadda masu duban saɓo suke gano juzu'i
Sabis na rigakafin saɓo yawanci suna amfani da dabarar buga yatsa don kwatanta takardu. Wannan ya ƙunshi ciro n-gram ɗin da ake buƙata daga cikin takaddun don tabbatar da su tare da kwatanta su da n-gram na duk takaddun da ke cikin ma'ajin su.
Example
Bari mu ce akwai jumla: "Le mont Olympe est la plus haute montagne de Grèce. »
The n-gram (misali 3-gram) na wannan jumla zai kasance:
- Le Mont Olympe
- Mont Olympe est
- Olympe da
- shine mafi
- da plus haute
- da haute montagne
- haute montagne de
- montagne de Grece
Harka 1. Sauyawa
Idan an maye gurbin kalmar da wata kalma, har yanzu wasu daga cikin n-gram daidaita kuma yana yiwuwa a gano kalmar maye gurbin ta ƙarin bincike.
Jumla ta canza: "The dutse Olympe est la plus haute montagne de Péloponnèse. »
Asalin 3-gram | 3-gram na rubutu da aka canza |
Le Mont Olympe Mont Olympe est Olympe da shine mafi da plus haute da haute montagne haute montagne de montagne de Grece | Le dutse Olympus dutse Olympe da Olympe da shine mafi da plus haute da haute montagne haute montagne de Montagne de Péloponnèse |
Case 2. Canza odar kalmomi (ko jimloli, sakin layi)
Lokacin da aka canza tsarin jumla, har yanzu wasu gram 3 sun dace don haka yana yiwuwa a gano canjin.
Jumla ta canza: « La plus haute montagne de Grèce est Le mont Olympe. »
Asalin 3-gram | 3-gram na rubutu da aka canza |
Le Mont Olympe Mont Olympe est Olympe da shine mafi da plus haute da haute montagne haute montagne de montagne de Grece | La plus haute da haute montagne haute montagne de montagne de Grece de Grece est Grece da Le mun Le mont Le Mont Olympe |
Case 3. Ƙara sababbin kalmomi
Lokacin da aka ƙara sababbin kalmomi, har yanzu akwai wasu gram 3 da suka dace don haka yana yiwuwa a gano canjin.
Jumla ta canza: "Le mont Olympe est daga nesa la plus haute montagne de Grèce. »
Asalin 3-gram | 3-gram na rubutu da aka canza |
Le Mont Olympe Mont Olympe est Olympe da shine mafi da plus haute da haute montagne haute montagne de montagne de Grece | Le Mont Olympe Mont Olympe est Olympe da da loin mai nisa loin da plus da plus haute da haute montagne haute montagne de montagne de Grece |
Case 4. An goge wasu kalmomi
Lokacin da aka cire kalmar, har yanzu akwai wasu gram 3 da suka dace don haka yana yiwuwa a gano canjin.
Jumla ta canza: "L'Olympe est la plus haute montagne de Grèce. »
Asalin 3-gram | 3-gram na rubutu da aka canza |
Le Mont Olympe Mont Olympe est Olympe da shine mafi da plus haute da haute montagne haute montagne de montagne de Grece | Gasar Olympics shine mafi da plus haute da haute montagne haute montagne de montagne de Grece |
Misali na ainihi
Bayan an gama tabbatarwa a cikin ainihin takarda, ana gano sassan sassan da aka katse ta hanyar alamun da aka katse. Waɗannan katsewa, suna nuna kalmomin da aka canza, ana haskaka su don haɓaka gani da bambanta.
A ƙasa, zaku sami misali na ainihin takaddar.
- Fayil na farko ya fito ne daga fayil ɗin da aka tabbatar ta amfani da OXSICO sabis na rigakafin plagiarism:
- Zabi na biyu ya fito ne daga ainihin takaddar tushe:
Bayan zurfafa bincike a bayyane yake cewa ɓangaren da aka zaɓa na takaddar an fassara shi ta hanyar yin canje-canje masu zuwa:
Rubutun asali | Rubutun da aka kwatanta | canje-canje |
yana goyan bayan bidi'a kuma yana halin | baya da bidi'a ne banda ayyana | Sauyawa |
ilimin tattalin arziki da zamantakewa, ingantaccen tsarin | fahimtar tattalin arziki da zamantakewa, ingantaccen tsari | Sauyawa |
shawarwari (ra'ayoyi) | shawarwarin | Sauyawa, gogewa |
halaye | matsayi | Sauyawa |
nasara | lashe | Sauyawa |
tsari (Perenc, Holub-Ivan | tsarin fahimi (Perenc, Holub - Ivan | Bugu da kari |
pro-bidi'a | m | Sauyawa |
haifar da yanayi | : samar da yanayi | Sauyawa |
m | wadata | Sauyawa |
bunkasa ilimi | wayar da kan ci gaba | Sauyawa |
Kammalawa
Zargi, akai-akai ba a gano shi ba a lokuta na fassarorin magana, ya kasance babban abin damuwa a fannin ilimi. Ci gaban fasaha sun samar da masu binciken satar bayanai tare da ikon tantance abubuwan da aka fayyace yadda ya kamata. Musamman, masu binciken saɓo suna gano juzu'i ta hanyoyi daban-daban kamar daidaitawar kirtani, kamannin cosine, da kuma binciken n-gram. Musamman ma, binciken n-gram ya yi fice don madaidaicin ƙimar sa. Waɗannan ci gaban suna rage yuwuwar abubuwan da ba a iya gano su ba tare da bayyana su ba, don haka suna haɓaka amincin ilimi. |