Wizi unahusisha kuchukua sifa kwa mawazo, maneno, au picha za mtu mwingine, jambo linalozingatiwa unethical katika mazingira ya kitaaluma na kitaaluma. Inaweza kutotambuliwa na wanafunzi ambao wanaweza kutaja tena maneno ya mtu mwingine kimakosa bila sifa ifaayo. Kwa kuwa alama za nukuu hazitumiki wakati kitu kinapofafanuliwa, kinaweza kuepukwa kwa urahisi na msahihishaji na kuingia katika rasimu ya mwisho. Walakini, haiwezi kufikiwa kabisa, haswa kwa vile wakaguzi wa wizi wanaona kufafanua kwa ufanisi zaidi siku hizi.
Kugundua tafsiri za maneno inaweza kuwa kazi ngumu, kwani inahusisha kutambua kufanana na tofauti kati ya maandiko. Katika sehemu zinazofuata, tutaingia katika mjadala wa kina kuhusu mbinu na mbinu za kawaida zinazotumiwa kutambua matukio ya ufafanuaji.
Vikagua vya wizi hugundua vipi usemi: Mbinu zinazofaa zilichunguzwa
Katika mazingira ya kisasa ya elimu, vikaguzi vya wizi vimezidi kuwa vya hali ya juu, na kupita tu kuripoti maandishi yaliyonakiliwa hadi pia kugundua maudhui yaliyofafanuliwa. Makala haya yanachunguza mbinu zinazoruhusu zana hizi kutambua vyema vifungu vya maneno.
1. Kufanana kwa kamba
Mbinu hii inahusisha kulinganisha matini katika kiwango cha mhusika au neno ili kubainisha ulinganifu kamili. Kiwango cha juu cha ufanano katika mfuatano wa herufi au chaguo la maneno kati ya matini mbili kinaweza kuashiria ufafanuaji. Zana hizi hutumia algoriti changamano ambazo zinaweza hata kuzingatia maana ya muktadha ya maneno, na hivyo kuifanya iwe vigumu zaidi kwa nyenzo zilizoidhinishwa na zilizofafanuliwa kutotambuliwa.
2. Kufanana kwa cosine
Kufanana kwa cosine ni mojawapo ya njia ambazo wakaguzi wa wizi hugundua kufafanua. Inapima kufanana kati ya maandishi mawili kulingana na pembe kati ya uwakilishi wao wa vekta katika nafasi ya juu-dimensional. Kwa kuwakilisha matini kama vivekta vya masafa ya maneno au upachikaji, zana hizi zinaweza kukokotoa alama ya mfanano wa cosine ili kuboresha zaidi uwezo wao wa kugundua maudhui yaliyofafanuliwa.
3. Vielelezo vya upatanishi wa maneno
Mifano hizi hulinganisha maneno au vishazi kati ya matini mbili ili kubainisha mawasiliano yao. Kwa kulinganisha sehemu zilizosawazishwa, unaweza kugundua maneno kulingana na kufanana na tofauti katika mlolongo unaolingana.
4. Uchambuzi wa kisemantiki
Mbinu hii inahusisha kuchanganua maana na muktadha wa maneno na vishazi katika matini. Mbinu kama vile uchanganuzi fiche wa kisemantiki (LSA), upachikaji wa maneno (kama vile Word2Vec au GloVe), au miundo ya kina ya kujifunza kama BERT inaweza kunasa uhusiano wa kisemantiki kati ya maneno na kutambua uandikaji kulingana na ulinganifu wa uwakilishi wao wa kisemantiki.
5. Mafunzo ya mashine
Kanuni za ujifunzaji wa mashine zinazosimamiwa zinaweza kufunzwa kwenye seti za data zilizo na lebo za jozi za maandishi zilizofafanuliwa na zisizo na vifungu. Miundo hii inaweza kujifunza ruwaza na vipengele vinavyotofautisha vifungu vya maneno na vinaweza kutumika kuainisha matukio mapya ya maandishi kama yaliyofafanuliwa au la.
6. Uchambuzi wa N-gram
N-gramu ni makundi ya maneno yaliyo karibu na kila mmoja. Unapoangalia ni mara ngapi vikundi hivi vinaonekana katika maandishi tofauti na kulinganisha, unaweza kupata misemo sawa au mfuatano. Ikiwa kuna mifumo mingi inayofanana, inaweza kumaanisha kuwa maandishi yanaweza kuwa yamefafanuliwa.
7. Karibu na ugunduzi wa nakala
Njia ya mwisho ambayo wakaguzi wa wizi hugundua ufafanuaji kwa ufanisi.
Algorithms za utambuzi wa karibu nakala hutumiwa mara kwa mara katika ugunduzi wa maneno ili kubainisha sehemu za maandishi zinazoonyesha kiwango cha juu cha ufanano au karibu kufanana. Algoriti hizi zimeundwa mahususi ili kutambua maudhui yaliyofafanuliwa kupitia ulinganisho wa ulinganifu wa maandishi katika kiwango cha kina.
Ni njia gani kawaida hutumiwa na programu ya kuzuia wizi?
Suluhu za kiteknolojia zinazotumiwa na huduma za kitaalamu za kuzuia wizi kwa kawaida hutegemea uchanganuzi wa n-gram. Kwa kutumia teknolojia inayotegemea n-gram, huduma hizi hufikia kiwango cha juu cha usahihi. Hii ni mojawapo ya njia bora zaidi vikagua wizi wa data hugundua ufafanuaji, kuwezesha utambulisho na kuangazia maneno kamili ambayo yameandikwa upya.
Mitambo ya jinsi vikaguzi vya wizi wa data hugundua ufafanuzi
Huduma za kuzuia wizi kwa kawaida hutumia mbinu ya uchapaji vidole ili kulinganisha hati. Hii inahusisha kutoa n-gramu muhimu kutoka kwa hati za kuthibitishwa na kuzilinganisha na n-gramu za hati zote kwenye hifadhidata zao.
mfano
Wacha tuseme kuna sentensi: « Le mont Olympe est la plus haute montagne de Grèce. »
The n-gramu (kwa mfano, gramu 3) ya sentensi hii itakuwa:
- Le mont Olympe
- mont Olympe est
- Olympe est la
- ni zaidi
- la plus haute
- pamoja na haute montagne
- haute montagne de
- montagne de Grece
Kesi 1. Uingizwaji
Ikiwa neno linabadilishwa na neno lingine, bado baadhi ya n-gramu mechi na inawezekana kugundua uingizwaji wa neno kwa uchambuzi zaidi.
Sentensi iliyobadilishwa: " milima Olympe est la plus haute montagne de Peloponnese. "
Asili 3-gramu | 3-gramu za maandishi yaliyobadilishwa |
Le mont Olympe mont Olympe est Olympe est la ni zaidi la plus haute pamoja na haute montagne haute montagne de montagne de Grece | Le milima Olympus milima Olympe est Olympe est la ni zaidi la plus haute pamoja na haute montagne haute montagne de Montagne de Peloponnese |
Kesi 2. Ilibadilisha mpangilio wa maneno (au sentensi, aya)
Wakati mpangilio wa sentensi unabadilishwa, bado gramu 3 zinalingana kwa hivyo inawezekana kugundua mabadiliko.
Sentensi iliyobadilishwa: « La plus haute montagne de Grèce est Le mont Olympe. »
Asili 3-gramu | 3-gramu za maandishi yaliyobadilishwa |
Le mont Olympe mont Olympe est Olympe est la ni zaidi la plus haute pamoja na haute montagne haute montagne de montagne de Grece | La plus haute pamoja na haute montagne haute montagne de montagne de Grece de Grece est Grece est Le est Le mont Le mont Olympe |
Kesi 3. Aliongeza maneno mapya
Maneno mapya yanapoongezwa, bado kuna baadhi ya gramu 3 zinazolingana kwa hivyo inawezekana kugundua mabadiliko.
Sentensi iliyobadilishwa: « Le mont Olympe est kwa mbali la plus haute montagne de Grèce. »
Asili 3-gramu | 3-gramu za maandishi yaliyobadilishwa |
Le mont Olympe mont Olympe est Olympe est la ni zaidi la plus haute pamoja na haute montagne haute montagne de montagne de Grece | Le mont Olympe mont Olympe est Olympe est de est de loin mbali loin la plus la plus haute pamoja na haute montagne haute montagne de montagne de Grece |
Kesi 4. Imefuta baadhi ya maneno
Neno linapoondolewa, bado kuna baadhi ya gramu 3 zinazofanana hivyo inawezekana kugundua mabadiliko.
Sentensi iliyobadilishwa: « L'Olympe est la plus haute montagne de Grèce. »
Asili 3-gramu | 3-gramu za maandishi yaliyobadilishwa |
Le mont Olympe mont Olympe est Olympe est la ni zaidi la plus haute pamoja na haute montagne haute montagne de montagne de Grece | L'Olympe est la ni zaidi la plus haute pamoja na haute montagne haute montagne de montagne de Grece |
Mfano halisi wa ulimwengu
Baada ya kukamilika kwa uthibitishaji katika hati halisi, sehemu zilizofafanuliwa mara nyingi hutambuliwa kupitia alama zilizoingiliwa. Vikatizo hivi, vinavyoashiria maneno yaliyobadilishwa, vinasisitizwa ili kuongeza mwonekano na upambanuzi.
Chini, utapata mfano wa hati halisi.
- Dondoo ya kwanza inatoka kwa faili ambayo imethibitishwa kwa kutumia faili ya OXSICO huduma ya kuzuia wizi:
- Dondoo la pili ni kutoka kwa hati asilia:
Baada ya uchambuzi wa kina ni dhahiri kuwa sehemu iliyochaguliwa ya hati ilifafanuliwa kwa kufanya mabadiliko yafuatayo:
Maandishi asilia | Maandishi yaliyofafanuliwa | Mabadiliko |
inasaidia innovation pia ni sifa | Backs up innovation ni badala ya kufafanuliwa | Replacement |
maarifa ya kiuchumi na kijamii, mifumo ya ufanisi | ufahamu wa kiuchumi na kijamii, shirika lenye ufanisi | Replacement |
mapendekezo (mawazo) | mapendekezo | Kubadilisha, kufuta |
mitazamo | matukio | Replacement |
mafanikio | mshindi | Replacement |
mchakato (Perenc, Holub-Ivan | mchakato wa utambuzi (Perenc, Holub - Ivan | Aidha |
pro-innovation | mazuri | Replacement |
kuunda hali ya hewa | : kuunda hali | Replacement |
mazuri | kufanikiwa | Replacement |
kukuza maarifa | ufahamu wa maendeleo | Replacement |
Hitimisho
Wizi, ambao mara nyingi haujagunduliwa katika visa vya kufafanua, unasalia kuwa wasiwasi mkubwa katika taaluma. Maendeleo ya kiteknolojia yamewawezesha wakaguzi wa wizi wenye uwezo wa kutambua vyema maudhui yaliyofafanuliwa. Hasa, vikagua vya wizi hugundua ufafanuzi kupitia mbinu mbalimbali kama vile ulinganishaji wa kamba, mfanano wa cosine, na uchanganuzi wa n-gram. Hasa, uchanganuzi wa n-gram unasimama kwa kiwango cha juu cha usahihi. Maendeleo haya hupunguza kwa kiasi kikubwa uwezekano wa nyenzo zilizoigizwa na zilizofafanuliwa bila kutambuliwa, na hivyo kuimarisha uadilifu wa kitaaluma. |