Плагиат гэдэг нь хэн нэгний санаа, үг, дүр төрхийг хүлээн зөвшөөрөх явдал юм ёс зүйгүй эрдэм шинжилгээний болон мэргэжлийн орчинд. Энэ нь өөр хэн нэгний үгийг зохих хамааралгүйгээр санамсаргүйгээр давтаж хэлэх оюутнуудад анзаарагдахгүй байж болно. Ямар нэг зүйлийг тайлбарлахдаа хашилт хэрэглэдэггүй тул засварлагчийн гараас амархан мултарч, эцсийн ноорог руугаа орох боломжтой. Гэсэн хэдий ч, энэ нь бүрэн боломжгүй зүйл биш юм, ялангуяа хулгайн гэмт хэрэг шалгагч орчин үед илүү үр дүнтэй үг хэллэгийг илрүүлдэг.
Текстүүдийн хоорондын ижил төстэй байдал, ялгааг олж тогтоохтой холбоотой үг хэллэгийг илрүүлэх нь хэцүү ажил байж болно. Дараагийн хэсгүүдэд бид үг хэллэгийн тохиолдлыг ялгахын тулд ашигладаг нийтлэг арга, аргын талаар дэлгэрэнгүй ярилцах болно.
Хулгайн гэмт хэрэг шалгагч нь үг хэллэгийг хэрхэн илрүүлдэг вэ: Тохиромжтой аргуудыг судалсан
Өнөөгийн боловсролын орчинд хулгайн гэмт хэрэг шалгагч нь зөвхөн хуулбарласан текстийг дарцаглахаас гадна хувиргасан агуулгыг илрүүлэх хүртэл илүү дэвшилтэт болж байна. Энэ нийтлэл нь эдгээр хэрэглүүрээр үг хэллэгийг үр дүнтэй тодорхойлох боломжийг олгодог аргуудыг судлах болно.
1. Мөр тааруулах
Энэ арга нь текстийг тэмдэгт эсвэл үгийн түвшинд харьцуулж, яг таарч тохирохыг тодорхойлох явдал юм. Хоёр текстийн хоорондох тэмдэгтийн дараалал эсвэл үгийн сонголтын өндөр түвшний ижил төстэй байдал нь хувиргах дохио болно. Эдгээр хэрэгслүүд нь үгийн контекст утгыг хүртэл авч үзэх нарийн төвөгтэй алгоритмуудыг ашигладаг бөгөөд энэ нь хулгайлагдсан, хувиргасан материалыг илрүүлэхгүй байх нь улам бүр хэцүү болгодог.
2. Косинусын ижил төстэй байдал
Косинусын ижил төстэй байдал нь хулгайн гэмт хэрэг шалгагч нь өөр үг хэллэгийг илрүүлэх аргуудын нэг юм. Энэ нь хоёр текстийн ижил төстэй байдлыг өндөр хэмжээст орон зайд вектор дүрслэлийн хоорондох өнцгөөр хэмждэг. Текстүүдийг үгийн давтамж эсвэл оруулгын вектор болгон төлөөлөх замаар эдгээр хэрэглүүр нь косинусын ижил төстэй байдлын оноог тооцоолж, хөрвүүлсэн агуулгыг илрүүлэх чадварыг улам боловсронгуй болгож чадна.
3. Үгийг зэрэгцүүлэх загварууд
Эдгээр загварууд нь хоёр текстийн хооронд үг, хэллэгийг хооронд нь уялдуулж, тэдгээрийн захидал харилцааг тодорхойлдог. Зэрэгцүүлсэн хэсгүүдийг харьцуулснаар та тохирох дарааллын ижил төстэй байдал ба ялгаан дээр үндэслэн хэллэгийг илрүүлж болно.
4. Утга зүйн шинжилгээ
Энэ арга нь текст дэх үг, хэллэгийн утга, нөхцөл байдалд дүн шинжилгээ хийх явдал юм. Далд семантик шинжилгээ (LSA), үг оруулах (Word2Vec эсвэл GloVe гэх мэт) эсвэл BERT гэх мэт гүнзгий суралцах загварууд гэх мэт аргууд нь үгсийн хоорондын утгын хамаарлыг олж авч, тэдгээрийн утгын дүрслэлийн ижил төстэй байдалд тулгуурлан үг хэллэгийг тодорхойлох боломжтой.
5. Машины сургалт
Хяналттай машин сургалтын алгоритмуудыг хувиргасан болон хувираагүй хос текстийн шошготой өгөгдлийн багц дээр сургаж болно. Эдгээр загварууд нь үг хэллэгийг ялгах хэв маяг, шинж чанаруудыг сурч, текстийн шинэ тохиолдлуудыг хувиргасан, эсхүл ангилахад ашиглаж болно.
6. N-грамм шинжилгээ
N-грамм нь бие биенийхээ хажууд байрлах үгсийн бүлгүүд юм. Эдгээр бүлгүүд өөр өөр бичвэрт хэр олон удаа гарч ирдгийг шалгаж, тэдгээрийг харьцуулахдаа ижил төстэй хэллэг эсвэл дарааллыг олж болно. Хэрэв ижил төстэй олон загвар байгаа бол энэ нь текстийг өөрчилсөн байж магадгүй гэсэн үг юм.
7. Давхардсан илрүүлэх ойролцоо
Хулгайн гэмт хэрэг шалгагч нь үг хэллэгийг үр дүнтэй илрүүлэх хамгийн сүүлийн арга юм.
Бараг давхардсан илрүүлэх алгоритмыг ихэвчлэн ижил төстэй эсвэл бараг ижил төстэй текстийн хэсгүүдийг тодорхойлоход ашигладаг. Эдгээр алгоритмууд нь текстийн ижил төстэй байдлыг нарийвчилсан түвшинд харьцуулах замаар хөрвүүлсэн агуулгыг таних зорилгоор тусгайлан боловсруулсан болно.
Хулгайгаас урьдчилан сэргийлэх программ хангамж ямар аргыг ихэвчлэн ашигладаг вэ?
Хулгайн гэмт хэргээс урьдчилан сэргийлэх мэргэжлийн үйлчилгээнд ашигладаг технологийн шийдлүүд нь ихэвчлэн n-грамын шинжилгээнд тулгуурладаг. Эдгээр үйлчилгээ нь n-грамд суурилсан технологийг ашигласнаар гайхалтай өндөр нарийвчлалтай байдаг. Энэ нь хулгайн гэмт хэрэг шалгагч нь дахин бичсэн үгсийг ялган таних, тодруулах боломжийг олгодог хамгийн сайн аргуудын нэг юм.
Хулгайн гэмт хэрэг шалгагч нь үг хэллэгийг хэрхэн илрүүлдэг механик
Хулгайн гэмт хэргээс урьдчилан сэргийлэх үйлчилгээ нь баримт бичгийг харьцуулахын тулд хурууны хээг ихэвчлэн ашигладаг. Энэ нь баталгаажуулах баримт бичгүүдээс шаардлагатай n-граммыг гаргаж авах ба тэдгээрийн мэдээллийн сан дахь бүх баримт бичгийн n-граммтай харьцуулах явдал юм.
Жишээ нь
Нэг өгүүлбэр байна гэж бодъё: « Le mont Olympe est la plus haute montagne de Grece. »
The n-грамм (жишээ нь 3 грамм) Энэ өгүүлбэрийн дотор:
- Ле Монт Олимп
- Олимп est
- Olympe est la
- хамгийн их
- la plus haute
- Дээрээс нь өндөр Монтань
- өндөр монтан де
- montagne de Grece
Тохиолдол 1. Солих
Хэрэв үгийг өөр үгээр сольсон бол зарим нь хэвээр байна n-грамм таарч, цаашдын шинжилгээгээр үгийн орлуулалтыг илрүүлэх боломжтой.
Өөрчлөгдсөн өгүүлбэр: "The уулын Olympe est la plus haute montagne de Пелопоннес. »
Жинхэнэ 3 грамм | 3 грамм өөрчлөгдсөн текст |
Ле Монт Олимп Олимп est Olympe est la хамгийн их la plus haute Дээрээс нь өндөр Монтань өндөр монтан де montagne de Grece | Le уулын Olympus уулын Olympe est Olympe est la хамгийн их la plus haute Дээрээс нь өндөр Монтань өндөр монтан де Монтань де Пелопоннес |
Тохиолдол 2. Үгийн дарааллыг өөрчилсөн (эсвэл өгүүлбэр, догол мөр)
Өгүүлбэрийн дарааллыг өөрчлөхөд зарим 3 грамм таарч байгаа тул өөрчлөлтийг илрүүлэх боломжтой.
Өөрчлөгдсөн өгүүлбэр: « La plus haute montagne de Grece est Le mont Olympe. »
Жинхэнэ 3 грамм | 3 грамм өөрчлөгдсөн текст |
Ле Монт Олимп Олимп est Olympe est la хамгийн их la plus haute Дээрээс нь өндөр Монтань өндөр монтан де montagne de Grece | La plus haute Дээрээс нь өндөр Монтань өндөр монтан де montagne de Grece de Grece est Grece est Le est Le Mont Ле Монт Олимп |
Тохиолдол 3. Шинэ үг нэмсэн
Шинэ үг нэмэхэд 3 грамм таарсан хэвээр байгаа тул өөрчлөлтийг илрүүлэх боломжтой.
Өөрчлөгдсөн өгүүлбэр: « Le mont Olympe est холоос la plus Haute montagne de Grece. »
Жинхэнэ 3 грамм | 3 грамм өөрчлөгдсөн текст |
Ле Монт Олимп Олимп est Olympe est la хамгийн их la plus haute Дээрээс нь өндөр Монтань өндөр монтан де montagne de Grece | Ле Монт Олимп Олимп est Olympe est de est de loin хол loin la plus la plus haute Дээрээс нь өндөр Монтань өндөр монтан де montagne de Grece |
Тохиолдол 4. Зарим үгийг устгасан
Үгийг арилгахад 3 грамм таарсан хэвээр байгаа тул өөрчлөлтийг илрүүлэх боломжтой.
Өөрчлөгдсөн өгүүлбэр: « L'Olympe est la plus heute montagne de Grece. »
Жинхэнэ 3 грамм | 3 грамм өөрчлөгдсөн текст |
Ле Монт Олимп Олимп est Olympe est la хамгийн их la plus haute Дээрээс нь өндөр Монтань өндөр монтан де montagne de Grece | L'Olympe est la хамгийн их la plus haute Дээрээс нь өндөр Монтань өндөр монтан де montagne de Grece |
Бодит жишээ
Бодит баримт бичигт баталгаажуулалт дууссаны дараа хэллэгийн хэсгүүд нь тасалдсан тэмдэглэгээгээр ихэвчлэн тодорхойлогддог. Өөрчлөгдсөн үгсийг илэрхийлсэн эдгээр тасалдлыг харагдах байдал, ялгах чадварыг сайжруулахын тулд тодруулсан.
Доор та бодит баримт бичгийн жишээг олох болно.
- Эхний ишлэл нь ашиглан баталгаажуулсан файлаас ирсэн OXSICO хулгайн гэмт хэргээс урьдчилан сэргийлэх үйлчилгээ:
- Хоёрдахь ишлэл нь эх сурвалжаас авсан:
Нарийвчилсан дүн шинжилгээ хийсний дараа баримт бичгийн сонгосон хэсгийг дараахь өөрчлөлтүүдээр тайлбарласан нь тодорхой байна.
Эх текст | Тайлбарласан текст | өөрчлөлт |
инновацийг дэмждэг онцлогтой | инновацийг дэмжинэ гэдэг нь тодорхойлогдсоноос гадна | солих |
эдийн засаг, нийгмийн мэдлэг, үр ашигтай системүүд | эдийн засгийн болон нийгмийн ухамсар, үр ашигтай зохион байгуулалт | солих |
санал (санаа) | зөвлөмж | Орлуулах, устгах |
хандлага | байрлал | солих |
амжилт | ялагч | солих |
үйл явц (Перенц, Холуб-Иван | танин мэдэхүйн үйл явц (Перенц, Холуб - Иван | нэмэлт |
инновацийг дэмжигч | таатай | солих |
уур амьсгалыг бий болгох | : нөхцөл бүрдүүлэх | солих |
таатай | хөгжсөн байна | солих |
мэдлэгийг хөгжүүлэх | хөгжлийн ухамсар | солих |
Дүгнэлт
Хулгайгаар бичсэн хулгай нь ихэвчлэн өөр өөр үг хэллэгээр илрээгүй байдаг нь академийн анхаарлын төвд байсаар байна. Технологийн дэвшил нь хуулбарласан агуулгыг үр дүнтэй тодорхойлох чадвартай хулгайн шалгагчийг тоноглосон. Тодруулбал, хулгайн гэмт хэрэг шалгагч нь мөр тааруулах, косинусын ижил төстэй байдал, n-грамм шинжилгээ зэрэг янз бүрийн аргуудаар дамжуулан хэллэгийг илрүүлдэг. n-грамм шинжилгээ нь өндөр нарийвчлалтай гэдгээрээ онцлог юм. Эдгээр дэвшилтүүд нь хулгайлагдсан болон хувиргасан материал илрэхгүй байх магадлалыг эрс багасгаж, улмаар эрдэм шинжилгээний шударга байдлыг сайжруулдаг. |