Хулгайн гэмт хэрэг шалгагч нь үг хэллэгийг хэрхэн илрүүлдэг вэ?

()

Плагиат гэдэг нь хэн нэгний санаа, үг, дүр төрхийг хүлээн зөвшөөрөх явдал юм ёс зүйгүй эрдэм шинжилгээний болон мэргэжлийн орчинд. Энэ нь өөр хэн нэгний үгийг зохих хамааралгүйгээр санамсаргүйгээр давтаж хэлэх оюутнуудад анзаарагдахгүй байж болно. Ямар нэг зүйлийг тайлбарлахдаа хашилт хэрэглэдэггүй тул засварлагчийн гараас амархан мултарч, эцсийн ноорог руугаа орох боломжтой. Гэсэн хэдий ч, энэ нь бүрэн боломжгүй зүйл биш юм, ялангуяа хулгайн гэмт хэрэг шалгагч орчин үед илүү үр дүнтэй үг хэллэгийг илрүүлдэг.

Текстүүдийн хоорондын ижил төстэй байдал, ялгааг олж тогтоохтой холбоотой үг хэллэгийг илрүүлэх нь хэцүү ажил байж болно. Дараагийн хэсгүүдэд бид үг хэллэгийн тохиолдлыг ялгахын тулд ашигладаг нийтлэг арга, аргын талаар дэлгэрэнгүй ярилцах болно.

Хулгайн гэмт хэрэг шалгагч нь үг хэллэгийг хэрхэн илрүүлдэг вэ: Тохиромжтой аргуудыг судалсан

Өнөөгийн боловсролын орчинд хулгайн гэмт хэрэг шалгагч нь зөвхөн хуулбарласан текстийг дарцаглахаас гадна хувиргасан агуулгыг илрүүлэх хүртэл илүү дэвшилтэт болж байна. Энэ нийтлэл нь эдгээр хэрэглүүрээр үг хэллэгийг үр дүнтэй тодорхойлох боломжийг олгодог аргуудыг судлах болно.

1. Мөр тааруулах

Энэ арга нь текстийг тэмдэгт эсвэл үгийн түвшинд харьцуулж, яг таарч тохирохыг тодорхойлох явдал юм. Хоёр текстийн хоорондох тэмдэгтийн дараалал эсвэл үгийн сонголтын өндөр түвшний ижил төстэй байдал нь хувиргах дохио болно. Эдгээр хэрэгслүүд нь үгийн контекст утгыг хүртэл авч үзэх нарийн төвөгтэй алгоритмуудыг ашигладаг бөгөөд энэ нь хулгайлагдсан, хувиргасан материалыг илрүүлэхгүй байх нь улам бүр хэцүү болгодог.

2. Косинусын ижил төстэй байдал

Косинусын ижил төстэй байдал нь хулгайн гэмт хэрэг шалгагч нь өөр үг хэллэгийг илрүүлэх аргуудын нэг юм. Энэ нь хоёр текстийн ижил төстэй байдлыг өндөр хэмжээст орон зайд вектор дүрслэлийн хоорондох өнцгөөр хэмждэг. Текстүүдийг үгийн давтамж эсвэл оруулгын вектор болгон төлөөлөх замаар эдгээр хэрэглүүр нь косинусын ижил төстэй байдлын оноог тооцоолж, хөрвүүлсэн агуулгыг илрүүлэх чадварыг улам боловсронгуй болгож чадна.

3. Үгийг зэрэгцүүлэх загварууд

Эдгээр загварууд нь хоёр текстийн хооронд үг, хэллэгийг хооронд нь уялдуулж, тэдгээрийн захидал харилцааг тодорхойлдог. Зэрэгцүүлсэн хэсгүүдийг харьцуулснаар та тохирох дарааллын ижил төстэй байдал ба ялгаан дээр үндэслэн хэллэгийг илрүүлж болно.

4. Утга зүйн шинжилгээ

Энэ арга нь текст дэх үг, хэллэгийн утга, нөхцөл байдалд дүн шинжилгээ хийх явдал юм. Далд семантик шинжилгээ (LSA), үг оруулах (Word2Vec эсвэл GloVe гэх мэт) эсвэл BERT гэх мэт гүнзгий суралцах загварууд гэх мэт аргууд нь үгсийн хоорондын утгын хамаарлыг олж авч, тэдгээрийн утгын дүрслэлийн ижил төстэй байдалд тулгуурлан үг хэллэгийг тодорхойлох боломжтой.

5. Машины сургалт

Хяналттай машин сургалтын алгоритмуудыг хувиргасан болон хувираагүй хос текстийн шошготой өгөгдлийн багц дээр сургаж болно. Эдгээр загварууд нь үг хэллэгийг ялгах хэв маяг, шинж чанаруудыг сурч, текстийн шинэ тохиолдлуудыг хувиргасан, эсхүл ангилахад ашиглаж болно.

6. N-грамм шинжилгээ

N-грамм нь бие биенийхээ хажууд байрлах үгсийн бүлгүүд юм. Эдгээр бүлгүүд өөр өөр бичвэрт хэр олон удаа гарч ирдгийг шалгаж, тэдгээрийг харьцуулахдаа ижил төстэй хэллэг эсвэл дарааллыг олж болно. Хэрэв ижил төстэй олон загвар байгаа бол энэ нь текстийг өөрчилсөн байж магадгүй гэсэн үг юм.

7. Давхардсан илрүүлэх ойролцоо

Хулгайн гэмт хэрэг шалгагч нь үг хэллэгийг үр дүнтэй илрүүлэх хамгийн сүүлийн арга юм.

Бараг давхардсан илрүүлэх алгоритмыг ихэвчлэн ижил төстэй эсвэл бараг ижил төстэй текстийн хэсгүүдийг тодорхойлоход ашигладаг. Эдгээр алгоритмууд нь текстийн ижил төстэй байдлыг нарийвчилсан түвшинд харьцуулах замаар хөрвүүлсэн агуулгыг таних зорилгоор тусгайлан боловсруулсан болно.

Хулгайгаас урьдчилан сэргийлэх программ хангамж ямар аргыг ихэвчлэн ашигладаг вэ?

Хулгайн гэмт хэргээс урьдчилан сэргийлэх мэргэжлийн үйлчилгээнд ашигладаг технологийн шийдлүүд нь ихэвчлэн n-грамын шинжилгээнд тулгуурладаг. Эдгээр үйлчилгээ нь n-грамд ​​суурилсан технологийг ашигласнаар гайхалтай өндөр нарийвчлалтай байдаг. Энэ нь хулгайн гэмт хэрэг шалгагч нь дахин бичсэн үгсийг ялган таних, тодруулах боломжийг олгодог хамгийн сайн аргуудын нэг юм.

Хулгайн гэмт хэрэг шалгагч нь үг хэллэгийг хэрхэн илрүүлдэг механик

Хулгайн гэмт хэргээс урьдчилан сэргийлэх үйлчилгээ нь баримт бичгийг харьцуулахын тулд хурууны хээг ихэвчлэн ашигладаг. Энэ нь баталгаажуулах баримт бичгүүдээс шаардлагатай n-граммыг гаргаж авах ба тэдгээрийн мэдээллийн сан дахь бүх баримт бичгийн n-граммтай харьцуулах явдал юм.

оюутнууд-унших-хэрхэн-хутгалт-шалгагчид-илрүүлэх-захиалах

Жишээ нь

Нэг өгүүлбэр байна гэж бодъё: « Le mont Olympe est la plus haute montagne de Grece. »

The n-грамм (жишээ нь 3 грамм) Энэ өгүүлбэрийн дотор:

  • Ле Монт Олимп
  • Олимп est
  • Olympe est la
  • хамгийн их
  • la plus haute
  • Дээрээс нь өндөр Монтань
  • өндөр монтан де
  • montagne de Grece

Тохиолдол 1. Солих

Хэрэв үгийг өөр үгээр сольсон бол зарим нь хэвээр байна n-грамм таарч, цаашдын шинжилгээгээр үгийн орлуулалтыг илрүүлэх боломжтой.

Өөрчлөгдсөн өгүүлбэр:  "The уулын Olympe est la plus haute montagne de Пелопоннес. »

Жинхэнэ 3 грамм3 грамм өөрчлөгдсөн текст
Ле Монт Олимп
Олимп est
Olympe est la
хамгийн их
la plus haute
Дээрээс нь өндөр Монтань
өндөр монтан де
montagne de Grece
Le уулын Olympus
уулын Olympe est
Olympe est la
хамгийн их
la plus haute
Дээрээс нь өндөр Монтань
өндөр монтан де
Монтань де Пелопоннес

Тохиолдол 2. Үгийн дарааллыг өөрчилсөн (эсвэл өгүүлбэр, догол мөр)

Өгүүлбэрийн дарааллыг өөрчлөхөд зарим 3 грамм таарч байгаа тул өөрчлөлтийг илрүүлэх боломжтой.

Өөрчлөгдсөн өгүүлбэр: « La plus haute montagne de Grece est Le mont Olympe. »

Жинхэнэ 3 грамм3 грамм өөрчлөгдсөн текст
Ле Монт Олимп
Олимп est
Olympe est la
хамгийн их
la plus haute
Дээрээс нь өндөр Монтань
өндөр монтан де
montagne de Grece
La plus haute
Дээрээс нь өндөр Монтань
өндөр монтан де
montagne de Grece
de Grece est
Grece est Le
est Le Mont
Ле Монт Олимп

Тохиолдол 3. Шинэ үг нэмсэн

Шинэ үг нэмэхэд 3 грамм таарсан хэвээр байгаа тул өөрчлөлтийг илрүүлэх боломжтой.

Өөрчлөгдсөн өгүүлбэр: « Le mont Olympe est холоос la plus Haute montagne de Grece. »

Жинхэнэ 3 грамм3 грамм өөрчлөгдсөн текст
Ле Монт Олимп
Олимп est
Olympe est la
хамгийн их
la plus haute
Дээрээс нь өндөр Монтань
өндөр монтан де
montagne de Grece
Ле Монт Олимп
Олимп est
Olympe est de
est de loin
хол
loin la plus
la plus haute
Дээрээс нь өндөр Монтань
өндөр монтан де
montagne de Grece

Тохиолдол 4. Зарим үгийг устгасан

Үгийг арилгахад 3 грамм таарсан хэвээр байгаа тул өөрчлөлтийг илрүүлэх боломжтой.

Өөрчлөгдсөн өгүүлбэр: « L'Olympe est la plus heute montagne de Grece. »

Жинхэнэ 3 грамм3 грамм өөрчлөгдсөн текст
Ле Монт Олимп
Олимп est
Olympe est la
хамгийн их
la plus haute
Дээрээс нь өндөр Монтань
өндөр монтан де
montagne de Grece
L'Olympe est la
хамгийн их
la plus haute
Дээрээс нь өндөр Монтань
өндөр монтан де
montagne de Grece

Бодит жишээ

Бодит баримт бичигт баталгаажуулалт дууссаны дараа хэллэгийн хэсгүүд нь тасалдсан тэмдэглэгээгээр ихэвчлэн тодорхойлогддог. Өөрчлөгдсөн үгсийг илэрхийлсэн эдгээр тасалдлыг харагдах байдал, ялгах чадварыг сайжруулахын тулд тодруулсан.

Доор та бодит баримт бичгийн жишээг олох болно.

  • Эхний ишлэл нь ашиглан баталгаажуулсан файлаас ирсэн OXSICO хулгайн гэмт хэргээс урьдчилан сэргийлэх үйлчилгээ:
  • Хоёрдахь ишлэл нь эх сурвалжаас авсан:

Нарийвчилсан дүн шинжилгээ хийсний дараа баримт бичгийн сонгосон хэсгийг дараахь өөрчлөлтүүдээр тайлбарласан нь тодорхой байна.

Эх текстТайлбарласан текстөөрчлөлт
инновацийг дэмждэг онцлогтой инновацийг дэмжинэ гэдэг нь тодорхойлогдсоноос гаднасолих
эдийн засаг, нийгмийн мэдлэг, үр ашигтай системүүд эдийн засгийн болон нийгмийн ухамсар, үр ашигтай зохион байгуулалтсолих
санал (санаа)зөвлөмжОрлуулах, устгах
хандлагабайрлалсолих
амжилтялагчсолих
үйл явц (Перенц, Холуб-Ивантанин мэдэхүйн үйл явц (Перенц, Холуб - Иваннэмэлт
инновацийг дэмжигчтаатайсолих
уур амьсгалыг бий болгох: нөхцөл бүрдүүлэхсолих
таатайхөгжсөн байнасолих
мэдлэгийг хөгжүүлэххөгжлийн ухамсарсолих

Дүгнэлт

Хулгайгаар бичсэн хулгай нь ихэвчлэн өөр өөр үг хэллэгээр илрээгүй байдаг нь академийн анхаарлын төвд байсаар байна. Технологийн дэвшил нь хуулбарласан агуулгыг үр дүнтэй тодорхойлох чадвартай хулгайн шалгагчийг тоноглосон. Тодруулбал, хулгайн гэмт хэрэг шалгагч нь мөр тааруулах, косинусын ижил төстэй байдал, n-грамм шинжилгээ зэрэг янз бүрийн аргуудаар дамжуулан хэллэгийг илрүүлдэг. n-грамм шинжилгээ нь өндөр нарийвчлалтай гэдгээрээ онцлог юм. Эдгээр дэвшилтүүд нь хулгайлагдсан болон хувиргасан материал илрэхгүй байх магадлалыг эрс багасгаж, улмаар эрдэм шинжилгээний шударга байдлыг сайжруулдаг.

Энэ бичлэг хэр ашигтай байсан бэ?

Үнэлэхийн тулд од дээр дарна уу!

Дундаж үнэлгээ / 5. Санал өгөх тоо:

Одоогоор санал байхгүй байна! Энэ бичлэгийг хамгийн түрүүнд үнэлэх.

Энэ бичлэг танд хэрэгтэй биш байсанд бид харамсаж байна!

Энэ бичлэгийг сайжруулъя!

Энэ нийтлэлийг хэрхэн сайжруулах вэ?