Sut mae gwirwyr llên-ladrad yn canfod aralleirio?

()

Mae llên-ladrad yn golygu cymryd clod am syniadau, geiriau neu ddelweddau rhywun arall, arfer a ystyrir anfoesegol mewn amgylcheddau academaidd a phroffesiynol. Gall myfyrwyr beidio â sylwi arno a gallant aralleirio geiriau rhywun arall yn ddamweiniol heb eu priodoli'n briodol. Gan na ddefnyddir dyfynodau pan fydd rhywbeth yn cael ei aralleirio, gall ddianc yn hawdd o afael darllenydd proflenni a mynd ymlaen i'r drafft terfynol. Fodd bynnag, nid yw'n gwbl anghyraeddadwy, yn enwedig gan fod gwirwyr llên-ladrad yn canfod aralleirio yn fwy effeithlon y dyddiau hyn.

Gall canfod aralleirio fod yn dasg heriol, gan ei fod yn golygu nodi tebygrwydd a gwahaniaethau rhwng testunau. Yn yr adrannau dilynol, byddwn yn ymchwilio i drafodaeth gynhwysfawr am ddulliau a thechnegau cyffredin a ddefnyddir i ganfod achosion o aralleirio.

Sut mae gwirwyr llên-ladrad yn canfod aralleirio: Archwilio dulliau addas

Yn y dirwedd addysgol heddiw, mae gwirwyr llên-ladrad wedi dod yn fwyfwy datblygedig, gan fynd y tu hwnt i fflagio testun wedi'i gopïo yn unig i ganfod cynnwys wedi'i aralleirio hefyd. Mae'r erthygl hon yn archwilio'r dulliau sy'n caniatáu i'r offer hyn nodi aralleirio yn effeithiol.

1. Cyfateb llinyn

Mae'r dull hwn yn golygu cymharu testunau ar lefel cymeriad neu eiriau i nodi'r union gyfatebiaethau. Gallai lefel uchel o debygrwydd mewn dilyniannau nodau neu ddewisiadau geiriau rhwng dau destun fod yn arwydd o aralleirio. Mae'r offer hyn yn defnyddio algorithmau cymhleth a all hyd yn oed ystyried ystyr cyd-destunol geiriau, gan ei gwneud yn fwyfwy anodd i ddeunydd llên-ladrad, sydd wedi'i aralleirio, fynd heb ei ganfod.

2. Cosin tebygrwydd

Tebygrwydd cosin yw un o'r dulliau a ddefnyddir gan wirwyr llên-ladrad i ganfod aralleirio. Mae'n mesur y tebygrwydd rhwng dau destun yn seiliedig ar yr ongl rhwng eu cynrychioliadau fector mewn gofod dimensiwn uchel. Trwy gynrychioli testunau fel fectorau amlder geiriau neu fewnosodiadau, gall yr offer hyn gyfrifo sgôr tebygrwydd cosin i fireinio ymhellach eu gallu i ganfod cynnwys sydd wedi'i aralleirio.

3. Modelau aliniad geiriau

Mae'r modelau hyn yn alinio geiriau neu ymadroddion rhwng dau destun i nodi eu cyfatebiaethau. Trwy gymharu'r segmentau wedi'u halinio, gallwch ganfod aralleirio yn seiliedig ar debygrwydd a gwahaniaethau yn y dilyniannau cyfatebol.

4. Dadansoddiad semantig

Mae'r dull hwn yn cynnwys dadansoddi ystyr a chyd-destun geiriau ac ymadroddion mewn testunau. Gall technegau fel dadansoddiad semantig cudd (LSA), mewnosodiadau geiriau (fel Word2Vec neu GloVe), neu fodelau dysgu dwfn fel BERT ddal perthnasoedd semantig rhwng geiriau ac adnabod aralleirio yn seiliedig ar debygrwydd eu cynrychioliadau semantig.

5. Dysgu Peiriant

Gellir hyfforddi algorithmau dysgu peirianyddol dan oruchwyliaeth ar setiau data wedi'u labelu o barau o destunau sydd wedi'u haralleirio a heb eu haralleirio. Gall y modelau hyn ddysgu patrymau a nodweddion sy'n gwahaniaethu aralleiriadau a gellir eu defnyddio i ddosbarthu enghreifftiau newydd o destun fel aralleiriad ai peidio.

6. Dadansoddiad N-gram

Mae N-grams yn grwpiau o eiriau sy'n union nesaf at ei gilydd. Pan fyddwch chi'n gwirio pa mor aml mae'r grwpiau hyn yn ymddangos mewn gwahanol destunau ac yn eu cymharu, gallwch chi ddod o hyd i ymadroddion neu ddilyniannau tebyg. Os oes llawer o batrymau tebyg, gallai olygu y gallai'r testun fod wedi'i aralleirio.

7. Darganfod dyblyg bron

Y ffordd olaf y mae gwirwyr llên-ladrad yn canfod aralleirio yn effeithiol.

Defnyddir algorithmau canfod bron yn ddyblyg yn aml i aralleirio canfod er mwyn nodi segmentau testun sy'n dangos lefel uchel o debygrwydd neu sydd bron yn union yr un fath. Mae'r algorithmau hyn wedi'u crefftio'n benodol i adnabod cynnwys wedi'i aralleirio trwy gymharu tebygrwydd testun ar lefel fanwl.

Pa ddull a ddefnyddir fel arfer gan feddalwedd atal llên-ladrad?

Mae atebion technolegol a ddefnyddir gan wasanaethau atal llên-ladrad proffesiynol fel arfer yn dibynnu ar ddadansoddiad n-gram. Trwy ddefnyddio technoleg sy'n seiliedig ar n-gram, mae'r gwasanaethau hyn yn cyflawni cyfradd drachywiredd hynod o uchel. Dyma un o’r ffyrdd gorau y mae gwirwyr llên-ladrad yn canfod aralleirio, gan alluogi adnabod ac amlygu union eiriau sydd wedi’u hailysgrifennu.

Mecaneg o sut mae gwirwyr llên-ladrad yn canfod aralleirio

Mae gwasanaethau atal llên-ladrad yn aml yn defnyddio'r dechneg olion bysedd i gymharu dogfennau. Mae hyn yn golygu tynnu'r n-gramau angenrheidiol o'r dogfennau sydd i'w gwirio a'u cymharu ag n-gramau'r holl ddogfennau yn eu cronfeydd data.

myfyrwyr-darllen-sut-do-llên-ladrad-gwirwyr-canfod-aralleirio

enghraifft

Gadewch i ni ddweud bod brawddeg: « Le mont Olympe est la plus haute montagne de Grèce. »

Mae gan n-gramau (er enghraifft 3 gram) o'r frawddeg hon fydd:

  • Le mont Olympe
  • mont Olympe est
  • Olympe est la
  • yw'r mwyaf
  • la plws haute
  • mynydd uchaf
  • haute montagne de
  • montagne de Grèce

Achos 1. Amnewid

Os caiff y gair ei ddisodli gan y gair arall, yn dal i fod rhai o'r n-gramau cyfateb ac mae'n bosibl canfod yr amnewidiad gair trwy ddadansoddiad pellach.

Brawddeg wedi'i newid:  "Y mynyddoedd Olympe est la a haute montagne de Péloponnèse. "

3-gram gwreiddiol3-gram o destun wedi'i newid
Le mont Olympe
mont Olympe est
Olympe est la
yw'r mwyaf
la plws haute
mynydd uchaf
haute montagne de
montagne de Grèce
Le mynyddoedd Olympus
mynyddoedd Olymp est
Olympe est la
yw'r mwyaf
la plws haute
mynydd uchaf
haute montagne de
Montagne de Péloponnèse

Achos 2. Wedi newid trefn geiriau (neu frawddegau, paragraffau)

Pan fydd trefn y frawddeg yn cael ei newid, mae rhyw 3 gram yn cyfateb o hyd felly mae'n bosibl canfod y newid.

Brawddeg wedi'i newid: « La plus haute montagne de Grèce est Le mont Olympe. »

3-gram gwreiddiol3-gram o destun wedi'i newid
Le mont Olympe
mont Olympe est
Olympe est la
yw'r mwyaf
la plws haute
mynydd uchaf
haute montagne de
montagne de Grèce
La plus haute
mynydd uchaf
haute montagne de
montagne de Grèce
de Grèce est
Grèce est Le
est Le mont
Le mont Olympe

Achos 3. Ychwanegwyd geiriau newydd

Pan fydd y geiriau newydd yn cael eu hychwanegu, mae yna rai 3-gram sy'n cyfateb o hyd felly mae'n bosibl canfod y newid.

Brawddeg wedi'i newid: « Le mont Olympe est o bell la plus haute montagne de Grèce. »

3-gram gwreiddiol3-gram o destun wedi'i newid
Le mont Olympe
mont Olympe est
Olympe est la
yw'r mwyaf
la plws haute
mynydd uchaf
haute montagne de
montagne de Grèce
Le mont Olympe
mont Olympe est
Olympe est de
est de lwyn
bell i ffwrdd
lwyn la plus
la plws haute
mynydd uchaf
haute montagne de
montagne de Grèce

Achos 4. Wedi dileu rhai geiriau

Pan fydd y gair yn cael ei ddileu, mae yna rai 3-gram sy'n cyfateb o hyd felly mae'n bosibl canfod y newid.

Brawddeg wedi'i newid: « L'Olympe est la plus haute montagne de Grèce. »

3-gram gwreiddiol3-gram o destun wedi'i newid
Le mont Olympe
mont Olympe est
Olympe est la
yw'r mwyaf
la plws haute
mynydd uchaf
haute montagne de
montagne de Grèce
L'Olympe est la
yw'r mwyaf
la plws haute
mynydd uchaf
haute montagne de
montagne de Grèce

Enghraifft o'r byd go iawn

Ar ôl cwblhau dilysu mewn dogfen wirioneddol, mae adrannau sydd wedi'u haralleirio'n aml yn cael eu nodi trwy farciau amharir. Mae'r ymyriadau hyn, sy'n dynodi geiriau wedi'u newid, yn cael eu hamlygu i wella gwelededd a gwahaniaeth.

Isod, fe welwch enghraifft o ddogfen wirioneddol.

  • Daw'r dyfyniad cyntaf o ffeil sydd wedi'i gwirio gan ddefnyddio'r ffeil OXSICO gwasanaeth atal llên-ladrad:
  • Daw'r ail ddyfyniad o'r ddogfen ffynhonnell wreiddiol:

Ar ôl dadansoddiad dyfnach mae’n amlwg bod y rhan a ddewiswyd o’r ddogfen wedi’i haralleirio drwy wneud y newidiadau a ganlyn:

Testun gwreiddiolTestun aralleirioNewidiadau
cefnogi arloesi yn cael ei nodweddu hefyd cefnogi arloesedd yn cael ei ddiffinio ar wahânNewydd
gwybodaeth economaidd a chymdeithasol, systemau effeithlon ymwybyddiaeth economaidd a chymdeithasol, trefniadaeth effeithlonNewydd
cynigion (syniadau)argymhelliadAmnewid, dileu
agweddauposturesNewydd
llwyddiantEnillyddNewydd
proses (Perenc, Holub-Ivanproses wybyddol (Perenc, Holub - IvanYchwanegu
pro-arloesiffafriolNewydd
creu hinsawdd: creu cyflwrNewydd
ffafriolllewyrchusNewydd
datblygu gwybodaethymwybyddiaeth datblyguNewydd

Casgliad

Erys llên-ladrad, nad yw'n cael ei ganfod yn aml mewn achosion o aralleirio, yn bryder sylweddol yn y byd academaidd. Mae datblygiadau technolegol wedi rhoi'r gallu i wirwyr llên-ladrad adnabod cynnwys sydd wedi'i aralleirio yn effeithiol. Yn benodol, mae gwirwyr llên-ladrad yn canfod aralleirio trwy ddulliau amrywiol fel paru llinynnau, tebygrwydd cosin, a dadansoddiad n-gram. Yn nodedig, mae dadansoddiad n-gram yn sefyll allan am ei gyfradd fanwl uchel. Mae'r datblygiadau hyn yn lleihau'n sylweddol y tebygolrwydd y bydd deunydd sydd wedi'i lên-ladrata a'i aralleirio yn mynd heb ei ganfod, gan wella cywirdeb academaidd.

Pa mor ddefnyddiol oedd y swydd hon?

Cliciwch ar seren i'w sgorio!

graddau fel cyfartaledd / 5. Cyfrif pleidleisiau:

Dim pleidleisiau hyd yn hyn! Byddwch y cyntaf i raddio'r swydd hon.

Mae'n ddrwg gennym nad oedd y swydd hon yn ddefnyddiol i chi!

Gadewch i ni wella'r swydd hon!

Dywedwch wrthym sut y gallwn wella'r swydd hon?