Mae llên-ladrad yn golygu cymryd clod am syniadau, geiriau neu ddelweddau rhywun arall, arfer a ystyrir anfoesegol mewn amgylcheddau academaidd a phroffesiynol. Gall myfyrwyr beidio â sylwi arno a gallant aralleirio geiriau rhywun arall yn ddamweiniol heb eu priodoli'n briodol. Gan na ddefnyddir dyfynodau pan fydd rhywbeth yn cael ei aralleirio, gall ddianc yn hawdd o afael darllenydd proflenni a mynd ymlaen i'r drafft terfynol. Fodd bynnag, nid yw'n gwbl anghyraeddadwy, yn enwedig gan fod gwirwyr llên-ladrad yn canfod aralleirio yn fwy effeithlon y dyddiau hyn.
Gall canfod aralleirio fod yn dasg heriol, gan ei fod yn golygu nodi tebygrwydd a gwahaniaethau rhwng testunau. Yn yr adrannau dilynol, byddwn yn ymchwilio i drafodaeth gynhwysfawr am ddulliau a thechnegau cyffredin a ddefnyddir i ganfod achosion o aralleirio.
Sut mae gwirwyr llên-ladrad yn canfod aralleirio: Archwilio dulliau addas
Yn y dirwedd addysgol heddiw, mae gwirwyr llên-ladrad wedi dod yn fwyfwy datblygedig, gan fynd y tu hwnt i fflagio testun wedi'i gopïo yn unig i ganfod cynnwys wedi'i aralleirio hefyd. Mae'r erthygl hon yn archwilio'r dulliau sy'n caniatáu i'r offer hyn nodi aralleirio yn effeithiol.
1. Cyfateb llinyn
Mae'r dull hwn yn golygu cymharu testunau ar lefel cymeriad neu eiriau i nodi'r union gyfatebiaethau. Gallai lefel uchel o debygrwydd mewn dilyniannau nodau neu ddewisiadau geiriau rhwng dau destun fod yn arwydd o aralleirio. Mae'r offer hyn yn defnyddio algorithmau cymhleth a all hyd yn oed ystyried ystyr cyd-destunol geiriau, gan ei gwneud yn fwyfwy anodd i ddeunydd llên-ladrad, sydd wedi'i aralleirio, fynd heb ei ganfod.
2. Cosin tebygrwydd
Tebygrwydd cosin yw un o'r dulliau a ddefnyddir gan wirwyr llên-ladrad i ganfod aralleirio. Mae'n mesur y tebygrwydd rhwng dau destun yn seiliedig ar yr ongl rhwng eu cynrychioliadau fector mewn gofod dimensiwn uchel. Trwy gynrychioli testunau fel fectorau amlder geiriau neu fewnosodiadau, gall yr offer hyn gyfrifo sgôr tebygrwydd cosin i fireinio ymhellach eu gallu i ganfod cynnwys sydd wedi'i aralleirio.
3. Modelau aliniad geiriau
Mae'r modelau hyn yn alinio geiriau neu ymadroddion rhwng dau destun i nodi eu cyfatebiaethau. Trwy gymharu'r segmentau wedi'u halinio, gallwch ganfod aralleirio yn seiliedig ar debygrwydd a gwahaniaethau yn y dilyniannau cyfatebol.
4. Dadansoddiad semantig
Mae'r dull hwn yn cynnwys dadansoddi ystyr a chyd-destun geiriau ac ymadroddion mewn testunau. Gall technegau fel dadansoddiad semantig cudd (LSA), mewnosodiadau geiriau (fel Word2Vec neu GloVe), neu fodelau dysgu dwfn fel BERT ddal perthnasoedd semantig rhwng geiriau ac adnabod aralleirio yn seiliedig ar debygrwydd eu cynrychioliadau semantig.
5. Dysgu Peiriant
Gellir hyfforddi algorithmau dysgu peirianyddol dan oruchwyliaeth ar setiau data wedi'u labelu o barau o destunau sydd wedi'u haralleirio a heb eu haralleirio. Gall y modelau hyn ddysgu patrymau a nodweddion sy'n gwahaniaethu aralleiriadau a gellir eu defnyddio i ddosbarthu enghreifftiau newydd o destun fel aralleiriad ai peidio.
6. Dadansoddiad N-gram
Mae N-grams yn grwpiau o eiriau sy'n union nesaf at ei gilydd. Pan fyddwch chi'n gwirio pa mor aml mae'r grwpiau hyn yn ymddangos mewn gwahanol destunau ac yn eu cymharu, gallwch chi ddod o hyd i ymadroddion neu ddilyniannau tebyg. Os oes llawer o batrymau tebyg, gallai olygu y gallai'r testun fod wedi'i aralleirio.
7. Darganfod dyblyg bron
Y ffordd olaf y mae gwirwyr llên-ladrad yn canfod aralleirio yn effeithiol.
Defnyddir algorithmau canfod bron yn ddyblyg yn aml i aralleirio canfod er mwyn nodi segmentau testun sy'n dangos lefel uchel o debygrwydd neu sydd bron yn union yr un fath. Mae'r algorithmau hyn wedi'u crefftio'n benodol i adnabod cynnwys wedi'i aralleirio trwy gymharu tebygrwydd testun ar lefel fanwl.
Pa ddull a ddefnyddir fel arfer gan feddalwedd atal llên-ladrad?
Mae atebion technolegol a ddefnyddir gan wasanaethau atal llên-ladrad proffesiynol fel arfer yn dibynnu ar ddadansoddiad n-gram. Trwy ddefnyddio technoleg sy'n seiliedig ar n-gram, mae'r gwasanaethau hyn yn cyflawni cyfradd drachywiredd hynod o uchel. Dyma un o’r ffyrdd gorau y mae gwirwyr llên-ladrad yn canfod aralleirio, gan alluogi adnabod ac amlygu union eiriau sydd wedi’u hailysgrifennu.
Mecaneg o sut mae gwirwyr llên-ladrad yn canfod aralleirio
Mae gwasanaethau atal llên-ladrad yn aml yn defnyddio'r dechneg olion bysedd i gymharu dogfennau. Mae hyn yn golygu tynnu'r n-gramau angenrheidiol o'r dogfennau sydd i'w gwirio a'u cymharu ag n-gramau'r holl ddogfennau yn eu cronfeydd data.
enghraifft
Gadewch i ni ddweud bod brawddeg: « Le mont Olympe est la plus haute montagne de Grèce. »
Mae gan n-gramau (er enghraifft 3 gram) o'r frawddeg hon fydd:
- Le mont Olympe
- mont Olympe est
- Olympe est la
- yw'r mwyaf
- la plws haute
- mynydd uchaf
- haute montagne de
- montagne de Grèce
Achos 1. Amnewid
Os caiff y gair ei ddisodli gan y gair arall, yn dal i fod rhai o'r n-gramau cyfateb ac mae'n bosibl canfod yr amnewidiad gair trwy ddadansoddiad pellach.
Brawddeg wedi'i newid: "Y mynyddoedd Olympe est la a haute montagne de Péloponnèse. "
3-gram gwreiddiol | 3-gram o destun wedi'i newid |
Le mont Olympe mont Olympe est Olympe est la yw'r mwyaf la plws haute mynydd uchaf haute montagne de montagne de Grèce | Le mynyddoedd Olympus mynyddoedd Olymp est Olympe est la yw'r mwyaf la plws haute mynydd uchaf haute montagne de Montagne de Péloponnèse |
Achos 2. Wedi newid trefn geiriau (neu frawddegau, paragraffau)
Pan fydd trefn y frawddeg yn cael ei newid, mae rhyw 3 gram yn cyfateb o hyd felly mae'n bosibl canfod y newid.
Brawddeg wedi'i newid: « La plus haute montagne de Grèce est Le mont Olympe. »
3-gram gwreiddiol | 3-gram o destun wedi'i newid |
Le mont Olympe mont Olympe est Olympe est la yw'r mwyaf la plws haute mynydd uchaf haute montagne de montagne de Grèce | La plus haute mynydd uchaf haute montagne de montagne de Grèce de Grèce est Grèce est Le est Le mont Le mont Olympe |
Achos 3. Ychwanegwyd geiriau newydd
Pan fydd y geiriau newydd yn cael eu hychwanegu, mae yna rai 3-gram sy'n cyfateb o hyd felly mae'n bosibl canfod y newid.
Brawddeg wedi'i newid: « Le mont Olympe est o bell la plus haute montagne de Grèce. »
3-gram gwreiddiol | 3-gram o destun wedi'i newid |
Le mont Olympe mont Olympe est Olympe est la yw'r mwyaf la plws haute mynydd uchaf haute montagne de montagne de Grèce | Le mont Olympe mont Olympe est Olympe est de est de lwyn bell i ffwrdd lwyn la plus la plws haute mynydd uchaf haute montagne de montagne de Grèce |
Achos 4. Wedi dileu rhai geiriau
Pan fydd y gair yn cael ei ddileu, mae yna rai 3-gram sy'n cyfateb o hyd felly mae'n bosibl canfod y newid.
Brawddeg wedi'i newid: « L'Olympe est la plus haute montagne de Grèce. »
3-gram gwreiddiol | 3-gram o destun wedi'i newid |
Le mont Olympe mont Olympe est Olympe est la yw'r mwyaf la plws haute mynydd uchaf haute montagne de montagne de Grèce | L'Olympe est la yw'r mwyaf la plws haute mynydd uchaf haute montagne de montagne de Grèce |
Enghraifft o'r byd go iawn
Ar ôl cwblhau dilysu mewn dogfen wirioneddol, mae adrannau sydd wedi'u haralleirio'n aml yn cael eu nodi trwy farciau amharir. Mae'r ymyriadau hyn, sy'n dynodi geiriau wedi'u newid, yn cael eu hamlygu i wella gwelededd a gwahaniaeth.
Isod, fe welwch enghraifft o ddogfen wirioneddol.
- Daw'r dyfyniad cyntaf o ffeil sydd wedi'i gwirio gan ddefnyddio'r ffeil OXSICO gwasanaeth atal llên-ladrad:
- Daw'r ail ddyfyniad o'r ddogfen ffynhonnell wreiddiol:
Ar ôl dadansoddiad dyfnach mae’n amlwg bod y rhan a ddewiswyd o’r ddogfen wedi’i haralleirio drwy wneud y newidiadau a ganlyn:
Testun gwreiddiol | Testun aralleirio | Newidiadau |
cefnogi arloesi yn cael ei nodweddu hefyd | cefnogi arloesedd yn cael ei ddiffinio ar wahân | Newydd |
gwybodaeth economaidd a chymdeithasol, systemau effeithlon | ymwybyddiaeth economaidd a chymdeithasol, trefniadaeth effeithlon | Newydd |
cynigion (syniadau) | argymhelliad | Amnewid, dileu |
agweddau | postures | Newydd |
llwyddiant | Enillydd | Newydd |
proses (Perenc, Holub-Ivan | proses wybyddol (Perenc, Holub - Ivan | Ychwanegu |
pro-arloesi | ffafriol | Newydd |
creu hinsawdd | : creu cyflwr | Newydd |
ffafriol | llewyrchus | Newydd |
datblygu gwybodaeth | ymwybyddiaeth datblygu | Newydd |
Casgliad
Erys llên-ladrad, nad yw'n cael ei ganfod yn aml mewn achosion o aralleirio, yn bryder sylweddol yn y byd academaidd. Mae datblygiadau technolegol wedi rhoi'r gallu i wirwyr llên-ladrad adnabod cynnwys sydd wedi'i aralleirio yn effeithiol. Yn benodol, mae gwirwyr llên-ladrad yn canfod aralleirio trwy ddulliau amrywiol fel paru llinynnau, tebygrwydd cosin, a dadansoddiad n-gram. Yn nodedig, mae dadansoddiad n-gram yn sefyll allan am ei gyfradd fanwl uchel. Mae'r datblygiadau hyn yn lleihau'n sylweddol y tebygolrwydd y bydd deunydd sydd wedi'i lên-ladrata a'i aralleirio yn mynd heb ei ganfod, gan wella cywirdeb academaidd. |