Been-sheeggu waxa ay ku lug leedahay in qof kale ammaano loo qaato fikradihiisa, ereyadiisa, ama muuqaalkiisa, dhaqan la tixgeliyey caddaalad darro goobaha waxbarashada iyo xirfadda. Waxay noqon kartaa mid aan dareemin ardayda kuwaas oo laga yaabo inay si lama filaan ah u soo celiyaan ereyada qof kale iyada oo aan loo eegin. Mar haddii calaamadaha xigashada aan la isticmaalin marka shay la soo koobo, waxay si fudud uga baxsan kartaa qabsashada saxiyaha oo ay geli kartaa qabyada kama dambaysta ah. Si kastaba ha ahaatee, gabi ahaanba lama gaadhi karo, gaar ahaan maadaama ay baarayaasha xatooyada ay ogaadaan in si hufan maalmahan loo turjumay.
Ogaanshaha erey-bixintu waxay noqon kartaa hawl adag, maxaa yeelay waxay ku lug leedahay aqoonsiga waxyaabaha ay isku midka yihiin iyo faraqa u dhexeeya qoraallada. Qaybaha soo socda, waxaynu ku daah-furi doonaa dood dhammaystiran oo ku saabsan hababka iyo farsamooyinka caadiga ah ee loo isticmaalo in lagu garto tusaale ahaan erey-bixinta.
Sidee baadhayaasha been-abuurka u ogaadaan erey-bixinta: Hababka ku habboon ayaa la sahamiyay
Muuqaalka waxbarasho ee maanta, jeegaga been abuurka ayaa noqday mid aad u horumarsan, iyaga oo ka gudbay kaliya calaamadinta qoraalka la koobiyay ilaa ay sidoo kale ogaadaan waxyaabaha la soo koobay. Maqaalkani waxa uu sahamiyaa hababka u oggolaanaya qalabkan in ay si wax ku ool ah u aqoonsadaan ereyada.
1. Xarig is waafajinta
Habkani waxa uu ku lug leeyahay in la is barbar dhigo qoraallada heerka xarfaha ama erayga si loo tilmaamo kuwa saxda ah. Isku ekaanshaha heerka sare ee taxanaha jilayaasha ama xulashada kelmadaha ee u dhexeeya labada qoraal waxay calaamad u noqon kartaa soo koobid. Aaladahani waxay adeegsadaan algorithms kakan kuwaas oo xitaa tixgelin kara macnaha macnaha guud ee erayada, taas oo sii adkeynaysa in la caddeeyo, walxaha la turjumay si aan la ogaan.
2. Isku ekaanshaha Cosine
Isku ekaanshaha Cosine waa mid ka mid ah siyaabaha ay baarayaasha sirta ah ku ogaadaan erey-bixinta. Waxay cabbirtaa isku ekaanshaha labada qoraal ee ku salaysan xagasha u dhaxaysa matalidooda vector ee meel bannaan oo cabbir sare leh. Iyaga oo u metelaya qoraallada sida soo noqnoqoshada ereyada ama wax-ku-xidhka, qalabkani waxa ay xisaabin karaan dhibcaha isku midka ah ee cosine si ay u sii nadiifiyaan awooddooda ay ku ogaadaan waxa ku jira.
3. Hababka isku toosinta erayada
Moodooyinkani waxay isku toosiyaan ereyada ama odhaahyada u dhexeeya laba qoraal si ay u aqoonsadaan waraaqahooda. Marka la is barbar dhigo qaybaha toosan, waxaad ogaan kartaa erey-bixin ku salaysan isku ekaanshaha iyo kala duwanaanshiyaha taxanaha isku midka ah.
4. Falanqaynta Semantic
Habkani wuxuu ku lug leeyahay falanqaynta macnaha iyo macnaha erayada iyo weedhaha qoraallada. Farsamooyinka sida falanqaynta semantic ee dahsoon (LSA), dhejinta kelmado (sida Word2Vec ama GloVe), ama moodooyinka barasho qoto dheer sida BERT waxay qabsan karaan xidhiidhada semantic ee erayada waxayna aqoonsan karaan ereyada ku salaysan isku midka ah ee matalidooda semantic.
5. Barashada Mashiinka
Algorithms-yada barashada mashiinka la kormeerayo waxaa lagu tababari karaa qoraallada la calaamadeeyay ee la soo koobay iyo kuwa aan qeexnayn. Moodooyinkani waxay baran karaan habab iyo astaamo kala sooca erey-bixinnada waxaana loo isticmaali karaa in lagu kala saaro tusaalooyinka cusub ee qoraalka mid la soo koobay iyo in kale.
6. Falanqaynta N-gram
N-grams waa kooxo kelmado ah oo isku xiga. Markaad hubiso inta jeer ee ay kooxahani ka soo baxaan qoraallo kala duwan oo aad isbarbar dhigto, waxaad heli kartaa weedho ama isku xigxigyo isku mid ah. Haddii ay jiraan qaabab badan oo la mid ah, waxay la macno noqon kartaa in qoraalka la soo koobay.
7. Meel u dhow ogaanshaha nuqulka
Habka ugu dambeeya ee baarayaasha been-abuurka ay ku ogaadaan si wax-ku-ool ah u-tarjumidda.
Algorithms-ka ogaanshiyaha-koobniyeedka ayaa had iyo jeer lagu shaqeeyaa qeexida qeexida si loo tilmaamo qaybaha qoraalka ee muujinaya isku ekaanshaha sare ama ku dhawaad isku mid. Algorithms-yadan waxa si gaar ah loo habeeyey si loo aqoonsado nuxurka la soo koobay iyada oo la isbarbar dhigayo isku ekaanshaha qoraalka ee heer tafatiran.
Qaabkee ayaa inta badan loo adeegsadaa software ka-hortagga been-abuurka?
Xalalka tignoolajiyada ee ay adeegsadaan adeegyada ka hortagga xatooyada ee xirfadlayaasha ah waxay caadi ahaan ku tiirsan yihiin falanqaynta n-gram. Ka faa'iidaysiga tignoolajiyada n-gram-ku-salaysan, adeegyadani waxay gaadhaan heer sax ah oo aad u sarreeya. Tani waa mid ka mid ah siyaabaha ugu wanaagsan ee baarayaasha been abuurka ay ku ogaadaan af-ku-soo-jeedinta, taasoo awood u siinaysa aqoonsiga iyo muujinta ereyada saxda ah ee dib loo qoray.
Farsamoyaqaannada sida jeegaga xatooyada u ogaadaan erey-bixinta
Adeegyada ka hortagga been-abuurka waxay caadi ahaan adeegsadaan farsamada faraha si ay isu barbar dhigaan dukumentiyada. Tani waxay ku lug leedahay ka soo saarida n-gram-yada lagama maarmaanka ah dukumeentiyada si loo xaqiijiyo iyo in la barbar dhigo n-garaamyada dhammaan dukumentiyada ku jira kaydkooda.
Tusaale
Aynu nidhaahno waxaa jira jumlad: « Le mont Olympe est la plus haute montagne de Grèce. »
The n-grams (tusaale ahaan 3-gram) jumladani waxay noqon doontaa:
- Le mont Olympe
- Mont Olympe est
- Olympe waa la
- ayaa ugu badan
- la plus haute
- oo lagu daray haute montagne
- haute montagne de
- Montagne de Grèce
Kiiska 1. Beddelka
Haddii ereyga lagu beddelo ereyga kale, weli qaar ka mid ah n-grams is dhigma oo waxaa suurtagal ah in la ogaado ereyga beddelka ah iyada oo la sii baarayo.
Jumlada la beddelay: "The buurta Olympe est la plus haute montagne de Péloponnèse. "
3-gram oo asal ah | 3-gram oo qoraal ah oo la beddelay |
Le mont Olympe Mont Olympe est Olympe waa la ayaa ugu badan la plus haute oo lagu daray haute montagne haute montagne de Montagne de Grèce | Le buurta Olympus buurta Olympe est Olympe waa la ayaa ugu badan la plus haute oo lagu daray haute montagne haute montagne de Montagne de Péloponnèse |
Kiiska 2. Wuxuu beddelay habaynta erayada (ama weedho, cutubyo)
Marka habka jumlada la beddelo, weli qaar 3-gram ah ayaa isbarbar socda si ay suurtogal u tahay in la ogaado isbeddelka.
Jumlada la beddelay: « La plus haute montagne de Grèce est Le mont Olympe. »
3-gram oo asal ah | 3-gram oo qoraal ah oo la beddelay |
Le mont Olympe Mont Olympe est Olympe waa la ayaa ugu badan la plus haute oo lagu daray haute montagne haute montagne de Montagne de Grèce | La plus haute oo lagu daray haute montagne haute montagne de Montagne de Grèce de Grèce est Grece est Le est Le mont Le mont Olympe |
Kiiska 3. Ereyo cusub oo lagu daray
Marka erayada cusub lagu daro, waxaa weli jira qaar ka mid ah 3-gram oo u dhigma si ay suurtogal u tahay in la ogaado isbeddelka.
Jumlada la beddelay: "Le mont Olympe est meel fog la plus haute montagne de Grèce. »
3-gram oo asal ah | 3-gram oo qoraal ah oo la beddelay |
Le mont Olympe Mont Olympe est Olympe waa la ayaa ugu badan la plus haute oo lagu daray haute montagne haute montagne de Montagne de Grèce | Le mont Olympe Mont Olympe est Olympe est de est de loin fog loin la plus la plus haute oo lagu daray haute montagne haute montagne de Montagne de Grèce |
Kiiska 4. Waxa la tirtiray ereyada qaarkood
Marka ereyga la saaro, waxaa weli jira 3-gram oo u dhigma si ay suurtogal u tahay in la ogaado isbeddelka.
Jumlada la beddelay: "L'Olympe est la plus haute montagne de Grèce. »
3-gram oo asal ah | 3-gram oo qoraal ah oo la beddelay |
Le mont Olympe Mont Olympe est Olympe waa la ayaa ugu badan la plus haute oo lagu daray haute montagne haute montagne de Montagne de Grèce | Olympe waa la ayaa ugu badan la plus haute oo lagu daray haute montagne haute montagne de Montagne de Grèce |
Tusaalaha dhabta ah ee aduunka
Marka la dhammeeyo xaqiijinta dukumeentiga dhabta ah, qaybaha la soo koobay ayaa inta badan lagu gartaa calaamado go'an. Joojintan, oo tilmaamaysa ereyada la beddelay, ayaa la iftiimiyay si kor loogu qaado muuqaalka iyo kala soocidda.
Hoosta, waxaad ka heli doontaa tusaale dukumeenti dhab ah.
- Qaybta hore waxay ka timid fayl la xaqiijiyay iyadoo la isticmaalayo OXSICO adeegga ka hortagga been-abuurka:
- Nuxurka labaad wuxuu ka yimid dukumeenti isha asalka ah:
Falanqaynta qoto dheer ka dib waxaa cad in qaybta la doortay ee dukumeentiga la soo koobay iyadoo la sameeyay isbedelada soo socda:
Qoraalka asalka ah | Qoraal la soo koobay | Isbedelada |
waxay taageertaa hal-abuurnimada ayaa sidoo kale lagu gartaa | dib u cusboonaysiinta waa ka sokow qeexid | Bedelaadda |
aqoon dhaqaale iyo bulsho, nidaam hufan | wacyiga dhaqaale iyo bulsho, urur hufan | Bedelaadda |
soo jeedin (fikrado) | talada | Beddelka, tirtirka |
dabeecadaha | jimicsi | Bedelaadda |
guul | guusha | Bedelaadda |
habka (Perenc, Holub-Ivan | habka garashada (Perenc, Holub - Ivan | Isugeyn |
pro-hal-abuurnimo | wanaagsan | Bedelaadda |
abuurista jawi | : xaalad abuur | Bedelaadda |
wanaagsan | barwaaqaysan | Bedelaadda |
horumarinta aqoonta | wacyigelinta horumarka | Bedelaadda |
Ugu Dambeyn
Been abuurka, oo aan si joogta ah loo ogaan kiisaska sifada, ayaa weli ah walaac weyn oo ka jira akadeemiyadda. Horumarka tignoolajiyada ayaa qalabeeyay jeegaga been abuurka oo leh karti ay si wax ku ool ah u aqoonsadaan waxa la soo koobay. Gaar ahaan, jeegaga been abuurka ayaa ku ogaanaya erey-bixinta iyadoo loo marayo habab kala duwan sida xargaha is-barbar-dhigga, isu-ekaanshaha cosine, iyo falanqaynta n-gram. Waxaa xusid mudan, falanqaynta n-gram waxay u taagan tahay heerkeeda saxda ah ee sarreeya. Horumarradan ayaa si weyn u yareeya suurtagalnimada walxaha la been-abuuray iyo kuwa la soo koobay ee aan la ogaanin, taasoo kor u qaadaysa daacadnimada tacliimeed. |