Sidee baadhayaasha been-abuurku ku ogaadaan erey-bixinta?

sidee-u-xun-xun-baarayaasha-u-helaan-hadal-ku-dhigid
()

Been-sheeggu waxa ay ku lug leedahay in qof kale ammaano loo qaato fikradihiisa, ereyadiisa, ama muuqaalkiisa, dhaqan la tixgeliyey caddaalad darro goobaha waxbarashada iyo xirfadda. Waxay noqon kartaa mid aan dareemin ardayda kuwaas oo laga yaabo inay si lama filaan ah u soo celiyaan ereyada qof kale iyada oo aan loo eegin. Mar haddii calaamadaha xigashada aan la isticmaalin marka shay la soo koobo, waxay si fudud uga baxsan kartaa qabsashada saxiyaha oo ay geli kartaa qabyada kama dambaysta ah. Si kastaba ha ahaatee, gabi ahaanba lama gaadhi karo, gaar ahaan maadaama ay baarayaasha xatooyada ay ogaadaan in si hufan maalmahan loo turjumay.

Ogaanshaha erey-bixintu waxay noqon kartaa hawl adag, maxaa yeelay waxay ku lug leedahay aqoonsiga waxyaabaha ay isku midka yihiin iyo faraqa u dhexeeya qoraallada. Qaybaha soo socda, waxaynu ku daah-furi doonaa dood dhammaystiran oo ku saabsan hababka iyo farsamooyinka caadiga ah ee loo isticmaalo in lagu garto tusaale ahaan erey-bixinta.

Sidee baadhayaasha been-abuurka u ogaadaan erey-bixinta: Hababka ku habboon ayaa la sahamiyay

Muuqaalka waxbarasho ee maanta, jeegaga been abuurka ayaa noqday mid aad u horumarsan, iyaga oo ka gudbay kaliya calaamadinta qoraalka la koobiyay ilaa ay sidoo kale ogaadaan waxyaabaha la soo koobay. Maqaalkani waxa uu sahamiyaa hababka u oggolaanaya qalabkan in ay si wax ku ool ah u aqoonsadaan ereyada.

Been-sheeg-baarayaasha-waxay ogaadaan-hadal-ku-dhigid

1. Xarig is waafajinta

Habkani waxa uu ku lug leeyahay in la is barbar dhigo qoraallada heerka xarfaha ama erayga si loo tilmaamo kuwa saxda ah. Isku ekaanshaha heerka sare ee taxanaha jilayaasha ama xulashada kelmadaha ee u dhexeeya labada qoraal waxay calaamad u noqon kartaa soo koobid. Aaladahani waxay adeegsadaan algorithms kakan kuwaas oo xitaa tixgelin kara macnaha macnaha guud ee erayada, taas oo sii adkeynaysa in la caddeeyo, walxaha la turjumay si aan la ogaan.

2. Isku ekaanshaha Cosine

Isku ekaanshaha Cosine waa mid ka mid ah siyaabaha ay baarayaasha sirta ah ku ogaadaan erey-bixinta. Waxay cabbirtaa isku ekaanshaha labada qoraal ee ku salaysan xagasha u dhaxaysa matalidooda vector ee meel bannaan oo cabbir sare leh. Iyaga oo u metelaya qoraallada sida soo noqnoqoshada ereyada ama wax-ku-xidhka, qalabkani waxa ay xisaabin karaan dhibcaha isku midka ah ee cosine si ay u sii nadiifiyaan awooddooda ay ku ogaadaan waxa ku jira.

3. Hababka isku toosinta erayada

Moodooyinkani waxay isku toosiyaan ereyada ama odhaahyada u dhexeeya laba qoraal si ay u aqoonsadaan waraaqahooda. Marka la is barbar dhigo qaybaha toosan, waxaad ogaan kartaa erey-bixin ku salaysan isku ekaanshaha iyo kala duwanaanshiyaha taxanaha isku midka ah.

4. Falanqaynta Semantic

Habkani wuxuu ku lug leeyahay falanqaynta macnaha iyo macnaha erayada iyo weedhaha qoraallada. Farsamooyinka sida falanqaynta semantic ee dahsoon (LSA), dhejinta kelmado (sida Word2Vec ama GloVe), ama moodooyinka barasho qoto dheer sida BERT waxay qabsan karaan xidhiidhada semantic ee erayada waxayna aqoonsan karaan ereyada ku salaysan isku midka ah ee matalidooda semantic.

5. Barashada Mashiinka

Algorithms-yada barashada mashiinka la kormeerayo waxaa lagu tababari karaa qoraallada la calaamadeeyay ee la soo koobay iyo kuwa aan qeexnayn. Moodooyinkani waxay baran karaan habab iyo astaamo kala sooca erey-bixinnada waxaana loo isticmaali karaa in lagu kala saaro tusaalooyinka cusub ee qoraalka mid la soo koobay iyo in kale.

6. Falanqaynta N-gram

N-grams waa kooxo kelmado ah oo isku xiga. Markaad hubiso inta jeer ee ay kooxahani ka soo baxaan qoraallo kala duwan oo aad isbarbar dhigto, waxaad heli kartaa weedho ama isku xigxigyo isku mid ah. Haddii ay jiraan qaabab badan oo la mid ah, waxay la macno noqon kartaa in qoraalka la soo koobay.

7. Meel u dhow ogaanshaha nuqulka

Habka ugu dambeeya ee baarayaasha been-abuurka ay ku ogaadaan si wax-ku-ool ah u-tarjumidda.

Algorithms-ka ogaanshiyaha-koobniyeedka ayaa had iyo jeer lagu shaqeeyaa qeexida qeexida si loo tilmaamo qaybaha qoraalka ee muujinaya isku ekaanshaha sare ama ku dhawaad ​​isku mid. Algorithms-yadan waxa si gaar ah loo habeeyey si loo aqoonsado nuxurka la soo koobay iyada oo la isbarbar dhigayo isku ekaanshaha qoraalka ee heer tafatiran.

Qaabkee ayaa inta badan loo adeegsadaa software ka-hortagga been-abuurka?

Xalalka tignoolajiyada ee ay adeegsadaan adeegyada ka hortagga xatooyada ee xirfadlayaasha ah waxay caadi ahaan ku tiirsan yihiin falanqaynta n-gram. Ka faa'iidaysiga tignoolajiyada n-gram-ku-salaysan, adeegyadani waxay gaadhaan heer sax ah oo aad u sarreeya. Tani waa mid ka mid ah siyaabaha ugu wanaagsan ee baarayaasha been abuurka ay ku ogaadaan af-ku-soo-jeedinta, taasoo awood u siinaysa aqoonsiga iyo muujinta ereyada saxda ah ee dib loo qoray.

Farsamoyaqaannada sida jeegaga xatooyada u ogaadaan erey-bixinta

Adeegyada ka hortagga been-abuurka waxay caadi ahaan adeegsadaan farsamada faraha si ay isu barbar dhigaan dukumentiyada. Tani waxay ku lug leedahay ka soo saarida n-gram-yada lagama maarmaanka ah dukumeentiyada si loo xaqiijiyo iyo in la barbar dhigo n-garaamyada dhammaan dukumentiyada ku jira kaydkooda.

ardayda-wax-akhrinta-sidee-u-xun-xun-u-baarayaal-u-helaan-hadal-saarid

Tusaale

Aynu nidhaahno waxaa jira jumlad: « Le mont Olympe est la plus haute montagne de Grèce. »

The n-grams (tusaale ahaan 3-gram) jumladani waxay noqon doontaa:

  • Le mont Olympe
  • Mont Olympe est
  • Olympe waa la
  • ayaa ugu badan
  • la plus haute
  • oo lagu daray haute montagne
  • haute montagne de
  • Montagne de Grèce

Kiiska 1. Beddelka

Haddii ereyga lagu beddelo ereyga kale, weli qaar ka mid ah n-grams is dhigma oo waxaa suurtagal ah in la ogaado ereyga beddelka ah iyada oo la sii baarayo.

Jumlada la beddelay:  "The buurta Olympe est la plus haute montagne de Péloponnèse. "

3-gram oo asal ah3-gram oo qoraal ah oo la beddelay
Le mont Olympe
Mont Olympe est
Olympe waa la
ayaa ugu badan
la plus haute
oo lagu daray haute montagne
haute montagne de
Montagne de Grèce
Le buurta Olympus
buurta Olympe est
Olympe waa la
ayaa ugu badan
la plus haute
oo lagu daray haute montagne
haute montagne de
Montagne de Péloponnèse

Kiiska 2. Wuxuu beddelay habaynta erayada (ama weedho, cutubyo)

Marka habka jumlada la beddelo, weli qaar 3-gram ah ayaa isbarbar socda si ay suurtogal u tahay in la ogaado isbeddelka.

Jumlada la beddelay: « La plus haute montagne de Grèce est Le mont Olympe. »

3-gram oo asal ah3-gram oo qoraal ah oo la beddelay
Le mont Olympe
Mont Olympe est
Olympe waa la
ayaa ugu badan
la plus haute
oo lagu daray haute montagne
haute montagne de
Montagne de Grèce
La plus haute
oo lagu daray haute montagne
haute montagne de
Montagne de Grèce
de Grèce est
Grece est Le
est Le mont
Le mont Olympe

Kiiska 3. Ereyo cusub oo lagu daray

Marka erayada cusub lagu daro, waxaa weli jira qaar ka mid ah 3-gram oo u dhigma si ay suurtogal u tahay in la ogaado isbeddelka.

Jumlada la beddelay: "Le mont Olympe est meel fog la plus haute montagne de Grèce. »

3-gram oo asal ah3-gram oo qoraal ah oo la beddelay
Le mont Olympe
Mont Olympe est
Olympe waa la
ayaa ugu badan
la plus haute
oo lagu daray haute montagne
haute montagne de
Montagne de Grèce
Le mont Olympe
Mont Olympe est
Olympe est de
est de loin
fog
loin la plus
la plus haute
oo lagu daray haute montagne
haute montagne de
Montagne de Grèce

Kiiska 4. Waxa la tirtiray ereyada qaarkood

Marka ereyga la saaro, waxaa weli jira 3-gram oo u dhigma si ay suurtogal u tahay in la ogaado isbeddelka.

Jumlada la beddelay: "L'Olympe est la plus haute montagne de Grèce. »

3-gram oo asal ah3-gram oo qoraal ah oo la beddelay
Le mont Olympe
Mont Olympe est
Olympe waa la
ayaa ugu badan
la plus haute
oo lagu daray haute montagne
haute montagne de
Montagne de Grèce
Olympe waa la
ayaa ugu badan
la plus haute
oo lagu daray haute montagne
haute montagne de
Montagne de Grèce

Tusaalaha dhabta ah ee aduunka

Marka la dhammeeyo xaqiijinta dukumeentiga dhabta ah, qaybaha la soo koobay ayaa inta badan lagu gartaa calaamado go'an. Joojintan, oo tilmaamaysa ereyada la beddelay, ayaa la iftiimiyay si kor loogu qaado muuqaalka iyo kala soocidda.

Hoosta, waxaad ka heli doontaa tusaale dukumeenti dhab ah.

  • Qaybta hore waxay ka timid fayl la xaqiijiyay iyadoo la isticmaalayo OXSICO adeegga ka hortagga been-abuurka:
  • Nuxurka labaad wuxuu ka yimid dukumeenti isha asalka ah:
been abuur-warbixin

Falanqaynta qoto dheer ka dib waxaa cad in qaybta la doortay ee dukumeentiga la soo koobay iyadoo la sameeyay isbedelada soo socda:

Qoraalka asalka ahQoraal la soo koobayIsbedelada
waxay taageertaa hal-abuurnimada ayaa sidoo kale lagu gartaa dib u cusboonaysiinta waa ka sokow qeexidBedelaadda
aqoon dhaqaale iyo bulsho, nidaam hufan wacyiga dhaqaale iyo bulsho, urur hufanBedelaadda
soo jeedin (fikrado)taladaBeddelka, tirtirka
dabeecadahajimicsiBedelaadda
guulguushaBedelaadda
habka (Perenc, Holub-Ivanhabka garashada (Perenc, Holub - IvanIsugeyn
pro-hal-abuurnimowanaagsanBedelaadda
abuurista jawi: xaalad abuurBedelaadda
wanaagsanbarwaaqaysanBedelaadda
horumarinta aqoontawacyigelinta horumarkaBedelaadda

Ugu Dambeyn

Been abuurka, oo aan si joogta ah loo ogaan kiisaska sifada, ayaa weli ah walaac weyn oo ka jira akadeemiyadda. Horumarka tignoolajiyada ayaa qalabeeyay jeegaga been abuurka oo leh karti ay si wax ku ool ah u aqoonsadaan waxa la soo koobay. Gaar ahaan, jeegaga been abuurka ayaa ku ogaanaya erey-bixinta iyadoo loo marayo habab kala duwan sida xargaha is-barbar-dhigga, isu-ekaanshaha cosine, iyo falanqaynta n-gram. Waxaa xusid mudan, falanqaynta n-gram waxay u taagan tahay heerkeeda saxda ah ee sarreeya. Horumarradan ayaa si weyn u yareeya suurtagalnimada walxaha la been-abuuray iyo kuwa la soo koobay ee aan la ogaanin, taasoo kor u qaadaysa daacadnimada tacliimeed.

Sidee buu faa'iido ufadanaa?

Riix xiddig si aad u qiimeyso!

Qiyaasta celceliska / 5. Tirinta codadka:

Codkaaga illaa iyo hadda ma jiro! Noqo kan ugu horreeya ee qiimeeya qoraalkan.

Waan ka xunnahay in boostadani aysan waxtar kuu lahayn!

Aynu sii hagaajino boostada!

Noo sheeg sida aan u hagaajin karno boostada?