ការលួចបន្លំពាក់ព័ន្ធនឹងការទទួលយកនូវគំនិត ពាក្យសម្តី ឬរូបភាពរបស់នរណាម្នាក់ ដែលជាការអនុវត្តដែលត្រូវបានពិចារណា គ្មានសីលធម៌ នៅក្នុងបរិយាកាសសិក្សា និងវិជ្ជាជីវៈ។ វាអាចនឹងមិនមានការកត់សម្គាល់ដោយសិស្សដែលអាចនិយាយឡើងវិញដោយចៃដន្យនូវពាក្យរបស់អ្នកផ្សេងដោយគ្មានការបញ្ជាក់ត្រឹមត្រូវ។ ដោយសារសញ្ញាសម្រង់មិនត្រូវបានប្រើនៅពេលដែលអ្វីមួយត្រូវបានបកស្រាយ វាអាចគេចផុតពីការចាប់របស់អ្នកអានបានយ៉ាងងាយស្រួល ហើយបន្តចូលទៅក្នុងសេចក្តីព្រាងចុងក្រោយ។ ទោះជាយ៉ាងណាក៏ដោយ វាមិនអាចសម្រេចបានទាំងស្រុងនោះទេ ជាពិសេសចាប់តាំងពីអ្នកត្រួតពិនិត្យការលួចចម្លងរកឃើញការបកស្រាយកាន់តែមានប្រសិទ្ធភាពនាពេលបច្ចុប្បន្ននេះ។
ការរកឃើញការបកស្រាយអាចជាកិច្ចការដ៏លំបាកមួយ ព្រោះវាពាក់ព័ន្ធនឹងការកំណត់អត្តសញ្ញាណភាពស្រដៀងគ្នា និងភាពខុសគ្នារវាងអត្ថបទ។ នៅក្នុងផ្នែកបន្តបន្ទាប់ យើងនឹងពិភាក្សាយ៉ាងទូលំទូលាយអំពីវិធីសាស្រ្ត និងបច្ចេកទេសទូទៅដែលប្រើដើម្បីស្វែងយល់ពីឧទាហរណ៍នៃការបកស្រាយ។
តើអ្នកពិនិត្យការលួចចម្លងរកឃើញការបកស្រាយដោយរបៀបណា៖ វិធីសាស្ត្រសមស្របត្រូវបានស្រាវជ្រាវ
នៅក្នុងទិដ្ឋភាពនៃការអប់រំនាពេលបច្ចុប្បន្ននេះ អ្នកត្រួតពិនិត្យការលួចចម្លងបានក្លាយទៅជាជឿនលឿនកាន់តែខ្លាំងឡើង ដែលលើសពីការគ្រាន់តែដាក់ទង់អត្ថបទដែលបានចម្លង ដើម្បីរកឃើញខ្លឹមសារដែលបានចម្លងផងដែរ។ អត្ថបទនេះស្វែងយល់ពីវិធីសាស្រ្តដែលអនុញ្ញាតឱ្យឧបករណ៍ទាំងនេះកំណត់អត្តសញ្ញាណការបកស្រាយប្រកបដោយប្រសិទ្ធភាព។
1. ការផ្គូផ្គងខ្សែអក្សរ
វិធីសាស្រ្តនេះពាក់ព័ន្ធនឹងការប្រៀបធៀបអត្ថបទនៅកម្រិតតួអក្សរ ឬពាក្យដើម្បីបញ្ជាក់ការផ្គូផ្គងពិតប្រាកដ។ កម្រិតខ្ពស់នៃភាពស្រដៀងគ្នានៅក្នុងលំដាប់តួអក្សរ ឬជម្រើសពាក្យរវាងអត្ថបទពីរអាចបង្ហាញសញ្ញានៃការបកស្រាយ។ ឧបករណ៍ទាំងនេះប្រើក្បួនដោះស្រាយស្មុគ្រស្មាញ ដែលថែមទាំងអាចពិចារណាពីអត្ថន័យបរិបទនៃពាក្យ ដែលធ្វើឱ្យវាពិបាកកាន់តែខ្លាំងឡើងសម្រាប់ការលួចចម្លង សម្ភារៈដែលបកស្រាយដោយមិនអាចរកឃើញបាន។
2. ភាពស្រដៀងគ្នានៃកូស៊ីនុស
ភាពស្រដៀងគ្នានៃកូស៊ីនុស គឺជាវិធីសាស្រ្តមួយក្នុងចំណោមវិធីសាស្រ្តដែលអ្នកត្រួតពិនិត្យការលួចចម្លងរកឃើញការបកស្រាយ។ វាវាស់ភាពស្រដៀងគ្នារវាងអត្ថបទពីរដោយផ្អែកលើមុំរវាងតំណាងវ៉ិចទ័ររបស់ពួកគេក្នុងចន្លោះវិមាត្រខ្ពស់។ តាមរយៈការតំណាងឱ្យអត្ថបទជាវ៉ិចទ័រនៃប្រេកង់ពាក្យ ឬការបង្កប់ ឧបករណ៍ទាំងនេះអាចគណនាពិន្ទុភាពស្រដៀងគ្នានៃកូស៊ីនុស ដើម្បីកែលម្អបន្ថែមនូវសមត្ថភាពរបស់ពួកគេក្នុងការរកឃើញខ្លឹមសារដែលបានបកប្រែ។
3. គំរូតម្រឹមពាក្យ
គំរូទាំងនេះតម្រឹមពាក្យ ឬឃ្លារវាងអត្ថបទពីរដើម្បីកំណត់អត្តសញ្ញាណការឆ្លើយឆ្លងរបស់ពួកគេ។ ដោយការប្រៀបធៀបផ្នែកដែលបានតម្រឹម អ្នកអាចរកឃើញការបកស្រាយដោយផ្អែកលើភាពស្រដៀងគ្នា និងភាពខុសគ្នានៅក្នុងលំដាប់ដែលត្រូវគ្នា។
4. ការវិភាគតាមន័យធៀប
វិធីសាស្រ្តនេះពាក់ព័ន្ធនឹងការវិភាគអត្ថន័យ និងបរិបទនៃពាក្យ និងឃ្លានៅក្នុងអត្ថបទ។ បច្ចេកទេសដូចជា ការវិភាគអក្ខរក្រមមិនទាន់ឃើញច្បាស់ (LSA) ការបង្កប់ពាក្យ (ដូចជា Word2Vec ឬ GloVe) ឬគំរូសិក្សាស៊ីជម្រៅដូចជា BERT អាចចាប់យកទំនាក់ទំនងតាមន័យធៀបរវាងពាក្យ និងកំណត់ការបកស្រាយដោយផ្អែកលើភាពស្រដៀងគ្នានៃតំណាងន័យរបស់វា។
5 ។ ការរៀនម៉ាស៊ីន
ក្បួនដោះស្រាយការរៀនតាមម៉ាស៊ីនដែលស្ថិតក្រោមការគ្រប់គ្រងអាចត្រូវបានបណ្តុះបណ្តាលលើសំណុំទិន្នន័យដែលមានស្លាកនៃអត្ថបទដែលសរសេរជាអក្សរកាត់ និងមិនចម្លង។ គំរូទាំងនេះអាចរៀនលំនាំ និងលក្ខណៈពិសេសដែលបែងចែកឃ្លា និងអាចត្រូវបានប្រើដើម្បីចាត់ថ្នាក់ធាតុថ្មីនៃអត្ថបទថាជាការបកស្រាយឬអត់។
6. ការវិភាគ N-gram
N-grams គឺជាក្រុមនៃពាក្យដែលនៅជាប់គ្នា។ នៅពេលអ្នកពិនិត្យមើលថាតើក្រុមទាំងនេះលេចឡើងញឹកញាប់ប៉ុណ្ណាក្នុងអត្ថបទផ្សេងៗគ្នា ហើយប្រៀបធៀបពួកវា អ្នកអាចរកឃើញឃ្លា ឬលំដាប់ស្រដៀងគ្នា។ ប្រសិនបើមានលំនាំស្រដៀងគ្នាច្រើន វាអាចមានន័យថាអត្ថបទអាចត្រូវបានបកស្រាយ។
7. នៅជិតការរកឃើញស្ទួន
វិធីចុងក្រោយដែលអ្នកត្រួតពិនិត្យការលួចចម្លងរកឃើញការបកស្រាយប្រកបដោយប្រសិទ្ធភាព។
ក្បួនដោះស្រាយការរកឃើញជិតស្ទួនត្រូវបានប្រើប្រាស់ជាញឹកញាប់ក្នុងការរកឃើញការបកស្រាយដើម្បីបញ្ជាក់ផ្នែកអត្ថបទដែលបង្ហាញកម្រិតខ្ពស់នៃភាពស្រដៀងគ្នា ឬស្ទើរតែដូចគ្នាបេះបិទ។ ក្បួនដោះស្រាយទាំងនេះត្រូវបានបង្កើតឡើងជាពិសេសដើម្បីទទួលស្គាល់ខ្លឹមសារដែលបានចម្លងតាមរយៈការប្រៀបធៀបនៃភាពស្រដៀងគ្នានៃអត្ថបទនៅលើកម្រិតលម្អិត។
តើវិធីសាស្រ្តមួយណាដែលជាធម្មតាត្រូវបានប្រើប្រាស់ដោយកម្មវិធីការពារការលួចចម្លង?
ដំណោះស្រាយបច្ចេកវិជ្ជាដែលប្រើប្រាស់ដោយសេវាកម្មបង្ការការលួចចម្លងប្រកបដោយវិជ្ជាជីវៈជាធម្មតាពឹងផ្អែកលើការវិភាគ n-gram ។ តាមរយៈការប្រើប្រាស់បច្ចេកវិទ្យាដែលមានមូលដ្ឋានលើ n-gram សេវាកម្មទាំងនេះសម្រេចបាននូវអត្រាភាពជាក់លាក់ខ្ពស់គួរឱ្យកត់សម្គាល់។ នេះគឺជាវិធីដ៏ល្អបំផុតមួយដែលអ្នកត្រួតពិនិត្យការលួចចម្លងរកឃើញការបកស្រាយ អនុញ្ញាតឱ្យកំណត់អត្តសញ្ញាណ និងការបន្លិចពាក្យពិតប្រាកដដែលត្រូវបានសរសេរឡើងវិញ។
យន្តការនៃរបៀបដែលអ្នកត្រួតពិនិត្យការលួចចម្លងរកឃើញការបកស្រាយ
សេវាបង្ការការលួចចម្លងជាទូទៅប្រើបច្ចេកទេសស្នាមម្រាមដៃដើម្បីប្រៀបធៀបឯកសារ។ នេះពាក់ព័ន្ធនឹងការស្រង់ចេញនូវ n-grams ចាំបាច់ពីឯកសារដើម្បីផ្ទៀងផ្ទាត់ និងប្រៀបធៀបវាជាមួយនឹង n-grams នៃឯកសារទាំងអស់នៅក្នុង databases របស់ពួកគេ។
ឧទាហរណ៍
ចូរនិយាយថាមានប្រយោគមួយ៖ « Le mont Olympe est la plus haute montagne de Grèce។ »
ចំពោះ n-ក្រាម (ឧទាហរណ៍ ៣ ក្រាម) នៃប្រយោគនេះនឹងមានៈ
- Le mont Olympe
- Mont Olympe est
- Olympe est la
- គឺច្រើនបំផុត
- ឡា បូក ហាតេ
- បូកទាំងភ្នំម៉ុងតាញ៉ា
- haute montagne de
- ម៉ុងតាញ៉ា ដឺក្រិច
ករណីទី 1. ការជំនួស
ប្រសិនបើពាក្យនេះត្រូវបានជំនួសដោយពាក្យផ្សេងទៀតនៅតែមានមួយចំនួន n-ក្រាម ផ្គូផ្គង ហើយវាអាចរកឃើញការជំនួសពាក្យដោយការវិភាគបន្ថែម។
ប្រយោគដែលបានផ្លាស់ប្តូរ៖ " ភ្នំ Olympe est la plus haute montagne de ប៉េឡូផុនណេស។ "
ដើម 3 ក្រាម។ | 3 ក្រាមនៃអត្ថបទដែលបានផ្លាស់ប្តូរ |
Le mont Olympe Mont Olympe est Olympe est la គឺច្រើនបំផុត ឡា បូក ហាតេ បូកទាំងភ្នំម៉ុងតាញ៉ា haute montagne de ម៉ុងតាញ៉ា ដឺក្រិច | Le ភ្នំ ក្រុមហ៊ុន Olympus ភ្នំ Olympe est Olympe est la គឺច្រើនបំផុត ឡា បូក ហាតេ បូកទាំងភ្នំម៉ុងតាញ៉ា haute montagne de ម៉ុងតាញ៉ា ដឺ ប៉េឡូផុនណេស |
ករណីទី 2. បានផ្លាស់ប្តូរលំដាប់នៃពាក្យ (ឬប្រយោគ កថាខណ្ឌ)
នៅពេលដែលលំដាប់នៃប្រយោគត្រូវបានផ្លាស់ប្តូរ វានៅតែត្រូវគ្នា 3-grams ដូច្នេះវាអាចរកឃើញការផ្លាស់ប្តូរ។
ប្រយោគដែលបានផ្លាស់ប្តូរ៖ « La plus haute montagne de Grèce est Le mont Olympe ។ »
ដើម 3 ក្រាម។ | 3 ក្រាមនៃអត្ថបទដែលបានផ្លាស់ប្តូរ |
Le mont Olympe Mont Olympe est Olympe est la គឺច្រើនបំផុត ឡា បូក ហាតេ បូកទាំងភ្នំម៉ុងតាញ៉ា haute montagne de ម៉ុងតាញ៉ា ដឺក្រិច | ឡា បូក ហាតេ បូកទាំងភ្នំម៉ុងតាញ៉ា haute montagne de ម៉ុងតាញ៉ា ដឺក្រិច ដឺក្រិក ក្រិក est Le est Le mont Le mont Olympe |
ករណីទី 3. បានបន្ថែមពាក្យថ្មី។
នៅពេលដែលពាក្យថ្មីត្រូវបានបន្ថែម វានៅតែមាន 3 ក្រាមដែលត្រូវគ្នា ដូច្នេះវាអាចរកឃើញការផ្លាស់ប្តូរ។
ប្រយោគដែលបានផ្លាស់ប្តូរ៖ « Le mont Olympe est ពីចម្ងាយ la plus haute montagne de Grèce។ »
ដើម 3 ក្រាម។ | 3 ក្រាមនៃអត្ថបទដែលបានផ្លាស់ប្តូរ |
Le mont Olympe Mont Olympe est Olympe est la គឺច្រើនបំផុត ឡា បូក ហាតេ បូកទាំងភ្នំម៉ុងតាញ៉ា haute montagne de ម៉ុងតាញ៉ា ដឺក្រិច | Le mont Olympe Mont Olympe est Olympe est de est de loin ឆ្ងាយ loin la plus ឡា បូក ហាតេ បូកទាំងភ្នំម៉ុងតាញ៉ា haute montagne de ម៉ុងតាញ៉ា ដឺក្រិច |
ករណីទី 4. បានលុបពាក្យមួយចំនួន
នៅពេលដែលពាក្យត្រូវបានដកចេញ វានៅតែមាន 3-gram ដែលត្រូវគ្នា ដូច្នេះវាអាចរកឃើញការផ្លាស់ប្តូរ។
ប្រយោគដែលបានផ្លាស់ប្តូរ៖ « L'Olympe est la plus haute montagne de Grèce។ »
ដើម 3 ក្រាម។ | 3 ក្រាមនៃអត្ថបទដែលបានផ្លាស់ប្តូរ |
Le mont Olympe Mont Olympe est Olympe est la គឺច្រើនបំផុត ឡា បូក ហាតេ បូកទាំងភ្នំម៉ុងតាញ៉ា haute montagne de ម៉ុងតាញ៉ា ដឺក្រិច | L'Olympe est la គឺច្រើនបំផុត ឡា បូក ហាតេ បូកទាំងភ្នំម៉ុងតាញ៉ា haute montagne de ម៉ុងតាញ៉ា ដឺក្រិច |
ឧទាហរណ៍ពិភពពិត
នៅពេលបញ្ចប់ការផ្ទៀងផ្ទាត់នៅក្នុងឯកសារជាក់ស្តែង ភាគដែលរៀបរាប់ជាញឹកញាប់ត្រូវបានកំណត់អត្តសញ្ញាណតាមរយៈការសម្គាល់ដែលរំខាន។ ការរំខានទាំងនេះ ដែលបង្ហាញពីពាក្យដែលបានផ្លាស់ប្តូរ ត្រូវបានរំលេច ដើម្បីបង្កើនភាពមើលឃើញ និងភាពខុសគ្នា។
ខាងក្រោមនេះ អ្នកនឹងឃើញឧទាហរណ៍នៃឯកសារជាក់ស្តែងមួយ។
- សម្រង់ដំបូងបានមកពីឯកសារដែលត្រូវបានផ្ទៀងផ្ទាត់ដោយប្រើឯកសារ អុកស៊ីកូ សេវាកម្មការពារការលួចចម្លង៖
- សម្រង់ទីពីរគឺចេញពីឯកសារដើម៖
បន្ទាប់ពីការវិភាគកាន់តែស៊ីជម្រៅ វាបង្ហាញថាផ្នែកដែលបានជ្រើសរើសនៃឯកសារត្រូវបានបកស្រាយដោយការធ្វើការផ្លាស់ប្តូរដូចខាងក្រោម៖
អត្ថបទដើម | អត្ថបទដែលបានបកស្រាយ | ការផ្លាស់ប្តូរ |
គាំទ្រការបង្កើតថ្មីក៏ត្រូវបានកំណត់លក្ខណៈផងដែរ។ | ការបម្រុងទុកការច្នៃប្រឌិតគឺក្រៅពីការកំណត់ | ការជំនួស |
ចំណេះដឹងសេដ្ឋកិច្ច និងសង្គម ប្រព័ន្ធប្រសិទ្ធភាព | ការយល់ដឹងអំពីសេដ្ឋកិច្ច និងសង្គម អង្គការប្រកបដោយប្រសិទ្ធភាព | ការជំនួស |
សំណើ (គំនិត) | អនុសាសន៍ | ការជំនួស, ការលុបចោល |
ឥរិយាបទ | ឥរិយាបថ | ការជំនួស |
ភាពជោគជ័យ | អ្នកឈ្នះ | ការជំនួស |
ដំណើរការ (Perenc, Holub-Ivan | ដំណើរការនៃការយល់ដឹង (Perenc, Holub - Ivan | ការបន្ថែម |
គាំទ្រការច្នៃប្រឌិត | អំណោយផល | ការជំនួស |
បង្កើតអាកាសធាតុ | ៖ បង្កើតលក្ខខណ្ឌ | ការជំនួស |
អំណោយផល | រុងរឿង | ការជំនួស |
អភិវឌ្ឍចំណេះដឹង | ការយល់ដឹងអំពីការអភិវឌ្ឍន៍ | ការជំនួស |
សន្និដ្ឋាន
ការលួចចម្លង ដែលជារឿយៗមិនអាចរកឃើញនៅក្នុងករណីនៃការបកស្រាយ នៅតែជាកង្វល់ដ៏សំខាន់នៅក្នុងវិស័យអប់រំ។ ភាពជឿនលឿននៃបច្ចេកវិទ្យាបានបំពាក់ឧបករណ៍ត្រួតពិនិត្យការលួចចម្លង ជាមួយនឹងសមត្ថភាពក្នុងការកំណត់អត្តសញ្ញាណខ្លឹមសារដែលបានបកប្រែប្រកបដោយប្រសិទ្ធភាព។ ជាពិសេស អ្នកត្រួតពិនិត្យការលួចចម្លងរកឃើញការបកស្រាយតាមវិធីផ្សេងៗដូចជាការផ្គូផ្គងខ្សែអក្សរ ភាពស្រដៀងគ្នានៃកូស៊ីនុស និងការវិភាគ n-gram ។ គួរកត់សម្គាល់ថាការវិភាគ n-gram លេចធ្លោសម្រាប់អត្រាភាពជាក់លាក់ខ្ពស់របស់វា។ ភាពជឿនលឿនទាំងនេះកាត់បន្ថយយ៉ាងច្រើននូវលទ្ធភាពនៃសម្ភារៈដែលបានលួចចម្លង និងពាក្យសំភាសន៍ដែលមិនត្រូវបានរកឃើញ ដោយហេតុនេះការបង្កើនភាពស្មោះត្រង់នៃការសិក្សា។ |