साहित्यिक चोरीमध्ये दुसर्याच्या कल्पना, शब्द किंवा प्रतिमा यांचे श्रेय घेणे समाविष्ट आहे, ही एक प्रथा मानली जाते अनैतिक शैक्षणिक आणि व्यावसायिक वातावरणात. याकडे अशा विद्यार्थ्यांचे लक्ष नसू शकते जे चुकून एखाद्याच्या शब्दांचे योग्य श्रेय न घेता पुन्हा उच्चारतात. एखाद्या गोष्टीची व्याख्या करताना अवतरण चिन्हे वापरली जात नसल्यामुळे, ते सहजपणे प्रूफरीडरच्या पकडीतून सुटू शकते आणि अंतिम मसुद्यात जाऊ शकते. तथापि, हे पूर्णपणे अशक्य नाही, विशेषत: आजकाल साहित्यिक चोरी तपासक अधिक कार्यक्षमतेने पॅराफ्रेसिंग शोधतात.
पॅराफ्रेसिंग शोधणे हे एक आव्हानात्मक काम असू शकते, कारण त्यात मजकूरांमधील समानता आणि फरक ओळखणे समाविष्ट आहे. पुढील भागांमध्ये, आम्ही पॅराफ्रेसिंगची उदाहरणे ओळखण्यासाठी वापरल्या जाणार्या सामान्य पद्धती आणि तंत्रांबद्दल सर्वसमावेशक चर्चा करू.
साहित्यिक चोरीचे तपासक पॅराफ्रेसिंग कसे शोधतात: योग्य पद्धती शोधल्या
आजच्या शैक्षणिक लँडस्केपमध्ये, साहित्यिक चोरी तपासणारे अधिक प्रगत झाले आहेत, केवळ कॉपी केलेला मजकूर ध्वजांकित करण्यापलीकडे जाऊन पॅराफ्रेज केलेला आशय शोधण्यासाठी देखील. हा लेख या साधनांना पॅराफ्रेसिंग प्रभावीपणे ओळखण्यासाठी अनुमती देणार्या पद्धतींचा शोध घेतो.
1. स्ट्रिंग जुळणी
या पद्धतीमध्ये अक्षर किंवा शब्द स्तरावरील मजकुराची तुलना अचूक जुळण्यांचा समावेश आहे. वर्ण क्रम किंवा दोन मजकुरांमधील शब्द निवडीमध्ये उच्च प्रमाणात समानता पॅराफ्रेसिंगचे संकेत देऊ शकते. ही साधने क्लिष्ट अल्गोरिदम वापरतात जे शब्दांचा संदर्भात्मक अर्थ देखील विचारात घेऊ शकतात, ज्यामुळे चोरीच्या, पॅराफ्रेज केलेल्या सामग्रीला न सापडणे अधिक कठीण होते.
2. कोसाइन समानता
कोसाइन समानता ही एक पद्धत आहे ज्याद्वारे साहित्यिक चोरी तपासणारे पॅराफ्रेसिंग शोधतात. हे उच्च-आयामी जागेत त्यांच्या वेक्टर प्रतिनिधित्वांमधील कोनावर आधारित दोन मजकूरांमधील समानता मोजते. शब्द फ्रिक्वेन्सी किंवा एम्बेडिंगचे वेक्टर म्हणून मजकूराचे प्रतिनिधित्व करून, ही साधने पॅराफ्रेज्ड सामग्री शोधण्याची त्यांची क्षमता अधिक परिष्कृत करण्यासाठी कोसाइन समानता स्कोअरची गणना करू शकतात.
3. शब्द संरेखन मॉडेल
हे मॉडेल दोन मजकुरांमधले शब्द किंवा वाक्ये त्यांचे पत्रव्यवहार ओळखण्यासाठी संरेखित करतात. संरेखित विभागांची तुलना करून, तुम्ही जुळलेल्या अनुक्रमांमधील समानता आणि फरकांवर आधारित पॅराफ्रेसिंग शोधू शकता.
4. सिमेंटिक विश्लेषण
या दृष्टिकोनामध्ये मजकूरातील शब्द आणि वाक्यांशांचा अर्थ आणि संदर्भ यांचे विश्लेषण करणे समाविष्ट आहे. अव्यक्त शब्दार्थ विश्लेषण (LSA), शब्द एम्बेडिंग (जसे की Word2Vec किंवा GloVe), किंवा BERT सारखे सखोल शिक्षण मॉडेल शब्दांमधील अर्थपूर्ण संबंध कॅप्चर करू शकतात आणि त्यांच्या अर्थपूर्ण प्रतिनिधित्वाच्या समानतेच्या आधारावर पॅराफ्रेसिंग ओळखू शकतात.
एक्सएनयूएमएक्स. मशीन शिक्षण
पर्यवेक्षित मशीन लर्निंग अल्गोरिदमला मजकुराच्या पॅराफ्रेज्ड आणि नॉन-पॅराफ्रेज्ड जोड्यांच्या लेबल केलेल्या डेटासेटवर प्रशिक्षित केले जाऊ शकते. हे मॉडेल पॅराफ्रेज वेगळे करणारे नमुने आणि वैशिष्ट्ये शिकू शकतात आणि मजकूराच्या नवीन उदाहरणांना पॅराफ्रेज केलेले किंवा नाही म्हणून वर्गीकृत करण्यासाठी वापरले जाऊ शकते.
6. एन-ग्राम विश्लेषण
एन-ग्राम हे शब्दांचे समूह आहेत जे एकमेकांच्या अगदी जवळ आहेत. जेव्हा तुम्ही हे गट वेगवेगळ्या मजकुरात किती वेळा दिसतात ते तपासता आणि त्यांची तुलना करता तेव्हा तुम्हाला समान वाक्ये किंवा अनुक्रम सापडतील. जर तेथे अनेक समान नमुने असतील, तर याचा अर्थ असा होऊ शकतो की मजकूर कदाचित पॅराफ्रेज केलेला असावा.
7. डुप्लिकेट डिटेक्शन जवळ
शेवटचा मार्ग ज्याने साहित्यिक चोरी तपासकांनी पॅराफ्रेसिंग प्रभावीपणे शोधले.
निअर-डुप्लिकेट डिटेक्शन अल्गोरिदमचा वापर वारंवार पॅराफ्रेसिंग डिटेक्शनमध्ये मजकूर विभागांना निश्चित करण्यासाठी केला जातो जे उच्च प्रमाणात समानता प्रदर्शित करतात किंवा जवळजवळ एकसारखे असतात. हे अल्गोरिदम विशेषत: तपशीलवार स्तरावर मजकूराच्या समानतेच्या तुलनेत परिभाषित सामग्री ओळखण्यासाठी तयार केले आहेत.
साहित्यिक चोरी प्रतिबंध सॉफ्टवेअरद्वारे सहसा कोणती पद्धत वापरली जाते?
व्यावसायिक साहित्यिक चोरी प्रतिबंध सेवांद्वारे वापरलेले तांत्रिक उपाय सामान्यत: एन-ग्राम विश्लेषणावर अवलंबून असतात. एन-ग्राम-आधारित तंत्रज्ञानाचा लाभ घेऊन, या सेवा उल्लेखनीयपणे उच्च अचूक दर प्राप्त करतात. साहित्यिक चोरी तपासकांनी पॅराफ्रेसिंग शोधण्याचा हा एक उत्तम मार्ग आहे, जे पुन्हा लिहिण्यात आलेले अचूक शब्द ओळखणे आणि हायलाइट करणे सक्षम करणे.
साहित्यिक चोरी तपासणारे पॅराफ्रेसिंग कसे शोधतात याचे यांत्रिकी
साहित्यिक चोरी प्रतिबंध सेवा सामान्यतः दस्तऐवजांची तुलना करण्यासाठी फिंगरप्रिंटिंग तंत्र वापरतात. यामध्ये पडताळणी करण्यासाठी आवश्यक असलेल्या दस्तऐवजांमधून आवश्यक एन-ग्राम काढणे आणि त्यांच्या डेटाबेसमधील सर्व दस्तऐवजांच्या एन-ग्रामशी त्यांची तुलना करणे समाविष्ट आहे.
उदाहरण
समजा एक वाक्य आहे: « Le mont Olympe est la plus haute montagne de Grèce. »
अगोदर निर्देश केलेल्या बाबीसंबंधी बोलताना n-ग्रॅम (उदाहरणार्थ 3-ग्रॅम) या वाक्याचे असेल:
- ले मॉन्ट ऑलिंप
- मॉन्ट ऑलिंप इस्ट
- ऑलिम्प est ला
- सर्वात आहे
- la plus haute
- प्लस हाउटे माँटाग्ने
- Haute montagne de
- मॉन्टॅग्ने डी ग्रेस
केस 1. बदली
जर हा शब्द इतर शब्दाने बदलला असेल तर, तरीही काही n-ग्रॅम जुळवा आणि पुढील विश्लेषणाद्वारे शब्द बदलणे शोधणे शक्य आहे.
बदललेले वाक्य: "द डोंगरावर Olympe est la plus haute montagne de पेलोपोनेसे. »
मूळ 3-ग्रॅम | 3-ग्राम बदललेला मजकूर |
ले मॉन्ट ऑलिंप मॉन्ट ऑलिंप इस्ट ऑलिम्प est ला सर्वात आहे la plus haute प्लस हाउटे माँटाग्ने Haute montagne de मॉन्टॅग्ने डी ग्रेस | Le डोंगरावर ऑलिंपस डोंगरावर ऑलिंप इस्ट ऑलिम्प est ला सर्वात आहे la plus haute प्लस हाउटे माँटाग्ने Haute montagne de माँटाग्ने डी पेलोपोनेसे |
केस 2. शब्दांचा क्रम बदलला (किंवा वाक्ये, परिच्छेद)
जेव्हा वाक्याचा क्रम बदलला जातो, तरीही काही 3-ग्राम जुळतात त्यामुळे बदल शोधणे शक्य होते.
बदललेले वाक्य: « La plus haute montagne de Grèce est Le mont Olympe. »
मूळ 3-ग्रॅम | 3-ग्राम बदललेला मजकूर |
ले मॉन्ट ऑलिंप मॉन्ट ऑलिंप इस्ट ऑलिम्प est ला सर्वात आहे la plus haute प्लस हाउटे माँटाग्ने Haute montagne de मॉन्टॅग्ने डी ग्रेस | ला प्लस हाउते प्लस हाउटे माँटाग्ने Haute montagne de मॉन्टॅग्ने डी ग्रेस de Grèce est Grèce est Le est Le mont ले मॉन्ट ऑलिंप |
केस 3. नवीन शब्द जोडले
जेव्हा नवीन शब्द जोडले जातात, तरीही काही 3-ग्राम जुळतात त्यामुळे बदल शोधणे शक्य होते.
बदललेले वाक्य: « Le mont Olympe est डी कमर la plus haute montagne de Grèce. »
मूळ 3-ग्रॅम | 3-ग्राम बदललेला मजकूर |
ले मॉन्ट ऑलिंप मॉन्ट ऑलिंप इस्ट ऑलिम्प est ला सर्वात आहे la plus haute प्लस हाउटे माँटाग्ने Haute montagne de मॉन्टॅग्ने डी ग्रेस | ले मॉन्ट ऑलिंप मॉन्ट ऑलिंप इस्ट ऑलिंप इस्ट डी est de loin खूप दुर कमर ला प्लस la plus haute प्लस हाउटे माँटाग्ने Haute montagne de मॉन्टॅग्ने डी ग्रेस |
केस 4. काही शब्द हटवले
जेव्हा शब्द काढला जातो तेव्हा अजूनही काही 3-ग्राम जुळतात त्यामुळे बदल शोधणे शक्य होते.
बदललेले वाक्य: « L'Olympe est la plus haute montagne de Grèce. »
मूळ 3-ग्रॅम | 3-ग्राम बदललेला मजकूर |
ले मॉन्ट ऑलिंप मॉन्ट ऑलिंप इस्ट ऑलिम्प est ला सर्वात आहे la plus haute प्लस हाउटे माँटाग्ने Haute montagne de मॉन्टॅग्ने डी ग्रेस | L'Olympe est la सर्वात आहे la plus haute प्लस हाउटे माँटाग्ने Haute montagne de मॉन्टॅग्ने डी ग्रेस |
वास्तविक जगाचे उदाहरण
वास्तविक दस्तऐवजात पडताळणी पूर्ण झाल्यावर, पॅराफ्रेज केलेले विभाग अनेकदा व्यत्यय असलेल्या खुणांद्वारे ओळखले जातात. हे व्यत्यय, बदललेले शब्द दर्शविणारे, दृश्यमानता आणि वेगळेपणा वाढवण्यासाठी हायलाइट केले जातात.
खाली, तुम्हाला प्रत्यक्ष दस्तऐवजाचे उदाहरण मिळेल.
- पहिला उतारा फाईलमधून येतो ज्याचा वापर करून सत्यापित केले गेले आहे OXSICO साहित्यिक चोरी प्रतिबंध सेवा:
- दुसरा उतारा मूळ स्त्रोत दस्तऐवजाचा आहे:
सखोल विश्लेषणानंतर असे दिसून येते की दस्तऐवजाचा निवडलेला भाग खालील बदल करून स्पष्ट केला होता:
मूळ मजकूर | पॅराफ्रेज केलेला मजकूर | बदल |
नावीन्यपूर्ण समर्थन देखील वैशिष्ट्यीकृत आहे | बॅक अप इनोव्हेशन याशिवाय परिभाषित आहे | बदलण्याचे |
आर्थिक आणि सामाजिक ज्ञान, कार्यक्षम प्रणाली | आर्थिक आणि सामाजिक जागरूकता, कार्यक्षम संस्था | बदलण्याचे |
प्रस्ताव (कल्पना) | शिफारस | बदलणे, हटवणे |
दृष्टिकोन | पवित्रा | बदलण्याचे |
यश | विजेता | बदलण्याचे |
प्रक्रिया (Perenc, Holub-Ivan | संज्ञानात्मक प्रक्रिया (Perenc, Holub - Ivan | या व्यतिरिक्त |
प्रो-इनोव्हेशन | अनुकूल | बदलण्याचे |
एक वातावरण तयार करणे | : स्थिती निर्माण करणे | बदलण्याचे |
अनुकूल | समृद्ध | बदलण्याचे |
ज्ञान विकसित करणे | विकास जागरूकता | बदलण्याचे |
निष्कर्ष
साहित्यिक चोरी, ज्याचा वारंवार शोध लावला जात नाही, हा शैक्षणिक क्षेत्रातील एक महत्त्वाचा चिंतेचा विषय आहे. तांत्रिक प्रगतीने साहित्यिक चोरी तपासकांना परिभाषित सामग्री प्रभावीपणे ओळखण्याच्या क्षमतेसह सुसज्ज केले आहे. विशेषतः, साहित्यिक चोरी तपासक स्ट्रिंग मॅचिंग, कोसाइन समानता आणि एन-ग्राम विश्लेषण यासारख्या विविध पद्धतींद्वारे पॅराफ्रेसिंग शोधतात. विशेष म्हणजे, एन-ग्राम विश्लेषण त्याच्या उच्च अचूक दरासाठी वेगळे आहे. या प्रगतींमुळे चोरीची आणि परिभाषित सामग्री न सापडण्याची शक्यता लक्षणीयरीत्या कमी होते, ज्यामुळे शैक्षणिक अखंडता वाढते. |