การลอกเลียนแบบเกี่ยวข้องกับการให้เครดิตความคิด คำพูด หรือภาพของผู้อื่น ซึ่งเป็นแนวทางปฏิบัติที่ได้รับการพิจารณา ผิดจรรยาบรรณ ในสภาพแวดล้อมทางวิชาการและวิชาชีพ นักเรียนอาจมองข้ามคำพูดของผู้อื่นโดยไม่ได้ตั้งใจโดยไม่แสดงที่มาอย่างเหมาะสม เนื่องจากเครื่องหมายคำพูดไม่ได้ใช้เมื่อมีการถอดความ จึงสามารถหลุดมือของผู้ตรวจทานและเข้าสู่ร่างสุดท้ายได้อย่างง่ายดาย อย่างไรก็ตาม การดำเนินการดังกล่าวไม่ได้เกิดขึ้นทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อผู้ตรวจสอบการลอกเลียนแบบตรวจพบการถอดความได้อย่างมีประสิทธิภาพมากขึ้นในปัจจุบัน
การตรวจจับการถอดความอาจเป็นงานที่ท้าทาย เนื่องจากจะต้องระบุความเหมือนและความแตกต่างระหว่างข้อความ ในหัวข้อต่อๆ ไป เราจะเจาะลึกการอภิปรายที่ครอบคลุมเกี่ยวกับวิธีการและเทคนิคทั่วไปที่ใช้ในการแยกแยะกรณีของการถอดความ
ผู้ตรวจสอบการลอกเลียนแบบตรวจจับการถอดความได้อย่างไร: มีการสำรวจวิธีการที่เหมาะสม
ในด้านการศึกษาในปัจจุบัน เครื่องมือตรวจสอบการลอกเลียนแบบมีความก้าวหน้ามากขึ้นเรื่อยๆ โดยนอกเหนือไปจากการแจ้งข้อความที่คัดลอกแล้ว แต่ยังตรวจจับเนื้อหาที่ถอดความอีกด้วย บทความนี้จะสำรวจวิธีการที่อนุญาตให้เครื่องมือเหล่านี้ระบุการถอดความได้อย่างมีประสิทธิภาพ
1. การจับคู่สตริง
วิธีนี้เกี่ยวข้องกับการเปรียบเทียบข้อความในระดับอักขระหรือคำเพื่อระบุรายการที่ตรงกันทุกประการ ความคล้ายคลึงกันในระดับสูงในลำดับอักขระหรือการเลือกใช้คำระหว่างสองข้อความอาจบ่งบอกถึงการถอดความ เครื่องมือเหล่านี้ใช้อัลกอริธึมที่ซับซ้อนซึ่งสามารถพิจารณาความหมายตามบริบทของคำได้ ทำให้ยากขึ้นที่เนื้อหาที่ลอกเลียนแบบและถอดความจะถูกตรวจไม่พบ
2. ความคล้ายคลึงโคไซน์
ความคล้ายคลึงโคไซน์เป็นวิธีการหนึ่งที่ผู้ตรวจสอบการลอกเลียนแบบตรวจจับการถอดความ โดยจะวัดความคล้ายคลึงกันระหว่างสองข้อความโดยอิงตามมุมระหว่างการแสดงเวกเตอร์ในพื้นที่มิติสูง ด้วยการแสดงข้อความเป็นเวกเตอร์ของความถี่ของคำหรือการฝัง เครื่องมือเหล่านี้สามารถคำนวณคะแนนความคล้ายคลึงของโคไซน์ เพื่อปรับปรุงความสามารถในการตรวจจับเนื้อหาที่ถอดความเพิ่มเติม
3. รูปแบบการจัดตำแหน่งคำ
โมเดลเหล่านี้จัดแนวคำหรือวลีระหว่างสองข้อความเพื่อระบุความสอดคล้องกัน ด้วยการเปรียบเทียบส่วนที่สอดคล้อง คุณสามารถตรวจจับการถอดความโดยอิงจากความเหมือนและความแตกต่างในลำดับที่ตรงกัน
4. การวิเคราะห์ความหมาย
วิธีการนี้เกี่ยวข้องกับการวิเคราะห์ความหมายและบริบทของคำและวลีในข้อความ เทคนิคต่างๆ เช่น การวิเคราะห์ความหมายแฝง (LSA) การฝังคำ (เช่น Word2Vec หรือ GloVe) หรือโมเดลการเรียนรู้เชิงลึก เช่น BERT สามารถจับความสัมพันธ์ทางความหมายระหว่างคำและระบุการถอดความตามความคล้ายคลึงกันของการแสดงความหมาย
5 การเรียนรู้ของเครื่อง
อัลกอริทึมแมชชีนเลิร์นนิงภายใต้การดูแลสามารถฝึกฝนในชุดข้อมูลที่มีป้ายกำกับของคู่ข้อความที่ถอดความได้และไม่ได้ถอดความ แบบจำลองเหล่านี้สามารถเรียนรู้รูปแบบและคุณลักษณะที่แยกแยะการถอดความ และสามารถใช้เพื่อจัดประเภทข้อความใหม่ว่ามีการถอดความหรือไม่
6. การวิเคราะห์เอ็นแกรม
N-gram คือกลุ่มของคำที่อยู่ติดกัน เมื่อคุณตรวจสอบความถี่ที่กลุ่มเหล่านี้ปรากฏในข้อความที่แตกต่างกันและเปรียบเทียบ คุณจะพบวลีหรือลำดับที่คล้ายกัน หากมีรูปแบบที่คล้ายกันหลายรูปแบบ อาจหมายความว่าข้อความอาจถูกถอดความ
7. ใกล้การตรวจจับซ้ำ
วิธีสุดท้ายที่ผู้ตรวจสอบการลอกเลียนแบบตรวจจับการถอดความได้อย่างมีประสิทธิภาพ
อัลกอริธึมการตรวจจับที่ซ้ำซ้อนมักใช้ในการตรวจจับการถอดความเพื่อระบุส่วนของข้อความที่แสดงความคล้ายคลึงกันในระดับสูงหรือเกือบจะเหมือนกัน อัลกอริธึมเหล่านี้ได้รับการออกแบบมาโดยเฉพาะเพื่อจดจำเนื้อหาที่ถอดความผ่านการเปรียบเทียบความคล้ายคลึงกันของข้อความในระดับรายละเอียด
ซอฟต์แวร์ป้องกันการลอกเลียนแบบมักจะใช้วิธีใด
โซลูชันทางเทคโนโลยีที่ใช้โดยบริการป้องกันการลอกเลียนแบบมืออาชีพมักจะอาศัยการวิเคราะห์ n-gram ด้วยการใช้ประโยชน์จากเทคโนโลยีที่ใช้ n-gram บริการเหล่านี้จึงได้รับอัตราความแม่นยำสูงอย่างน่าทึ่ง นี่เป็นวิธีที่ดีที่สุดวิธีหนึ่งที่ผู้ตรวจสอบการลอกเลียนแบบจะตรวจจับการถอดความ ทำให้สามารถระบุและเน้นคำที่ได้ถูกเขียนใหม่ทั้งหมดได้
กลไกของวิธีที่ผู้ตรวจสอบการลอกเลียนแบบตรวจจับการถอดความ
บริการป้องกันการลอกเลียนแบบมักใช้เทคนิคการพิมพ์ลายนิ้วมือเพื่อเปรียบเทียบเอกสาร สิ่งนี้เกี่ยวข้องกับการแยก n-grams ที่จำเป็นออกจากเอกสารที่จะตรวจสอบและเปรียบเทียบกับ n-grams ของเอกสารทั้งหมดในฐานข้อมูล
ตัวอย่าง
สมมติว่ามีประโยค: « Le mont Olympe est la plus haute montagne de Grèce »
รางวัล n-กรัม (เช่น 3 กรัม) ของประโยคนี้จะเป็น:
- เลอ มงต์ โอลิมเป
- มองต์ โอลิมเป est
- โอลิมปิก est la
- คือที่สุด
- ลาพลัสโอต
- บวกกับโอต์มองตาญ
- โอต์ มงตาญ เดอ
- มงตาญ เดอ เกรซ
กรณีที่ 1. การเปลี่ยน
หากคำนั้นถูกแทนที่ด้วยคำอื่น ยังคงมีบางส่วนของ n-กรัม ตรงกันและเป็นไปได้ที่จะตรวจจับการแทนที่คำโดยการวิเคราะห์เพิ่มเติม
ประโยคที่เปลี่ยน: " ภูเขา Olympe est la plus โอต montagne de เพโลพอนนีส. '
เดิม 3 กรัม | 3 กรัมของข้อความที่เปลี่ยนแปลง |
เลอ มงต์ โอลิมเป มองต์ โอลิมเป est โอลิมปิก est la คือที่สุด ลาพลัสโอต บวกกับโอต์มองตาญ โอต์ มงตาญ เดอ มงตาญ เดอ เกรซ | Le ภูเขา โอลิมปั ภูเขา โอลิมปิกเอส โอลิมปิก est la คือที่สุด ลาพลัสโอต บวกกับโอต์มองตาญ โอต์ มงตาญ เดอ มองตาญเดอ เพโลพอนนีส |
กรณีที่ 2 เปลี่ยนการเรียงลำดับคำ (หรือประโยค ย่อหน้า)
เมื่อลำดับประโยคเปลี่ยนไป ก็ยังมีค่าประมาณ 3 กรัมที่ตรงกัน จึงสามารถตรวจจับการเปลี่ยนแปลงได้
ประโยคที่เปลี่ยน: « La plus haute montagne de Grèce est Le mont Olympe »
เดิม 3 กรัม | 3 กรัมของข้อความที่เปลี่ยนแปลง |
เลอ มงต์ โอลิมเป มองต์ โอลิมเป est โอลิมปิก est la คือที่สุด ลาพลัสโอต บวกกับโอต์มองตาญ โอต์ มงตาญ เดอ มงตาญ เดอ เกรซ | ลาบวกโอต บวกกับโอต์มองตาญ โอต์ มงตาญ เดอ มงตาญ เดอ เกรซ เดอ เกรซ เอส เกรซ เอส เลอ เอส เลอ มองต์ เลอ มงต์ โอลิมเป |
กรณีที่ 3 เพิ่มคำศัพท์ใหม่
เมื่อมีการเพิ่มคำศัพท์ใหม่ ยังคงมีบาง 3 กรัมที่ตรงกัน ดังนั้นจึงสามารถตรวจจับการเปลี่ยนแปลงได้
ประโยคที่เปลี่ยน: « เลอมงต์โอลิมเป จากระยะไกล ลา พลัส โอต์ มงตาญ เดอ เกรซ »
เดิม 3 กรัม | 3 กรัมของข้อความที่เปลี่ยนแปลง |
เลอ มงต์ โอลิมเป มองต์ โอลิมเป est โอลิมปิก est la คือที่สุด ลาพลัสโอต บวกกับโอต์มองตาญ โอต์ มงตาญ เดอ มงตาญ เดอ เกรซ | เลอ มงต์ โอลิมเป มองต์ โอลิมเป est โอลิมปิก est de อยู่ไกล ห่างไกล เนื้อซี่โครงลาพลัส ลาพลัสโอต บวกกับโอต์มองตาญ โอต์ มงตาญ เดอ มงตาญ เดอ เกรซ |
กรณีที่ 4. ลบบางคำ
เมื่อลบคำนั้นออก ยังคงมี 3 กรัมที่ตรงกัน จึงตรวจหาการเปลี่ยนแปลงได้
ประโยคที่เปลี่ยน: « L'Olympe est la plus haute montagne de Grèce »
เดิม 3 กรัม | 3 กรัมของข้อความที่เปลี่ยนแปลง |
เลอ มงต์ โอลิมเป มองต์ โอลิมเป est โอลิมปิก est la คือที่สุด ลาพลัสโอต บวกกับโอต์มองตาญ โอต์ มงตาญ เดอ มงตาญ เดอ เกรซ | L'Olympe est la คือที่สุด ลาพลัสโอต บวกกับโอต์มองตาญ โอต์ มงตาญ เดอ มงตาญ เดอ เกรซ |
ตัวอย่างในโลกแห่งความเป็นจริง
เมื่อเสร็จสิ้นการตรวจสอบความถูกต้องในเอกสารจริง ส่วนที่ถอดความมักจะถูกระบุผ่านการขัดจังหวะ การขัดจังหวะเหล่านี้ซึ่งแสดงถึงคำที่เปลี่ยนแปลงจะถูกเน้นเพื่อเพิ่มการมองเห็นและความแตกต่าง
ด้านล่างนี้คุณจะพบตัวอย่างเอกสารจริง
- ข้อความที่ตัดตอนแรกมาจากไฟล์ที่ได้รับการตรวจสอบโดยใช้นามสกุล อ็อกซ์ซิโก้ บริการป้องกันการลอกเลียนแบบ:
- ข้อความที่ตัดตอนมาที่สองมาจากเอกสารต้นฉบับ:
หลังจากการวิเคราะห์เชิงลึกยิ่งขึ้น จะเห็นได้ชัดว่าส่วนที่เลือกของเอกสารถูกถอดความโดยทำการเปลี่ยนแปลงต่อไปนี้:
ข้อความต้นฉบับ | ข้อความถอดความ | การเปลี่ยนแปลง |
รองรับนวัตกรรมที่โดดเด่นเช่นกัน | สำรองนวัตกรรมนอกเหนือจากที่กำหนดไว้ | การแทนที่ |
ความรู้ทางเศรษฐกิจและสังคม ระบบต่างๆ ที่มีประสิทธิภาพ | ความตระหนักทางเศรษฐกิจและสังคม องค์กรที่มีประสิทธิภาพ | การแทนที่ |
ข้อเสนอ (ความคิด) | ข้อเสนอแนะ | แทนที่, ลบ |
ทัศนคติ | ท่า | การแทนที่ |
ความสำเร็จ | ผู้ชนะ | การแทนที่ |
กระบวนการ (Perenc, Holub-Ivan | กระบวนการรับรู้ (Perenc, Holub - Ivan | นอกจากนี้ |
โปรนวัตกรรม | อย่างดี | การแทนที่ |
สร้างสภาพอากาศ | : การสร้างเงื่อนไข | การแทนที่ |
อย่างดี | รุ่งเรือง | การแทนที่ |
การพัฒนาความรู้ | การรับรู้การพัฒนา | การแทนที่ |
สรุป
การลอกเลียนแบบซึ่งมักตรวจไม่พบในกรณีของการถอดความยังคงเป็นประเด็นสำคัญในแวดวงวิชาการ ความก้าวหน้าทางเทคโนโลยีทำให้เครื่องตรวจสอบการลอกเลียนแบบมีความสามารถในการระบุเนื้อหาที่ถอดความได้อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่ง ตัวตรวจสอบการลอกเลียนแบบจะตรวจจับการถอดความผ่านวิธีการต่างๆ เช่น การจับคู่สตริง ความคล้ายคลึงของโคไซน์ และการวิเคราะห์ n-gram การวิเคราะห์แบบ n-gram มีความโดดเด่นในเรื่องอัตราความแม่นยำสูง ความก้าวหน้าเหล่านี้ช่วยลดโอกาสที่เนื้อหาที่ถูกลอกเลียนแบบและถอดความจะถูกตรวจไม่พบอย่างมาก ซึ่งจะช่วยเพิ่มความซื่อสัตย์ทางวิชาการ |