Đạo văn liên quan đến việc chiếm đoạt ý tưởng, từ ngữ hoặc hình ảnh của người khác, một hành vi được coi là phi đạo đức trong môi trường học thuật và chuyên nghiệp. Nó có thể không được chú ý bởi những học sinh có thể vô tình diễn đạt lại lời nói của người khác mà không có sự ghi nhận thích hợp. Vì dấu ngoặc kép không được sử dụng khi nội dung nào đó được diễn giải nên nó có thể dễ dàng thoát khỏi tầm kiểm soát của người hiệu đính và đi vào bản thảo cuối cùng. Tuy nhiên, điều đó không phải là hoàn toàn không thể thực hiện được, đặc biệt là vì ngày nay các công cụ kiểm tra đạo văn phát hiện việc diễn giải hiệu quả hơn.
Việc phát hiện cách diễn giải có thể là một nhiệm vụ đầy thách thức vì nó liên quan đến việc xác định những điểm tương đồng và khác biệt giữa các văn bản. Trong các phần tiếp theo, chúng ta sẽ đi sâu vào thảo luận toàn diện về các phương pháp và kỹ thuật phổ biến được sử dụng để phân biệt các trường hợp diễn giải.
Làm thế nào để người kiểm tra đạo văn phát hiện việc diễn giải: Đã khám phá các phương pháp phù hợp
Trong bối cảnh giáo dục ngày nay, các công cụ kiểm tra đạo văn ngày càng trở nên tiên tiến, không chỉ gắn cờ văn bản sao chép mà còn phát hiện cả nội dung bị diễn giải. Bài viết này khám phá các phương pháp cho phép các công cụ này xác định cách diễn giải một cách hiệu quả.
1. So khớp chuỗi
Phương pháp này liên quan đến việc so sánh các văn bản ở cấp độ ký tự hoặc từ để xác định chính xác các kết quả khớp. Mức độ tương đồng cao về trình tự ký tự hoặc lựa chọn từ giữa hai văn bản có thể báo hiệu việc diễn giải. Những công cụ này sử dụng các thuật toán phức tạp, thậm chí có thể xem xét ý nghĩa ngữ cảnh của các từ, khiến cho tài liệu đạo văn, diễn giải ngày càng khó bị phát hiện.
2. Tương tự cosin
Độ tương tự cosine là một trong những phương pháp mà người kiểm tra đạo văn phát hiện việc diễn giải. Nó đo lường sự giống nhau giữa hai văn bản dựa trên góc giữa các biểu diễn vectơ của chúng trong không gian nhiều chiều. Bằng cách biểu diễn văn bản dưới dạng vectơ tần số từ hoặc phần nhúng, các công cụ này có thể tính toán điểm tương đồng cosine để tinh chỉnh thêm khả năng phát hiện nội dung được diễn giải.
3. Mô hình căn chỉnh chữ
Những mô hình này sắp xếp các từ hoặc cụm từ giữa hai văn bản để xác định sự tương ứng của chúng. Bằng cách so sánh các phân đoạn đã căn chỉnh, bạn có thể phát hiện cách diễn giải dựa trên những điểm tương đồng và khác biệt trong các chuỗi khớp.
4. Phân tích ngữ nghĩa
Cách tiếp cận này liên quan đến việc phân tích ý nghĩa và ngữ cảnh của các từ và cụm từ trong văn bản. Các kỹ thuật như phân tích ngữ nghĩa tiềm ẩn (LSA), nhúng từ (chẳng hạn như Word2Vec hoặc GloVe) hoặc các mô hình học sâu như BERT có thể nắm bắt các mối quan hệ ngữ nghĩa giữa các từ và xác định cách diễn giải dựa trên sự giống nhau của các biểu diễn ngữ nghĩa của chúng.
XUẤT KHẨU. Học máy
Các thuật toán học máy được giám sát có thể được đào tạo trên bộ dữ liệu được gắn nhãn của các cặp văn bản được diễn giải và không được diễn giải. Các mô hình này có thể tìm hiểu các mẫu và tính năng phân biệt các cách diễn giải và có thể được sử dụng để phân loại các trường hợp văn bản mới là được diễn giải hay không.
6. Phân tích N-gram
N-gram là các nhóm từ nằm ngay cạnh nhau. Khi bạn kiểm tra tần suất các nhóm này xuất hiện trong các văn bản khác nhau và so sánh chúng, bạn có thể tìm thấy các cụm từ hoặc trình tự tương tự. Nếu có nhiều mẫu tương tự, điều đó có thể có nghĩa là văn bản có thể đã được diễn giải.
7. Gần phát hiện trùng lặp
Cách cuối cùng mà người kiểm tra đạo văn phát hiện việc diễn giải một cách hiệu quả.
Các thuật toán phát hiện gần như trùng lặp thường được sử dụng trong phát hiện diễn giải để xác định các đoạn văn bản có mức độ tương tự cao hoặc gần giống nhau. Các thuật toán này được thiết kế đặc biệt để nhận dạng nội dung được diễn giải thông qua việc so sánh độ giống nhau của văn bản ở mức độ chi tiết.
Phần mềm chống đạo văn thường sử dụng phương pháp nào?
Các giải pháp công nghệ được các dịch vụ ngăn chặn đạo văn chuyên nghiệp sử dụng thường dựa vào phân tích n-gram. Bằng cách tận dụng công nghệ dựa trên n-gram, các dịch vụ này đạt được tỷ lệ chính xác cao đáng kể. Đây là một trong những cách tốt nhất mà trình kiểm tra đạo văn phát hiện việc diễn giải, cho phép xác định và đánh dấu các từ chính xác đã được viết lại.
Cơ chế kiểm tra đạo văn phát hiện việc diễn giải
Các dịch vụ phòng chống đạo văn thường sử dụng kỹ thuật lấy dấu vân tay để so sánh các tài liệu. Điều này liên quan đến việc trích xuất n-gram cần thiết từ các tài liệu cần xác minh và so sánh chúng với n-gram của tất cả các tài liệu trong cơ sở dữ liệu của họ.
Ví dụ
Giả sử có một câu: « Le mont Olympe est la plus haute montagne de Grèce. »
Sản phẩm n-gam (ví dụ 3 gam) của câu này sẽ là:
- núi Olympe
- núi Olympe est
- Thế vận hội là
- là nhất
- la plus haute
- cộng với haute montagne
- haute montagne de
- núi de Grèce
Trường hợp 1. Thay thế
Nếu từ này được thay thế bằng từ khác, vẫn còn một số n-gam khớp và có thể phát hiện từ thay thế bằng cách phân tích thêm.
Câu đã thay đổi: Các núi Olympe est la plus haute montagne de Peloponnese. "
3 gam ban đầu | 3 gam văn bản đã thay đổi |
núi Olympe núi Olympe est Thế vận hội là là nhất la plus haute cộng với haute montagne haute montagne de núi de Grèce | Le núi Olympus núi Thế vận hội Thế vận hội là là nhất la plus haute cộng với haute montagne haute montagne de núi de Peloponnese |
Trường hợp 2. Thay đổi trật tự từ (hoặc câu, đoạn)
Khi thay đổi thứ tự câu vẫn còn vài 3 gam trùng khớp nên có thể phát hiện được sự thay đổi.
Câu đã thay đổi: « La plus haute montagne de Grèce est Le mont Olympe. »
3 gam ban đầu | 3 gam văn bản đã thay đổi |
núi Olympe núi Olympe est Thế vận hội là là nhất la plus haute cộng với haute montagne haute montagne de núi de Grèce | La plus haute cộng với haute montagne haute montagne de núi de Grèce de Grèce est Hy Lạp est Le est Le mont núi Olympe |
Trường hợp 3. Thêm từ mới
Khi các từ mới được thêm vào, vẫn còn một số 3 gam trùng khớp nên có thể phát hiện ra sự thay đổi.
Câu đã thay đổi: « Le mont Olympe est từ xa la plus haute montagne de Grèce. »
3 gam ban đầu | 3 gam văn bản đã thay đổi |
núi Olympe núi Olympe est Thế vận hội là là nhất la plus haute cộng với haute montagne haute montagne de núi de Grèce | núi Olympe núi Olympe est Thế vận hội là de là xa Xa Xăm thịt thăn cộng với la plus haute cộng với haute montagne haute montagne de núi de Grèce |
Trường hợp 4. Đã xóa một số từ
Khi từ đó bị loại bỏ, vẫn còn một số 3 gam trùng khớp nên có thể phát hiện ra sự thay đổi.
Câu đã thay đổi: « L'Olympe est la plus haute montagne de Grèce. »
3 gam ban đầu | 3 gam văn bản đã thay đổi |
núi Olympe núi Olympe est Thế vận hội là là nhất la plus haute cộng với haute montagne haute montagne de núi de Grèce | L'Olympe est la là nhất la plus haute cộng với haute montagne haute montagne de núi de Grèce |
Ví dụ trong thế giới thực
Sau khi hoàn thành việc xác minh trong một tài liệu thực tế, các phần được diễn giải thường được xác định thông qua các dấu ngắt quãng. Những sự gián đoạn này, biểu thị các từ đã thay đổi, được đánh dấu để tăng cường khả năng hiển thị và phân biệt.
Dưới đây, bạn sẽ tìm thấy một ví dụ về một tài liệu thực tế.
- Đoạn trích đầu tiên đến từ một tệp đã được xác minh bằng cách sử dụng OXSICO Dịch vụ phòng chống đạo văn:
- Đoạn trích thứ hai là từ tài liệu nguồn gốc:
Sau khi phân tích sâu hơn, rõ ràng là phần được chọn của tài liệu đã được diễn giải bằng cách thực hiện những thay đổi sau:
Văn bản gốc | Văn bản được diễn giải | Những thay đổi |
hỗ trợ đổi mới cũng được đặc trưng | hỗ trợ đổi mới bên cạnh được xác định | Thay thế |
kiến thức kinh tế và xã hội, hệ thống hiệu quả | nhận thức về kinh tế và xã hội, tổ chức hiệu quả | Thay thế |
đề xuất (ý tưởng) | sự giới thiệu | Thay thế, xóa |
thái độ | tư thế | Thay thế |
thành công | người chiến thắng | Thay thế |
quá trình (Perenc, Holub-Ivan | quá trình nhận thức (Perenc, Holub – Ivan | Ngoài ra |
ủng hộ đổi mới | thuận tiện | Thay thế |
tạo ra một bầu không khí | : tạo điều kiện | Thay thế |
thuận tiện | thịnh vượng | Thay thế |
phát triển kiến thức | nhận thức phát triển | Thay thế |
Kết luận
Đạo văn, thường không bị phát hiện trong các trường hợp diễn giải, vẫn là một mối lo ngại đáng kể trong giới học thuật. Những tiến bộ công nghệ đã trang bị cho các công cụ kiểm tra đạo văn khả năng xác định hiệu quả nội dung được diễn giải. Cụ thể, trình kiểm tra đạo văn phát hiện việc diễn giải thông qua nhiều phương pháp khác nhau như khớp chuỗi, độ tương tự cosine và phân tích n-gram. Đáng chú ý, phân tích n-gram nổi bật với độ chính xác cao. Những tiến bộ này làm giảm đáng kể khả năng tài liệu đạo văn và diễn giải không bị phát hiện, từ đó nâng cao tính liêm chính trong học thuật. |