표절이란 다른 사람의 아이디어, 단어 또는 이미지에 대한 공로를 인정하는 것을 의미하며, 이러한 관행은 비 윤리적 인 학문적, 직업적 환경에서. 적절한 귀속 없이 다른 사람의 말을 실수로 바꿔 쓰는 학생은 이를 간과할 수 있습니다. 문장을 바꾸어 말할 때 인용 부호를 사용하지 않기 때문에 교정자의 손에서 빠져나와 최종 초안으로 넘어갈 수 있습니다. 그러나 이것이 완전히 불가능하지는 않습니다. 특히 요즘에는 표절 검사기가 패러프레이징을 더 효율적으로 감지하기 때문입니다.
패러프레이징을 감지하는 것은 텍스트 간의 유사점과 차이점을 식별하는 것과 관련되기 때문에 어려운 작업이 될 수 있습니다. 다음 섹션에서는 패러프레이징 사례를 식별하는 데 사용되는 일반적인 방법과 기술에 대한 포괄적인 논의를 심화할 것입니다.
표절 검사기는 의역을 감지하는 방법: 적합한 방법 탐색
오늘날의 교육 환경에서 표절 검사기는 복사된 텍스트에 플래그를 지정하는 것 이상으로 의역된 콘텐츠를 감지하는 것까지 점점 더 발전하고 있습니다. 이 문서에서는 이러한 도구를 사용하여 패러프레이징을 효과적으로 식별할 수 있는 방법을 살펴봅니다.
1. 문자열 매칭
이 방법에는 문자 또는 단어 수준에서 텍스트를 비교하여 정확한 일치 항목을 찾아내는 작업이 포함됩니다. 두 텍스트 사이의 문자 순서나 단어 선택의 유사성이 높으면 의역이 있음을 나타낼 수 있습니다. 이러한 도구는 단어의 문맥적 의미까지 고려할 수 있는 복잡한 알고리즘을 사용하므로 표절되거나 의역된 자료를 감지하지 못하는 것이 점점 더 어려워지고 있습니다.
2. 코사인 유사성
코사인 유사성은 표절 검사기가 의역을 탐지하는 방법 중 하나입니다. 고차원 공간에서 벡터 표현 간의 각도를 기반으로 두 텍스트 간의 유사성을 측정합니다. 텍스트를 단어 빈도 또는 임베딩의 벡터로 표현함으로써 이러한 도구는 코사인 유사성 점수를 계산하여 패러프레이징된 콘텐츠를 감지하는 기능을 더욱 구체화할 수 있습니다.
3. 단어 정렬 모델
이 모델은 두 텍스트 사이의 단어나 구를 정렬하여 해당 항목을 식별합니다. 정렬된 세그먼트를 비교함으로써 일치하는 시퀀스의 유사점과 차이점을 기반으로 다른 표현을 감지할 수 있습니다.
4. 의미 분석
이 접근 방식에는 텍스트의 단어와 구의 의미와 맥락을 분석하는 것이 포함됩니다. 잠재 의미 분석(LSA), 단어 임베딩(예: Word2Vec 또는 GloVe) 또는 BERT와 같은 딥 러닝 모델과 같은 기술은 단어 간의 의미 관계를 캡처하고 의미 표현의 유사성을 기반으로 패러프레이징을 식별할 수 있습니다.
5. 기계 학습
감독 기계 학습 알고리즘은 의역된 텍스트 쌍과 의역되지 않은 텍스트 쌍의 레이블이 지정된 데이터 세트에서 훈련될 수 있습니다. 이러한 모델은 의역을 구별하는 패턴과 기능을 학습할 수 있으며 새로운 텍스트 인스턴스를 의역된 것으로 분류하는 데 사용할 수 있습니다.
6. N-그램 분석
N-그램은 서로 바로 옆에 있는 단어 그룹입니다. 이러한 그룹이 다른 텍스트에 얼마나 자주 나타나는지 확인하고 비교하면 비슷한 문구나 순서를 찾을 수 있습니다. 유사한 패턴이 많다면 텍스트가 다른 말로 표현되었을 수도 있다는 의미일 수 있습니다.
7. 거의 중복 감지
표절 검사기가 의역을 효과적으로 탐지하는 마지막 방법입니다.
유사도가 높거나 거의 동일한 텍스트 세그먼트를 찾아내기 위해 구문 분석에 거의 중복된 감지 알고리즘이 자주 사용됩니다. 이러한 알고리즘은 세부적인 수준에서 텍스트 유사성을 비교하여 의역된 콘텐츠를 인식하도록 특별히 제작되었습니다.
표절 방지 소프트웨어는 주로 어떤 방법을 사용합니까?
전문적인 표절 예방 서비스에서 활용되는 기술 솔루션은 일반적으로 n-gram 분석에 의존합니다. 이러한 서비스는 n-gram 기반 기술을 활용하여 매우 높은 정밀도를 달성합니다. 이는 표절 검사기가 의역을 감지하여 다시 작성된 정확한 단어를 식별하고 강조 표시할 수 있는 가장 좋은 방법 중 하나입니다.
표절 검사기가 의역을 감지하는 방법의 메커니즘
표절 방지 서비스는 일반적으로 지문 기술을 사용하여 문서를 비교합니다. 여기에는 검증할 문서에서 필요한 n-gram을 추출하고 데이터베이스에 있는 모든 문서의 n-gram과 비교하는 작업이 포함됩니다.
예시
다음과 같은 문장이 있다고 합시다. « Le mont Olympe est la plus haute montagne de Grèce. »
이 어플리케이션에는 XNUMXµm 및 XNUMXµm 파장에서 최대 XNUMXW의 평균 출력을 제공하는 n- 그램 (예: 3그램) 이 문장은 다음과 같습니다.
- 르 몽 올림프
- 몽 올림프 동부
- 올림페 에스트 라
- 가장
- 라 플러스 오트
- 가장 높은 산
- 오트 몽타뉴 드
- 몽타뉴 드 그레세
사례 1. 교체
단어가 다른 단어로 대체되더라도 여전히 일부 n- 그램 일치하고 추가 분석을 통해 단어 대체를 감지할 수 있습니다.
변경된 문장: " 산 올림프 에스트 라 플러스 오뜨 몽타뉴 드 펠로폰네세. "
오리지널 3그램 | 변경된 텍스트 3그램 |
르 몽 올림프 몽 올림프 동부 올림페 에스트 라 가장 라 플러스 오트 가장 높은 산 오트 몽타뉴 드 몽타뉴 드 그레세 | Le 산 올림푸스 산 올림프 에스트 올림페 에스트 라 가장 라 플러스 오트 가장 높은 산 오트 몽타뉴 드 몽타뉴 드 펠로폰네세 |
사례 2. 단어(또는 문장, 단락)의 순서 변경
문장의 순서가 바뀌어도 여전히 일부 3-gram이 일치하므로 변화를 감지할 수 있습니다.
변경된 문장: « La plus haute montagne de Grèce est Le mont Olympe. »
오리지널 3그램 | 변경된 텍스트 3그램 |
르 몽 올림프 몽 올림프 동부 올림페 에스트 라 가장 라 플러스 오트 가장 높은 산 오트 몽타뉴 드 몽타뉴 드 그레세 | 라 플러스 오트 가장 높은 산 오트 몽타뉴 드 몽타뉴 드 그레세 드 그레세 동부 그레세 에 르 에스트 르 몽 르 몽 올림프 |
사례 3. 새 단어 추가
새 단어가 추가되면 여전히 일치하는 3-그램이 있으므로 변경 사항을 감지할 수 있습니다.
변경된 문장: « 르 몽 올랭프 에스트 멀리서 라 플러스 오트 몽타뉴 드 그레세(la plus haute montagne de Grèce). »
오리지널 3그램 | 변경된 텍스트 3그램 |
르 몽 올림프 몽 올림프 동부 올림페 에스트 라 가장 라 플러스 오트 가장 높은 산 오트 몽타뉴 드 몽타뉴 드 그레세 | 르 몽 올림프 몽 올림프 동부 올림프 에스트 드 지금까지 멀리 허리 라 플러스 라 플러스 오트 가장 높은 산 오트 몽타뉴 드 몽타뉴 드 그레세 |
사례 4. 일부 단어 삭제
단어가 제거되더라도 여전히 일치하는 3-그램이 있으므로 변경 사항을 감지할 수 있습니다.
변경된 문장: « L'Olympe est la plus haute montagne de Grèce. »
오리지널 3그램 | 변경된 텍스트 3그램 |
르 몽 올림프 몽 올림프 동부 올림페 에스트 라 가장 라 플러스 오트 가장 높은 산 오트 몽타뉴 드 몽타뉴 드 그레세 | 롤림프 에스트 라 가장 라 플러스 오트 가장 높은 산 오트 몽타뉴 드 몽타뉴 드 그레세 |
실제 사례
실제 문서에서 검증이 완료되면 의역된 부분은 종종 중단된 표시를 통해 식별됩니다. 변경된 단어를 나타내는 이러한 중단은 가시성과 구별을 향상시키기 위해 강조 표시됩니다.
아래에서 실제 문서의 예를 확인하실 수 있습니다.
- 첫 번째 발췌는 다음을 사용하여 확인된 파일에서 나온 것입니다. 옥시코 표절 예방 서비스:
- 두 번째 발췌문은 원본 소스 문서에서 발췌한 것입니다.
심층 분석 후 문서의 선택된 부분이 다음과 같이 변경되어 의역된 것이 분명합니다.
원본 텍스트 | 의역된 텍스트 | 변경 |
혁신을 지원하는 것도 특징입니다 | 백업 혁신은 정의된 것 외에 있습니다. | 바꿔 놓음 |
경제 및 사회적 지식, 효율적인 시스템 | 경제적, 사회적 인식, 효율적인 조직 | 바꿔 놓음 |
제안(아이디어) | 추천 | 대체, 삭제 |
태도 | 자세 | 바꿔 놓음 |
성공 | 수상자 | 바꿔 놓음 |
프로세스(Perenc, Holub-Ivan | 인지 과정(Perenc, Holub – Ivan | 추가 |
친혁신 | 유리한 | 바꿔 놓음 |
기후를 만드는 | : 조건 생성 | 바꿔 놓음 |
유리한 | 번영하는 | 바꿔 놓음 |
지식 개발 | 개발 인식 | 바꿔 놓음 |
결론
의역의 경우 종종 발견되지 않는 표절은 학계에서 여전히 중요한 관심사로 남아 있습니다. 기술적 진보로 인해 표절 검사기는 패러프레이징된 콘텐츠를 효과적으로 식별할 수 있는 능력을 갖추게 되었습니다. 구체적으로 표절 검사기는 문자열 일치, 코사인 유사성, n-gram 분석 등 다양한 방법을 통해 의역을 탐지합니다. 특히 n-gram 분석은 높은 정밀도가 돋보입니다. 이러한 발전은 표절 및 의역된 자료가 발견되지 않을 가능성을 크게 줄여 학문적 진실성을 향상시킵니다. |