인공지능 챗봇 콘텐츠 표절 감지 완벽 가이드
ChatGPT와 같은 인공지능 챗봇은 단순한 질문 답변을 넘어, 인간과 유사한 수준으로 이메일, 자기소개서, 에세이, 시, 블로그 게시물 등 다양한 글쓰기 작업을 수행할 수 있습니다.
인공지능 글쓰기는 마치 카멜레온과 같아서, 다른 유형의 글쓰기와 너무나 자연스럽게 섞여 있어 그 차이를 구별하기가 매우 어렵습니다.
이러한 특성 때문에, 인공지능이 인간 대신 글을 썼을 때 이를 감지하는 것이 매우 어려운 과제가 되었습니다. 물론, 셜록 홈즈의 조언처럼 “불가능을 제거”하는 방법도 있지만, 그럴 시간이 부족한 것이 현실입니다.
만약 위 문단이 인공지능에 의해 작성되었다면 어떨까요? 실제로, 저는 YouWrite라는 도구에 이 글의 간략한 소개를 작성해달라고 요청했습니다. 꽤 설득력 있지 않나요? 이것이 바로 문제입니다. 누구나 인공지능으로 작성된 글을 자신의 작품처럼 제시하여 이득을 취할 수 있다는 점입니다.
인공지능은 단순히 내용을 짜깁기하는 것이 아니라, 주제를 학습하고 강화 학습(RLHF) 기술을 사용하여 자연스러운 언어로 표현합니다. 즉, 인공지능이 생성한 콘텐츠는 로봇처럼 느껴지지 않으며, 표절 검사를 위해 온라인에 존재하는 데이터와 비교하는 것조차 어렵습니다.
인공지능이 만든 콘텐츠를 감지하는 것은 쉬운 일이 아니며, 100% 정확하게 감지할 수 있다는 허황된 기대를 드리고 싶지는 않습니다. 하지만 약간의 탐정 기술과 인공지능 글쓰기 탐지 도구를 활용한다면, 대부분의 인공지능 작품을 찾아낼 수 있습니다.
아래에서는 인공지능 표절을 감지하는 수동적인 방법과 몇 가지 자동화된 도구를 소개합니다.
인공지능 표절 수동 감지 🕵️
ChatGPT는 인공지능 표절 문제의 전부가 아닙니다. 동일한 GPT-3 기술을 기반으로 하며 글쓰기 전용으로 개발된 다양한 대체 도구들이 존재합니다. 이러한 도구들은 매우 고도화된 기술을 사용하여 인간과 구별하기 어려울 정도로 정교한 콘텐츠를 생성합니다.
자동 감지 도구의 성능은 콘텐츠의 유형, 길이, 복잡성에 따라 달라질 수 있습니다. 따라서, 적어도 현재로서는 수동으로 단서를 찾아 글이 인공지능으로 생성되었는지 판단하는 것이 가장 효과적인 방법일 수 있습니다.
다음은 인공지능 생성 콘텐츠를 식별하는 데 도움이 될 수 있는 몇 가지 일반적인 단서입니다.
#1. 오래된 정보
ChatGPT와 같은 GPT-3 기반 인공지능은 2021년 말까지의 정보만을 학습했습니다. 일부 인공지능 봇에는 최신 정보를 검색하는 기능이 있지만, 에세이나 블로그 게시물과 같은 긴 형식의 콘텐츠를 작성할 때는 여전히 오래된 데이터에 의존하는 경향이 있습니다.
따라서, 특히 2021년 이전의 오래된 데이터에 대한 지속적인 언급이 나타난다면, 해당 글은 인공지능에 의해 생성되었을 가능성이 높습니다.
예를 들어, 아래 스크린샷에서 YouWrite에 최근 FIFA 월드컵에 대한 정보를 요청했을 때, 2018년 월드컵에 대한 정보가 제공되었습니다.
물론, 2022년 월드컵과 같은 최신 이벤트를 언급하도록 도구가 업데이트되었을 수 있지만, 여전히 긴 글을 작성할 때 오래된 데이터를 활용하는 경향이 있습니다.
#2. 동일한 문장 구조의 반복
여러 제품이나 앱에 대한 설명을 작성할 때, 인공지능은 일반적으로 동일한 문장 구조를 반복하여 제품 설명에 맞게 편집합니다. 설명은 주로 “The”, “It”, “A”, 혹은 제품 이름과 같은 단어로 시작하며, 특정 주제에 반복적으로 초점을 맞추는 경향이 있습니다.
예를 들어, 아래에서 ChatGPT에 “데이터 입력 작업 웹사이트”에 대한 설명을 요청했을 때, 모든 설명이 “A”로 시작하고 특정 주제에 초점이 맞춰져 있는 것을 확인할 수 있습니다.
YouChat에도 동일한 질문을 던졌을 때, 각 웹사이트 이름을 반복하고 설명 자체는 거의 동일한 단어만 바꿔놓은 것처럼 보였습니다.
분석 중인 글에 유사한 설명이 반복적으로 나타난다면, 이는 인공지능 글쓰기를 감지하는 좋은 방법이 될 수 있습니다.
#3. 짧은 문장 사용
대부분의 글에서, 인공지능은 쉼표 하나 정도만 포함된 짧은 문장을 주로 사용합니다. 오류 가능성을 최소화하려는 의도일 수 있지만, 콜론, 세미콜론, 긴 문장을 활용해야 할 상황에서도 이를 피하는 경향이 있습니다.
이것이 인공지능 글쓰기를 감지하는 최고의 단서라고 할 수는 없지만, 의심을 더욱 뒷받침하는 데 도움이 될 수 있습니다.
#4. 잘못된 정보 제공
복잡한 질문, 특히 특정 지침이 필요한 경우, 인공지능은 의도를 정확히 파악하지 못하고 잘못된 정보를 제공할 수 있습니다. 여기서 말하는 잘못된 정보는 오래된 정보가 아니라, 인공지능이 주제를 제대로 이해하지 못하고 자신있게 내놓는 잘못된 정보를 의미합니다.
예를 들어, YouWrite에 “PC 없이 안드로이드 폰을 루팅하는 방법”을 물었을 때, PC 사용을 포함하는 방법을 여전히 제시했습니다.
#5. 개인적인 의견 부재
인공지능은 어떠한 주제에 대해 이야기할 때 이미 알려진 사실만을 언급합니다. 인간과는 달리 개인적인 경험에 대해 이야기하지 않습니다. 물론, 인공지능에게 직접 작성하도록 요청할 수는 있지만, 기본적으로 개인적인 의견을 포함하지 않는 경향이 있습니다.
만약 글이 잘 알려진 사실에만 집중하고 있다면, 인공지능이 작성했을 가능성이 높습니다. 예를 들어, 앱에 대한 글에서 앱 사용 경험 대신 기능에 대해서만 이야기하는 경우가 그렇습니다.
#6. 간결한 설명
인공지능은 현재 가용한 지식에 한계가 있기 때문에, 설명을 간결하게 작성하는 경향이 있습니다. 예를 들어 안드로이드 루팅과 같은 특정 주제에 대해 이야기할 때, 설명이 2-3 문단 내에서 끝나고, 앱이나 제품과 같은 항목에 대한 설명은 일반적으로 한 단락을 초과하지 않습니다.
반면에 인간은 기능, 제한 사항, 개인적인 경험, 가격 등 다양한 측면에서 깊이 있는 글을 쓸 수 있습니다. 인공지능은 일반적으로 주요 기능이나 장점에만 초점을 맞추기 때문에 글의 길이가 짧은 경향이 있습니다. 강사가 더 자세한 정보를 요구할 경우, 오류가 발생할 가능성이 더욱 커집니다.
#7. 작가 이력 확인
교사나 웹마스터로서 글을 쓴 사람의 이전 작품이나 과제를 접할 수 있다면, 의심스러운 글과 비교해 보는 것이 좋습니다. 작가가 인공지능과 유사한 글쓰기 스타일을 가지고 있을 가능성은 매우 낮습니다. 인공지능은 글쓰기 스타일을 변경할 수 있지만, 선택하는 스타일은 다소 일반적이며 사용자의 고유한 스타일을 모방하기는 어렵습니다.
이 글의 도입부에서 언급한 인공지능이 작성한 단락을 예로 들어 보겠습니다. 제 이전 글을 읽어보신 분이라면 제 글쓰기 스타일이 이와는 완전히 다르다는 것을 쉽게 알 수 있을 것입니다.
작가의 이전 작품 2-3개만 읽어보고, 의심스러운 글과 글쓰기 스타일이 일치하는지 확인해보면 됩니다.
인공지능 표절 감지 도구
인공지능으로 작성된 콘텐츠를 감지하는 데 도움이 되는 다양한 도구가 있습니다. 하지만 그 정확도는 제각각이며, 콘텐츠의 유형과 길이에 따라 실패할 수도 있습니다.
저는 ChatGPT, GPT-3 Playground, WriteSonic, Rytr, YouWrite에서 생성된 다양한 유형의 콘텐츠를 사용하여 이러한 도구들을 테스트해 보았습니다. 대부분의 도구들은 ChatGPT와 GPT-3 Playground에서 생성된 콘텐츠는 비교적 정확하게 감지했습니다.
하지만, 글쓰기 전용으로 개발된 도구들의 감지 결과는 다소 엇갈렸습니다. 흥미로운 점은, 모든 도구가 YouWrite는 감지하지 못했다는 것입니다. 아마도 YouWrite가 감지를 피하기 위해 의도적으로 사람과 같은 실수를 하는 것일 수도 있습니다.
콘텐츠를 수동으로 확인하는 것과 함께 이러한 도구들을 사용하는 것을 권장합니다. 먼저 이러한 도구 중 하나를 사용하여 콘텐츠를 분석한 다음, 수동으로 단서를 확인하여 의혹을 더욱 확실히 하는 것이 좋습니다.
아래에는 가장 좋은 결과를 제공하고 사용하기 쉬운 도구들을 소개합니다.
참고: 데모를 위해 “망고의 이점”에 대한 WriteSonic에서 생성된 텍스트를 사용하겠습니다.
#1. 대규모 콘텐츠(Content At Scale)
Content At Scale의 인공지능 콘텐츠 감지기는 제가 진행한 테스트에서 가장 정확한 결과를 보여주었습니다. 스캔당 최대 2500자까지 분석할 수 있으며, 콘텐츠가 실제인지 가짜인지에 대한 비율 예측을 제공합니다.
60% 이상의 가짜 콘텐츠로 판정되면, 해당 글은 적어도 대부분 인공지능으로 작성되었다고 간주해도 무방합니다. 아래 스크린샷에서 볼 수 있듯이, 96%의 콘텐츠가 가짜로 판정되었으며, 이는 인공지능에 의해 생성되었다는 것을 의미합니다.
#2. GPT제로(GPTZero)
GPTZero는 인공지능 생성 콘텐츠를 정확하게 감지하는 데 효과적인 선택입니다. 콘텐츠에 점수를 매기기보다는, 인공지능에 의해 생성되었을 가능성이 있는 특정 부분을 강조 표시합니다.
또한, 텍스트의 무작위성을 파악하기 위한 “혼란도” 및 “폭발성” 점수를 제공하지만, 가장 중요한 점은 스캔당 5000자를 지원하고 파일을 업로드할 수 있다는 것입니다. 많은 양의 콘텐츠를 스캔할수록 감지 정확도가 향상됩니다.
#3. GPT-2 출력 감지기
ChatGPT의 개발사인 OpenAI는 자체 작업을 감지하는 도구도 제공합니다. GPT-2와 GPT-3는 훈련에 사용된 데이터의 양만 다르기 때문에, GPT-2 감지기는 GPT-3 기반 인공지능에서도 효과적으로 작동합니다.
스캔할 수 있는 콘텐츠 양에 제한이 없기 때문에, 매우 긴 인공지능 생성 콘텐츠를 감지하는 데 유용합니다. 또한, 특히 ChatGPT로 생성된 콘텐츠의 경우, 정확도가 괜찮다는 것을 알 수 있었습니다. 하지만 예측 결과에서 다소 오차가 발생할 수 있으므로, 콘텐츠의 50% 이상이 가짜로 판정된 경우에만 결과를 고려해야 합니다.
#4. Writer AI 콘텐츠 감지기
Writer AI Content Detector의 감지 결과는 인공지능 글쓰기 도구에서 생성된 콘텐츠를 감지할 때는 다소 미흡하지만, ChatGPT에서 생성된 콘텐츠에는 매우 효과적입니다. 스캔당 1500자를 분석할 수 있으며, 이미 게시된 콘텐츠의 경우 URL을 추가하여 분석할 수도 있습니다.
제가 진행한 테스트에서, Writer AI Content Detector는 인공지능이 생성한 텍스트의 94%가 인간이 생성한 것으로 판정하여 다른 도구에 비해 정확도가 떨어졌습니다. 그럼에도 불구하고, 특히 이미 게시된 ChatGPT 콘텐츠를 감지하는 데 유용하게 활용할 수 있습니다.
#5. 초안 및 목표(Draft & Goal)
Draft & Goal은 간단하면서도 강력한 인공지능 글쓰기 감지 도구입니다. 제 경험상, Draft & Goal은 Content At Scale과 비슷한 결과를 제공했지만, 단어 수 제한이 없으므로 긴 글도 스캔할 수 있습니다. 하지만, 스캔 시간은 콘텐츠 양에 따라 증가합니다.
예시 텍스트의 경우, 텍스트의 94%가 인공지능에 의해 생성되었다고 판정했습니다.
나의 생각 💭
저는 개인적으로 인공지능이 작가들의 장애물을 제거하고, 모든 정보를 한곳에서 얻고 영감을 얻는 데 도움이 되는 유용한 도구라고 생각합니다. 하지만, 인공지능은 이미 알려진 지식에 한정되어 있기 때문에 인간의 글쓰기를 완전히 대체해서는 안 됩니다.
복사본을 방지하기 위해 최고의 표절 검사 도구를 살펴보는 것도 좋습니다.