OpenAI의 크롤러가 웹사이트를 긁지 못하도록 차단하는 방법

대량의 정보 접근성 덕분에 많은 사용자들이 ChatGPT를 선호하지만, 웹사이트 운영자들은 다른 입장입니다.

OpenAI의 ChatGPT는 웹 크롤러를 이용하여 웹사이트 데이터를 수집합니다. 만약 당신이 웹사이트 소유자이고 OpenAI 크롤러의 접근을 차단하고 싶다면, 몇 가지 효과적인 조치를 취할 수 있습니다.

OpenAI 크롤링 작동 방식

웹 크롤러, 또는 '스파이더'나 '검색 엔진 봇'이라고도 불리는 이 프로그램은 자동화된 방식으로 인터넷에서 정보를 수집합니다. 수집된 정보는 검색 엔진이 쉽게 접근할 수 있도록 체계적으로 정리됩니다.

웹 크롤러는 관련된 모든 URL 페이지를 색인화하며, 일반적으로 검색어와 연관성이 높은 웹사이트에 우선순위를 둡니다. 예를 들어, 특정 Windows 오류에 대한 정보를 검색한다고 가정해 봅시다. 검색 엔진 내 웹 크롤러는 Windows 오류 관련 정보가 풍부하고 신뢰할 수 있는 웹사이트의 모든 URL을 집중적으로 탐색합니다.

OpenAI의 웹 크롤러는 GPTBot이라는 이름을 가지며, OpenAI 공식 문서에 따르면, GPTBot의 웹사이트 접근을 허용하면 AI 모델을 더 안전하고 정확하게 훈련시키는 데 기여하며, 모델의 기능 확장에도 도움이 됩니다.

웹사이트에서 OpenAI 크롤링을 차단하는 방법

대부분의 웹 크롤러와 마찬가지로 GPTBot 역시 웹사이트의 robots.txt 파일(로봇 배제 프로토콜)을 설정하여 접근을 제한할 수 있습니다. 이 .txt 파일은 웹사이트 서버에 저장되며, 웹 크롤러 및 기타 자동화된 프로그램의 웹사이트 접근 및 작동 방식을 제어합니다.

다음은 robots.txt 파일이 수행할 수 있는 주요 기능 목록입니다.

GPTBot의 웹사이트 전체 접근을 완전히 차단할 수 있습니다.
GPTBot이 특정 URL 페이지만 접근하지 못하도록 설정할 수 있습니다.
GPTBot에 따라갈 수 있는 링크와 그렇지 않은 링크를 지정할 수 있습니다.

GPTBot이 웹사이트에서 수행할 수 있는 작업을 제어하는 구체적인 방법은 다음과 같습니다.

GPTBot의 웹사이트 전체 접근 차단

먼저 robots.txt 파일을 생성한 후, 텍스트 편집기를 이용하여 파일을 수정합니다.

사이트의 robots.txt 파일에 다음과 같이 GPTBot에 대한 접근 제한을 설정합니다.

 User-agent: GPTBot
Disallow: /

GPTBot의 특정 페이지 접근 차단

robots.txt 파일을 만든 후, 선호하는 텍스트 편집기로 파일을 엽니다.

다음 코드를 사이트의 robots.txt 파일에 추가하여 GPTBot의 특정 페이지 접근을 제한합니다.

 User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

주의해야 할 점은 robots.txt 파일 변경은 소급 적용되지 않으므로, GPTBot이 이미 수집한 정보는 복구할 수 없다는 것입니다.

OpenAI, 웹사이트 소유자에게 크롤링 거부 옵션 제공

AI 모델 훈련에 크롤러가 활용되면서, 웹사이트 소유자들은 자신들의 데이터를 비공개로 유지하는 방법에 대해 고민하고 있습니다.

일부에서는 AI 모델이 본질적으로 작업을 '훔치는' 것이라고 우려하며, 사용자들이 웹사이트를 직접 방문하지 않고 정보를 얻게 되면서 웹사이트 방문자 수가 감소할 가능성도 제기되고 있습니다.

전반적으로, AI 챗봇의 웹사이트 스캔을 완전히 차단할지 여부는 전적으로 개인의 선택에 달려 있습니다.