튜링 테스트는 구식입니까? 5 튜링 테스트 대안

약 70년 전, 인공지능이라는 개념이 처음 등장했을 때, 앨런 튜링은 인공지능을 식별하는 방법을 제시하는 논문을 발표했습니다. 이 논문은 훗날 '튜링 테스트'로 알려지게 되었고, 수십 년 동안 인간과 인공지능을 구별하는 데 사용되었습니다.

하지만 ChatGPT나 Google Bard와 같이 고도화된 인공지능 챗봇이 등장하면서, 우리가 인공지능과 대화하고 있는지 아닌지를 구분하기가 점점 더 어려워지고 있습니다. 이로 인해 다음과 같은 질문이 생겨납니다. "튜링 테스트는 이제 시대에 뒤떨어진 것일까? 만약 그렇다면, 그 대안은 무엇일까?"

튜링 테스트는 구식인가?

이미지 출처: Jesus Sanz/셔터스톡

튜링 테스트가 구식인지 판단하려면 먼저 그 작동 방식을 이해해야 합니다. 튜링 테스트에서 인공지능이 통과하려면, 인간 질문자에게 자신이 인간이라고 믿게 만들어야 합니다. 이때 인공지능은 인간과 함께 평가되며, 텍스트를 통해서만 응답해야 한다는 제약이 있습니다.

다음 상황을 가정해 봅시다. 당신은 질문자이고, 온라인에서 두 참가자에게 텍스트를 이용하여 질문을 던집니다. 그중 한 명은 인공지능 모델입니다. 5분 안에 이들을 구분할 수 있을까요? 튜링 테스트의 핵심은 정답을 맞추는 능력으로 인공지능 모델을 구별하는 것이 아니라, 인공지능이 인간처럼 사고하고 행동할 수 있는지 평가하는 데 있음을 기억해야 합니다.

인간과 유사한 반응만을 식별하는 튜링 테스트 방식은 다른 중요한 요소들을 간과한다는 문제점이 있습니다. 예를 들어, 인공지능 모델 자체의 지능 수준이나 질문자의 지식 수준 등을 고려하지 않습니다. 또한, 튜링 테스트는 텍스트로만 제한되어 있기 때문에, 인간의 목소리를 내는 인공지능이나 인간의 행동을 모방한 딥페이크 영상 등을 식별하기가 점점 더 어려워지고 있습니다.

하지만 현재 ChatGPT-4나 Google Bard와 같은 인공지능 모델은 아직 튜링 테스트를 지속적으로 통과할 수 있는 수준에는 미치지 못하고 있습니다. 사실, 인공지능에 익숙한 사람이라면 인공지능이 생성한 텍스트를 쉽게 알아챌 수 있을 것입니다.

튜링 테스트를 대체할 5가지 대안

ChatGPT-5와 같이 미래에 등장할 인공지능 모델은 튜링 테스트를 충분히 통과할 가능성이 있습니다. 만약 그렇게 된다면, 우리가 인공지능과 대화하고 있는지 인간과 대화하고 있는지를 판별하기 위해 튜링 테스트와 함께 다른 테스트들을 활용해야 할 것입니다. 다음은 튜링 테스트를 대체할 수 있는 주요 대안들입니다.

1. 마커스 테스트

저명한 인지 과학자이자 인공지능 연구자인 게리 마커스는 튜링 테스트의 대안으로 뉴요커를 통해 인공지능의 인지 능력을 식별하는 새로운 테스트를 제안했습니다. 이 테스트는 간단합니다. 인공지능 모델이 자막이나 텍스트 없이 유튜브 동영상이나 TV 프로그램을 시청하고 이해하는 능력을 평가하는 것입니다. 인공지능이 마커스 테스트를 통과하려면, 동영상을 보면서 풍자, 유머, 아이러니, 줄거리를 사람처럼 이해하고 설명할 수 있어야 합니다.

현재 GPT-4는 이미지를 설명할 수는 있지만, 동영상을 인간처럼 완벽하게 이해하는 인공지능 모델은 아직 존재하지 않습니다. 자율 주행 차량이 점차 발전하고 있지만, 여전히 완전히 자율적이지 않으며, 주변 환경의 모든 것을 완벽하게 이해하지 못하기 때문에 각종 센서에 의존하고 있습니다.

2. 시각적 튜링 테스트

PNAS에 실린 연구 논문에 따르면, 시각적 튜링 테스트를 활용하여 이미지에 관한 질문을 통해 우리가 대화하고 있는 대상이 인간인지 인공지능인지 식별할 수 있다고 합니다. 튜링 테스트와 유사하게 작동하지만, 텍스트로 질문에 답하는 대신 참가자에게 이미지를 보여주고, 인간처럼 생각하면서 간단한 질문에 답하도록 요구합니다. 시각적 튜링 테스트는 모든 답변이 정답이어야 한다는 점에서 CAPTCHA와는 차이가 있습니다. 이 테스트를 통과하려면 인공지능이 이미지를 인간과 유사하게 처리할 수 있어야 합니다.

또한, 인공지능과 인간에게 여러 이미지를 나란히 보여주고, 그중 현실적인 이미지를 식별하도록 요청하면, 인간은 테스트를 통과할 수 있는 인지 능력을 갖추고 있습니다. 이는 인공지능 모델이 현실 세계에서 찍은 것처럼 보이지 않는 이미지를 구별하기 어렵기 때문입니다. 실제로, 인공지능이 생성한 이미지에서 나타나는 비논리적인 이상 현상을 통해 인공지능이 만든 이미지를 식별할 수 있습니다.

3. 러브레이스 2.0 테스트

컴퓨터가 프로그래밍된 수준을 뛰어넘는 독창적인 아이디어를 창출할 수 없다는 이론은, 튜링 테스트 이전 시대에 에이다 러브레이스에 의해 처음 제시되었습니다. 하지만 앨런 튜링은 인공지능도 충분히 인간을 놀라게 할 수 있다고 주장하며 이 이론에 반박했습니다. 2001년에 이르러서야 인공지능과 인간을 구별하기 위한 러브레이스 테스트에 대한 가이드라인이 처음 개발되었고, thekurzwelibrary에 의해 2014년에 규칙이 개정되었습니다.

인공지능이 러브레이스 테스트를 통과하려면, 학습된 내용을 넘어선 독창적인 아이디어를 창출할 수 있음을 입증해야 합니다. 현재 GPT-4와 같은 인공지능 모델은 기존 지식을 뛰어넘는 새로운 발명품을 만들어낼 수 있는 능력이 부족합니다. 그러나 인공 일반 지능이 개발된다면, 이러한 능력을 갖추고 러브레이스 테스트를 통과할 수 있을지도 모릅니다.

4. 역 튜링 테스트

튜링 테스트를 거꾸로 진행해 보면 어떨까요? 즉, 우리가 인간과 대화하고 있는지 확인하는 대신, 역 튜링 테스트를 통해 인공지능을 속여서 우리가 인공지능이라고 믿게끔 만드는 것입니다. 하지만 텍스트를 사용하여 동일한 질문에 답하려면 다른 인공지능 모델이 필요합니다.

예를 들어, ChatGPT-4를 질문자로 설정하고, Google Bard와 다른 참가자를 섭외할 수 있습니다. 인공지능 모델이 답변을 기반으로 참가자를 정확하게 식별할 수 있다면, 그 테스트를 통과한 것으로 간주할 수 있습니다.

역 튜링 테스트의 단점은 신뢰성이 떨어진다는 것입니다. 특히 인공지능이 때때로 인공지능이 생성한 콘텐츠와 인간이 만든 콘텐츠를 구별하지 못한다는 점을 고려할 때 더욱 그렇습니다.

5. 인공지능 분류 프레임워크

크리스 새드가 개발한 인공지능 분류 프레임워크에 따르면, 튜링 테스트는 우리가 인공지능과 대화하고 있는지 판단하는 여러 평가 방법 중 하나일 뿐입니다. 좀 더 간결하게 설명하자면, 인공지능 분류 프레임워크는 다중 지능 이론에 기반하고 있으며, 인간 지능은 음악 리듬 감각, 논리 수학 능력, 시각 식별 능력, 감성 지능, 자기 성찰 지능, 실존적 사고 능력, 신체적 움직임 능력 등 최소 8가지 기준을 충족해야 합니다.

인공지능은 이 8가지 매개변수를 기준으로 평가되기 때문에, 특정 기준에서 평균 이상의 성능을 보이더라도, 인간으로 인정받을 가능성은 낮습니다. 예를 들어, ChatGPT는 수학 문제를 풀고, 이미지를 설명하고, 인간과 유사한 자연어로 대화할 수 있지만, 인공지능 분류 프레임워크에 정의된 다른 범주에서는 실패합니다.

튜링 테스트는 결정적인 테스트가 아니다

튜링 테스트는 인간과 인공지능을 구별하기 위한 결정적인 테스트라기보다는 사고 실험에 더 가깝습니다. 이 테스트가 처음 제안되었을 때는 기계 지능을 측정하기 위한 중요한 벤치마크였습니다.

하지만 최근에는 음성, 시각, 청각을 활용한 대화형 기능을 갖춘 인공지능 모델이 등장하면서, 텍스트 대화에 국한된 튜링 테스트만으로는 부족해졌습니다. 가장 효과적인 해결책은 인공지능 모델을 인간과 더욱 명확하게 구별할 수 있도록 튜링 테스트의 대안을 도입하는 것입니다.