핵심 요약
- 딥페이크는 거짓 정보 확산, 사칭을 통한 개인의 명예훼손, 국가 안보를 위협하는 갈등 유발 등 사회에 심각한 문제를 야기합니다.
- 인공지능(AI) 기술은 딥페이크를 감지하는 도구를 제공하지만, 완전하지 않으며 딥페이크 식별에 있어 인간의 판단력이 여전히 중요합니다.
- 사람과 AI 감지 도구는 딥페이크 식별에서 서로 다른 강점과 약점을 가지고 있으며, 이들의 능력을 결합하여 딥페이크 기술의 위험을 감지하고 줄이는 데 시너지 효과를 낼 수 있습니다.
딥페이크 기술은 우리 사회의 모든 영역에 걸쳐 위협이 되고 있습니다. 허위 정보에 대응하기 위해서는 가짜 콘텐츠를 식별하는 능력이 필수적입니다. 그러나, 인공지능 기술이 발전함에 따라 딥페이크를 판별하는 데 있어 사람과 기계 중 누구를 더 신뢰해야 할까요?
딥페이크의 위험성
인공지능 기술의 발전과 함께, 딥페이크로 인한 위험이 점점 커지고 있습니다. 딥페이크가 야기하는 주요 문제점들을 간략히 정리하면 다음과 같습니다.
- 허위 정보: 딥페이크 영상 및 음성 녹음은 가짜 뉴스와 같은 허위 정보를 퍼뜨릴 수 있습니다.
- 사칭: 딥페이크는 특정 인물을 사칭하여 평판을 손상시키거나 주변 사람들을 속일 수 있습니다.
- 국가 안보: 딥페이크를 통해 주요 인물들이 갈등을 조장하는 것처럼 조작된 영상이나 오디오가 만들어져 국제적인 갈등을 야기할 수 있습니다.
- 사회 불안: 악의적인 세력은 딥페이크 영상과 오디오를 사용하여 특정 집단에 대한 분노를 유발하고 사회 불안을 조장할 수 있습니다.
- 사이버 보안: 사이버 범죄자들은 이미 AI 음성 복제 기술을 활용하여 지인이나 가족을 사칭하여 개인을 표적으로 삼고 있습니다.
- 개인 정보 보호 및 동의: 딥페이크 기술은 개인의 동의 없이 개인의 모습을 도용할 수 있습니다.
- 신뢰의 붕괴: 진실과 거짓을 구별하기 어려워지면, 정확한 정보조차도 신뢰할 수 없게 됩니다.
딥페이크 기술이 점점 더 정교해짐에 따라, 이를 탐지하기 위한 강력한 도구와 프로세스가 필요합니다. AI 기술은 딥페이크 감지 모델을 통해 하나의 해결책을 제시하고 있지만, AI 모델이 글을 식별하도록 설계된 알고리즘과 마찬가지로, 딥페이크 감지 도구 또한 완벽하지 않습니다.
현재로서는, 인간의 판단력이 유일하게 의존할 수 있는 수단입니다. 그렇다면, 딥페이크 식별에 있어서 알고리즘보다 인간이 나은 점은 무엇일까요?
알고리즘은 인간보다 딥페이크를 더 잘 감지할 수 있을까?
딥페이크는 거대 기술 기업 및 연구 기관들이 막대한 자원을 투자할 정도로 심각한 위협입니다. 2019년에는 Meta, Microsoft, Amazon과 같은 기업들이 가장 정확한 탐지 모델 개발을 위해 100만 달러의 상금을 내걸고 딥페이크 탐지 챌린지를 개최했습니다.
최고 성능을 보인 모델은 공개적으로 이용 가능한 비디오 데이터 세트에서 82.56%의 정확도를 나타냈습니다. 하지만, 동일한 모델을 공개되지 않은 10,000개의 동영상으로 구성된 ‘블랙박스 데이터 세트’에 적용했을 때 정확도는 65.18%로 하락했습니다.
인간을 대상으로 AI 딥페이크 감지 도구의 성능을 분석한 다양한 연구들도 진행되고 있습니다. 연구 결과는 다르지만, 일반적으로 인간은 딥페이크 감지 도구와 비슷한 수준 또는 그 이상의 성공률을 보여줍니다.
2021년, PNAS에 발표된 한 연구에서는, ‘일반적인 인간 관찰자’가 주요 딥페이크 감지 도구보다 약간 더 높은 정확도를 보였다고 밝혔습니다. 그러나, 해당 연구에서는 인간 참가자와 AI 모델 모두 다양한 유형의 오류에 취약하다는 사실도 확인했습니다.
흥미롭게도, 시드니 대학교의 연구에서는 인간의 뇌가 의식적인 노력보다 무의식적으로 딥페이크를 더 잘 감지한다는 사실을 발견했습니다.
딥페이크에서 시각적 단서 찾기
딥페이크 감지 기술은 복잡하며, 분석 방법은 영상의 특성에 따라 달라집니다. 예를 들어, 2020년에 공개된 북한 지도자 김정은의 악명 높은 딥페이크 영상은 기본적으로 말하는 머리 영상입니다. 이 경우, 가장 효과적인 딥페이크 감지 방법은 입 모양과 음소의 불일치를 분석하는 것입니다.
인간 전문가, 일반 시청자 및 알고리즘 모두 이러한 분석을 수행할 수 있습니다. MIT에서는 딥페이크 동영상 식별에 도움이 되는 8가지 질문을 제시합니다.
- 얼굴에 주의를 기울이세요. 고도의 딥페이크 조작은 거의 항상 얼굴 변형을 수반합니다.
- 볼과 이마를 자세히 살펴보세요. 피부가 너무 매끄럽거나 주름이 많아 보이지는 않나요? 피부 노화가 머리카락이나 눈의 노화와 일치하나요? 딥페이크는 일부 측면에서 일관성이 없을 수 있습니다.
- 눈과 눈썹에 주의하세요. 그림자가 예상되는 위치에 나타나나요? 딥페이크는 장면의 자연스러운 물리적 법칙을 완전히 모방하지 못할 수 있습니다.
- 안경을 쓰고 있다면 주의하세요. 반사가 보이시나요? 반사가 과도하지는 않나요? 사람이 움직일 때 빛의 각도가 변하나요? 딥페이크는 조명의 물리적 법칙을 정확하게 구현하지 못할 수 있습니다.
- 수염이 있는지 주의하세요. 수염이 자연스러워 보이나요? 딥페이크는 콧수염, 구레나룻 또는 턱수염을 추가하거나 제거할 수 있지만, 얼굴 털의 변형을 완전히 자연스럽게 만들기는 어렵습니다.
- 얼굴 점에 주의를 기울이세요. 점이 진짜처럼 보이나요?
- 눈 깜박임에 주의하세요. 눈을 너무 많이 깜박이거나 너무 적게 깜박이지는 않나요?
- 입술 움직임에 주의하세요. 일부 딥페이크는 립싱크를 기반으로 합니다. 입술의 움직임이 자연스러워 보이나요?
최신 AI 딥페이크 감지 도구들은 다양한 성공 수준으로 위에서 언급한 요소들을 재분석합니다. 데이터 과학자들은 화면에 나오는 사람의 얼굴에서 자연스러운 혈류를 감지하는 등 새로운 방법을 지속적으로 개발하고 있습니다. 이러한 새로운 접근법과 개선을 통해 AI 딥페이크 감지 도구는 앞으로 인간보다 더 나은 성능을 보여줄 수 있을 것입니다.
딥페이크에서 오디오 단서 찾기
딥페이크 오디오를 탐지하는 것은 전혀 다른 문제입니다. 비디오에서 볼 수 있는 시각적 단서나 시청각 불일치와 같은 정보가 없을 경우, 딥페이크 탐지는 오디오 분석에 크게 의존합니다. (메타데이터 검사와 같은 다른 방법도 도움이 될 수 있습니다.)
유니버시티 칼리지 런던에서 2023년에 발표한 연구에서는 인간이 딥페이크 음성을 73%(영어 및 중국어 기준)의 정확도로 탐지할 수 있다는 사실을 발견했습니다. 딥페이크 비디오와 마찬가지로, 인간은 AI가 생성한 음성에서 부자연스러운 음성 패턴을 직관적으로 감지하는 경우가 많습니다.
일반적인 징후는 다음과 같습니다.
- 발음 불분명
- 감정 표현 부족
- 배경 잡음 또는 간섭음
- 음성 또는 언어 불일치
- 목소리의 ‘풍부함’ 부족
- 지나치게 각본에 맞춰진 듯한 전달
- 자연스러운 불완전성 부족(잘못된 시작, 수정, 목청 가다듬기 등)
알고리즘 또한 딥페이크 신호에 대해 음성을 분석할 수 있지만, 새로운 방법들은 AI 감지 도구를 더욱 효과적으로 만들고 있습니다. 유즈닉스의 연구에서는 AI 음성 합성이 실제 음성을 완벽하게 재현하지 못하는 패턴을 확인했습니다. 이 연구는 AI 음성 생성기가 인간의 음성과 달리 좁은 성도(빨대 크기)에서 생성된 오디오와 일치하는 경향이 있다는 것을 발견했습니다.
과거 호르스트 괴르츠 연구소에서 진행한 연구에서는 영어와 일본어로 된 실제 음성과 딥페이크 오디오를 분석한 결과, 실제 음성과 딥페이크 오디오의 고주파수에서 미묘한 차이를 발견했습니다.
성도와 고주파수 불일치는 인간의 청각과 AI 감지 모델 모두에서 감지할 수 있습니다. 고주파수 차이의 경우, AI 모델은 이론적으로 점점 더 정확해질 수 있지만, AI 딥페이크의 경우도 마찬가지입니다.
인간과 알고리즘은 모두 딥페이크에 속지만, 그 이유는 다릅니다.
연구 결과에 따르면, 인간과 최신 AI 감지 도구는 딥페이크를 식별하는 데 비슷한 능력을 보입니다. 성공률은 테스트 조건에 따라 50%에서 90% 이상으로 다양합니다.
뿐만 아니라, 인간과 기계는 비슷한 수준으로 딥페이크에 속습니다. 그러나 중요한 점은, 인간과 기계가 서로 다른 방식으로 취약하다는 것이며, 이것이 바로 딥페이크 기술의 위험에 대처하는 데 있어서 우리의 가장 큰 자산이 될 수 있습니다. 인간의 강점과 딥페이크 감지 도구를 결합하면 각각의 약점을 보완하여 성공률을 높일 수 있습니다.
예를 들어, MIT 연구에 따르면, 인간은 AI 모델보다 세계 지도자와 유명인의 딥페이크를 더 잘 식별하는 것으로 나타났습니다. 또한, AI 모델은 여러 사람이 등장하는 비디오를 처리하는 데 어려움을 겪었지만, 이는 알고리즘이 단일 화자가 등장하는 비디오로 학습되었기 때문일 수 있다고 추정됩니다.
반대로, AI 모델은 의도적으로 인간 시청자를 속이기 위해 사용될 수 있는 품질이 낮은 비디오(흐릿하거나 거칠거나 어두운 영상 등)에서는 인간보다 더 나은 성능을 보였습니다. 마찬가지로, 특정 얼굴 부위의 혈류를 모니터링하는 것과 같은 최신 AI 감지 방법에는 인간이 수행할 수 없는 분석 기능이 포함되어 있습니다.
더 많은 방법이 개발됨에 따라, 우리가 인지할 수 없는 징후를 감지하는 AI의 능력은 더욱 향상될 뿐만 아니라, 딥페이크를 만들어 속이는 능력도 향상될 것입니다. 중요한 질문은 딥페이크 탐지 기술이 계속해서 딥페이크 자체를 앞지를 수 있을지 여부입니다.
딥페이크 시대에 사물을 보는 새로운 시각
AI 딥페이크 탐지 도구는 딥페이크 콘텐츠 자체의 품질과 마찬가지로 지속적으로 개선될 것입니다. 만약 AI의 속이는 능력이 탐지 능력을 능가하게 된다면(AI가 생성한 텍스트의 경우처럼), 딥페이크에 대응할 수 있는 유일한 방법은 인간의 판단력에 의존하는 것일 수 있습니다.
모든 사람은 딥페이크의 징후와 이를 감지하는 방법을 배우는 데 책임감을 가져야 합니다. 사기와 보안 위협으로부터 자신을 보호하는 것 외에도, 온라인에서 토론하고 공유하는 모든 것은 현실을 파악하지 못하면 허위 정보에 취약해집니다.