우리는 비디오나 오디오 녹음 내용을 사실로 받아들이는 경향이 있습니다. 그러나 인공지능(AI) 기술이 발전함에 따라, 누군가의 얼굴이나 목소리를 매우 정교하게 복제하는 것이 가능해졌습니다. 이러한 기술로 만들어진 결과물, 즉 ‘딥페이크’는 밈이나 허위 정보 유포, 심지어 외설물 제작 등에 악용될 수 있습니다.
니콜라스 케이지 딥페이크 영상이나 조던 필의 딥페이크 공익 광고를 보면 우리가 매우 특이한 신기술을 접하고 있다는 것을 알 수 있습니다. 이러한 예들은 비교적 무해하지만, 미래에 대한 우려를 불러일으킵니다. 과연 우리는 비디오와 오디오를 완전히 신뢰할 수 있을까요? 사람들이 자신의 행동에 대해 책임을 지도록 할 수 있을까요? 우리는 딥페이크의 시대에 제대로 대비되어 있을까요?
딥페이크: 신속하게 진화하는 기술
딥페이크 기술은 등장한 지 불과 몇 년밖에 되지 않았지만, 놀라운 속도로 발전하고 있습니다. ‘딥페이크’라는 용어는 2017년 레딧 스레드에서 처음 사용되었으며, 인공지능을 통해 사람의 외모나 목소리를 모방하는 기술을 의미합니다. 놀랍게도, 성능이 좋지 않은 컴퓨터와 약간의 소프트웨어, 그리고 약간의 시간만 있다면 누구나 딥페이크를 만들 수 있습니다.
믿기 어려울 수 있지만, 왼쪽 이미지는 딥페이크 기술로 만들어진 이미지입니다.
새로운 기술이 등장할 때마다 혼란이 따르듯이, 딥페이크 기술에도 많은 오해가 있습니다. ‘술 취한 펠로시’ 영상은 이러한 혼란의 대표적인 예입니다. 딥페이크는 인공지능으로 조작된 영상이며, 실제 사람을 모방하기 위해 만들어집니다. 그러나 ‘술 취한 펠로시’ 영상은 실제로는 낸시 펠로시의 영상을 속도와 음높이를 조절하고 흐릿하게 처리한 것에 불과했습니다.
이것이 바로 딥페이크 기술과 영화 ‘스타워즈: 로그 원’에 등장한 CGI 캐리 피셔와의 차이점입니다. 디즈니는 캐리 피셔의 얼굴을 연구하고 수작업으로 재현하는 데 막대한 비용을 투자했지만, 딥페이크 소프트웨어를 이용하면 누구든지 비슷한 결과를 무료로 얻을 수 있습니다. 인공지능은 이 작업을 매우 쉽고 저렴하며, 설득력 있게 만들어줍니다.
딥페이크 제작 과정
마치 학생들이 공부하는 것처럼, 인공지능은 자신이 수행해야 할 작업을 ‘학습’해야 합니다. 이것은 일반적으로 ‘머신 러닝’ 또는 ‘딥 러닝’이라고 불리는 시행착오를 거치는 과정을 통해 이루어집니다. 예를 들어, 슈퍼 마리오 브라더스의 첫 번째 레벨을 완료하도록 설계된 인공지능은 가장 좋은 승리 방법을 찾을 때까지 계속해서 게임을 플레이합니다. 인공지능을 설계하는 사람은 작업을 시작하기 위해 몇 가지 데이터를 제공해야 하며, 문제가 발생할 경우 몇 가지 ‘규칙’을 제공해야 합니다. 그 외에는 인공지능이 알아서 모든 작업을 수행합니다.
딥페이크를 통해 얼굴을 재현하는 과정도 이와 같습니다. 하지만 얼굴을 재현하는 것은 비디오 게임을 이기는 것과는 다릅니다. 웬디 윌리엄스 쇼를 진행하는 니콜라스 케이지의 딥페이크를 만들기 위해서는 다음과 같은 과정이 필요합니다.
목표 비디오: 현재로서는 딥페이크는 선명하고 깨끗한 목표 비디오에서 가장 효과적입니다. 그래서 가장 설득력 있는 딥페이크 중 일부가 정치인들을 대상으로 만들어지는 것입니다. 그들은 일관된 조명 아래에서 연단에 가만히 서 있는 경향이 있기 때문입니다. 따라서 웬디 윌리엄스가 가만히 앉아서 이야기하는 영상이 필요합니다.
두 개의 데이터 세트: 입과 머리의 움직임을 정확하게 재현하기 위해서는 웬디 윌리엄스의 얼굴 데이터 세트와 니콜라스 케이지의 얼굴 데이터 세트가 필요합니다. 웬디가 오른쪽을 바라보면, 오른쪽을 바라보는 니콜라스 케이지의 사진이 필요하며, 웬디가 입을 벌리면, 니콜라스 케이지가 입을 벌리는 사진이 필요합니다.
이러한 데이터가 준비되면, 인공지능이 작업을 수행하도록 합니다. 인공지능은 계속해서 딥페이크를 만들려고 시도하며, 오류를 통해 스스로 학습합니다. 간단해 보이지 않나요? 이제 웬디 윌리엄스의 얼굴에 니콜라스 케이지의 얼굴이 합성된 영상이 만들어집니다.