오디오 딥페이크: 가짜인지 누가 알 수 있습니까?

오디오 딥페이크의 등장: 귀를 의심해야 할 시대

비디오 딥페이크 기술이 우리 눈을 속이는 시대가 도래했습니다. 이제 오디오 딥페이크는 우리가 듣는 소리마저도 신뢰할 수 없다는 것을 의미할 수 있습니다. 대통령이 실제로 캐나다에 선전포고를 했을까요? 전화 통화 중 이메일 비밀번호를 묻는 아빠가 진짜일까요?

우리가 자초한 기술 발전이 우리를 파멸로 이끌 수 있다는 또 다른 실존적 불안을 안게 되었습니다. 과거 레이건 시대에는 핵무기, 화학무기, 생물학무기가 우리를 위협하는 유일한 기술적 위험이었습니다.

그 후 몇 년 동안 우리는 나노기술의 회색 점액과 세계적 유행병을 걱정했지만, 이제는 딥페이크라는 새로운 위협에 직면했습니다. 사람들은 자신의 외모는 물론 목소리에 대한 통제력마저 잃게 될 위험에 처했습니다.

오디오 딥페이크란 무엇인가?

대부분의 사람들은 이미 딥 러닝 알고리즘을 사용하여 사람의 얼굴을 다른 사람의 얼굴로 대체하는 비디오 딥페이크를 접했을 것입니다. 최고의 딥페이크는 매우 현실적이며, 이제는 오디오 영역에서도 마찬가지입니다. 오디오 딥페이크는 실제 사람의 목소리와 거의 구별할 수 없는 “복제된” 음성을 사용하여 합성 오디오를 생성하는 기술입니다.

Zohaib Ahmed, Resemble AI의 CEO는 자신의 회사의 음성 복제 기술에 대해 “음성 분야의 포토샵과 같습니다.”라고 설명했습니다.

그러나 형편없는 포토샵 작업은 쉽게 발각됩니다. 한 보안 회사의 연구에 따르면, 사람들은 오디오 딥페이크가 진짜인지 가짜인지 여부를 단지 57%의 정확도로 추측할 수 있을 뿐이며, 이는 동전 던지기보다 약간 나은 수준입니다.

더욱이, 많은 음성 녹음이 저품질 전화 통화(혹은 시끄러운 장소에서 녹음)로 이루어지기 때문에 오디오 딥페이크를 구별하기가 더욱 어렵습니다. 음질이 나쁠수록 목소리가 가짜라는 징후를 포착하기가 더 어렵습니다.

하지만 그렇다면 왜 음성 분야의 포토샵이 필요한 것일까요?

합성 오디오의 다양한 활용

사실, 합성 오디오에 대한 수요는 엄청납니다. Ahmed에 따르면 “투자 수익률(ROI)은 매우 즉각적”입니다.

특히 게임 분야에서 이러한 수요가 높습니다. 과거에는 음성이 주문형으로 제작하기 어려웠던 게임의 주요 요소였습니다. 실시간으로 렌더링되는 영화 수준의 장면이 포함된 대화형 게임에서도, 캐릭터와의 언어적 상호작용은 항상 정적일 수밖에 없었습니다.

그러나 이제 기술이 발전하여 스튜디오에서 배우의 목소리를 복제하고 텍스트 음성 변환 엔진을 사용하여 캐릭터가 실시간으로 무엇이든 말할 수 있게 되었습니다.

광고, 기술, 고객 지원과 같은 분야에서도 합성 오디오는 유용하게 사용됩니다. 사람의 개입 없이도 실제 사람처럼 들리고 개인적이며 상황에 따라 반응하는 목소리가 중요하게 활용됩니다.

음성 복제 회사는 의료 분야에서도 관심을 받고 있습니다. 물론 음성 대체 기술은 의학 분야에서 새로운 기술은 아닙니다. 스티븐 호킹은 1985년 자신의 목소리를 잃은 후 로봇 합성 음성을 사용한 것으로 유명합니다. 하지만 현대의 음성 복제 기술은 훨씬 더 나은 결과를 약속합니다.

2008년, 합성 음성 회사인 CereProc은 암 투병 후 목소리를 잃었던 로저 에버트에게 그의 목소리를 되찾아 주었습니다. CereProc은 또한 사람들이 메시지를 입력하여 전 조지 부시 대통령의 목소리로 말할 수 있게 해주는 웹페이지를 공개했습니다.

CereProc의 최고 과학 책임자인 Matthew Aylett은 “에버트는 그 모습을 보고 ‘부시의 목소리를 따라할 수 있다면 내 목소리도 따라할 수 있어야 한다’고 생각했습니다.”라고 말했습니다. 이후 에버트는 회사에 자신의 방대한 음성 녹음 자료를 제공하여 대체 음성을 만들어달라고 요청했습니다.

Aylett은 “그것은 최초의 시도였고, 진정으로 성공적이었습니다.”라고 말했습니다.

최근 몇 년 동안 많은 회사(CereProc 포함)가 ALS 협회프로젝트 리보이스와 협력하여 ALS 환자들에게 합성 음성을 제공하고 있습니다.

합성 오디오의 작동 원리

음성 복제 기술은 현재 빠른 발전을 거듭하고 있으며, 여러 회사에서 관련 도구를 개발하고 있습니다. Resemble AIDescript는 무료로 사용해 볼 수 있는 온라인 데모를 제공하고 있습니다. 화면에 나타나는 문구를 녹음하기만 하면 몇 분 안에 음성 모델이 생성됩니다.

이러한 발전은 음성을 구성하는 음소를 이해하기 위해 녹음된 음성을 텍스트와 일치시키는 데 사용되는 AI, 특히 딥 러닝 알고리즘 덕분입니다. 그런 다음 결과적인 언어 구성 요소를 사용하여, 사용자가 이전에 들어보지 못한 단어를 근사화합니다.

기본 기술은 오랫동안 존재했지만 Aylett은 약간의 도움이 필요했다고 지적합니다.

“목소리를 복제하는 것은 마치 과자를 만드는 것과 같았습니다.”라고 그는 말했습니다. “어려운 일이었고, 제대로 작동시키기 위해 수동으로 조정해야 할 부분들이 많았습니다.”

개발자들은 만족스러운 결과를 얻기 위해 대량의 음성 녹음 데이터를 필요로 했습니다. 그러다 몇 년 전, 컴퓨터 비전 분야의 연구가 큰 역할을 하면서 상황이 바뀌었습니다. 과학자들은 GAN(Generative Adversarial Networks)을 개발했으며, 이는 처음으로 기존 데이터를 기반으로 추정하고 예측할 수 있게 해주었습니다.

Aylett은 “컴퓨터가 말 그림을 보고 ‘이것은 말이다’라고 말하는 대신, 이제 우리 모델은 말을 얼룩말로 만들 수 있습니다.”라고 설명합니다. “이러한 컴퓨터 비전 연구 덕분에 음성 합성 기술이 폭발적으로 성장했습니다.”

음성 복제 기술의 가장 큰 혁신 중 하나는 음성을 생성하는 데 필요한 원시 데이터의 양이 전반적으로 감소했다는 점입니다. 과거에는 시스템에 수십 시간 또는 수백 시간의 오디오 데이터가 필요했지만, 이제는 몇 분의 데이터만으로도 훌륭한 음성을 생성할 수 있게 되었습니다.

아무것도 믿을 수 없다는 실존적 공포

이 기술은 원자력, 나노기술, 3D 프린팅, CRISPR과 마찬가지로 우리에게 흥분과 두려움을 동시에 안겨줍니다. 실제로 이미 음성 복제에 속아 넘어간 사례가 발생하고 있습니다. 2019년에는 영국의 한 회사가 오디오 딥페이크에 속아 범죄자에게 돈을 송금하는 일이 있었습니다.

설득력 있는 오디오 가짜를 찾기 위해 멀리 갈 필요도 없습니다. YouTube 채널인 Vocal Synthesis에서는 유명 인사들이 실제로 하지 않았던 말을 하는 모습을 보여줍니다. 예를 들어, 조지 W. 부시가 50 Cent의 “In Da Club”을 읽는 영상이 대표적입니다. 이 모습은 상당히 기이하게 느껴집니다.

YouTube의 다른 영상에서는 오바마, 클린턴, 레이건을 비롯한 전직 대통령들이 NWA의 랩을 하는 모습도 들을 수 있습니다. 음악과 배경 소음은 로봇 같은 결함을 숨기는 데 도움이 되지만, 이러한 불완전한 상황에서도 기술의 잠재력은 분명합니다.

우리는 Resemble AIDescript의 도구를 사용하여 음성 복제를 시도했습니다. 특히 Descript는 원래 Lyrebird라고 불리던 인상적인 음성 복제 엔진을 사용합니다. 우리는 그 품질에 놀랐습니다. 자신이 하지 않은 말을 자신의 목소리로 듣는 것은 불안한 경험이었습니다.

물론 연설에는 로봇 같은 특징이 있지만, 무심코 듣는다면 대부분의 사람들이 가짜라고 의심하지 않을 것입니다.

Resemble AI에 대해서는 더 큰 기대를 가졌습니다. 이 도구는 여러 목소리로 대화를 만들고, 표현력, 감정, 속도를 다양화할 수 있다고 합니다. 그러나 우리는 음성 모델이 우리가 사용하는 목소리의 본질적인 특성을 제대로 포착하지 못했다고 생각했습니다. 실제로, 누군가를 속일 가능성은 거의 없었습니다.

Resemble AI 담당자는 “대부분의 사람들은 제대로만 사용하면 결과에 놀라움을 금치 못할 것입니다.”라고 말했습니다. 우리는 비슷한 결과를 얻으며 음성 모델을 두 번 생성했습니다. 따라서 디지털 사기를 목적으로 음성 복제를 생성하는 것이 항상 쉬운 일은 아닙니다.

그럼에도 불구하고 Lyrebird(현재 Descript의 일부) 창립자인 Kundan Kumar는 우리가 이미 그 임계점을 넘어섰다고 믿고 있습니다.

Kumar는 “일부 경우에는 이미 기술이 충분히 발전했습니다.”라고 말했습니다. “합성 오디오를 사용하여 연설의 몇 단어를 변경한다면, 너무 완벽해서 무엇이 변경되었는지 알아차리기 어려울 것입니다.”

또한 이 기술이 시간이 지남에 따라 더욱 발전할 것이라고 가정할 수 있습니다. 시스템은 모델을 생성하는 데 필요한 오디오 데이터의 양이 점점 줄어들고, 더 빠른 프로세서는 실시간으로 모델을 생성할 수 있게 될 것입니다. 또한 더 똑똑한 AI는 예제 없이도 더 설득력 있는 인간과 같은 억양과 강조를 추가하는 방법을 학습할 것입니다.

이는 우리가 손쉽게 사용할 수 있는 음성 복제 기술에 점점 더 가까워지고 있음을 의미합니다.

윤리적 딜레마

이 분야에서 활동하는 대부분의 회사는 안전하고 책임감 있는 방식으로 기술을 취급할 준비가 되어있는 것으로 보입니다. 예를 들어, Resemble AI는 웹사이트에 “윤리” 섹션을 마련해두고 있습니다. 다음 발췌문은 긍정적으로 보입니다.

“우리는 회사가 복제하려는 음성을 사용할 권한이 있는지, 그리고 성우와 적절한 계약을 맺을 수 있도록 엄격한 프로세스를 통해 회사와 협력합니다.”

마찬가지로 Kumar는 Lyrebird가 처음부터 오용에 대한 우려를 갖고 있었다고 말했습니다. 그래서 지금은 Descript의 일부로서, 사람들이 자신의 목소리만 복제할 수 있도록 하고 있습니다. 실제로, Resemble과 Descript 모두 동의 없는 음성 복제를 방지하기 위해 사람들이 샘플을 실시간으로 녹음하도록 요구합니다.

주요 상업 플레이어가 몇 가지 윤리적 지침을 제시했다는 것은 긍정적입니다. 그러나 이러한 회사가 이 기술의 유일한 관리자가 아니라는 사실을 기억하는 것이 중요합니다. 이미 규제되지 않은 많은 오픈 소스 도구가 존재합니다. DeepTrace의 위협 정보 책임자인 Henry Ajder에 따르면, 이러한 도구를 오용하는 데 고급 코딩 지식이 필요한 것도 아닙니다.

Ajder는 “이 분야의 많은 발전은 GitHub와 같은 곳에서 이전에 게시된 학술 논문의 오픈 소스 구현을 사용하여 협업을 통해 이루어졌습니다.”라고 말했습니다. “중급 수준의 코딩 능력만 있다면 누구나 사용할 수 있습니다.”

보안 전문가의 대응

범죄자들은 음성 복제 기술이 존재하기 훨씬 전부터 전화로 돈을 훔치려고 시도해 왔으며, 보안 전문가는 항상 이를 탐지하고 방지하기 위해 노력해 왔습니다. 보안 회사인 Pindrop은 발신자가 실제로 주장하는 사람이 맞는지 확인하여 은행 사기를 막기 위해 노력합니다. 2019년에 Pindrop은 12억 건의 음성 상호 작용을 분석하고 약 4억 7천만 달러의 사기 시도를 방지했다고 주장합니다.

음성 복제 기술이 등장하기 전에 사기꾼들은 다른 여러 기술을 시도했습니다. 가장 간단한 방법은 목표 대상에 대한 개인 정보를 입수하여 다른 곳에서 전화를 거는 것입니다.

Pindrop의 CEO인 Vijay Balasubramaniyan은 “우리의 음향 신호를 통해 전화가 실제로 나이지리아에서 스카이프 전화를 통해 이루어졌는지 확인할 수 있습니다.”라고 말했습니다. “그런 다음 고객이 애틀랜타에서 AT&T 전화로 전화를 걸었다는 사실을 알 수 있고, 비교할 수 있습니다.”

일부 범죄자는 배경 소음을 사용하여 은행 직원을 속이기도 했습니다.

Balasubramaniyan은 “닭을 쫓아다니는 수탉 소리를 배경으로 사용하는 사기꾼도 있었습니다.”라고 말했습니다. “그리고 콜센터 상담원에게 ‘힘든 시간을 보내고 있다’며 동정을 얻기 위해 우는 아기를 배경 소음으로 이용하는 여성도 있었습니다.”

또한 여성의 은행 계좌를 노리는 남성 범죄자도 있습니다.

Balasubramaniyan은 “그들은 목소리의 주파수를 높여 더 여성스럽게 들리게 하는 기술을 사용합니다.”라고 설명했습니다. 이러한 기술이 성공할 수 있지만, “때로는 소프트웨어가 잘못되어 앨빈과 다람쥐처럼 들리기도 합니다.”

물론 음성 복제는 이러한 사기 전쟁에서 가장 최근에 개발된 기술입니다. 보안 회사는 이미 최소한 하나의 스피어피싱 공격에서 합성 오디오를 사용하는 사기꾼을 적발했습니다.

Balasubramaniyan은 “올바른 목표를 설정한다면 큰 보상을 얻을 수 있습니다.”라고 말했습니다. “따라서 적절한 사람의 합성된 목소리를 만드는 데 시간을 투자하는 것은 합리적인 선택입니다.”

가짜 목소리를 구별하는 방법

목소리가 가짜인지 여부를 인식하는 데는 좋은 소식과 나쁜 소식이 있습니다. 나쁜 소식은 음성 복제 기술이 나날이 발전하고 있다는 것입니다. 딥 러닝 시스템은 점점 더 똑똑해지고 있으며, 더 적은 오디오 데이터로 더 현실적인 음성을 생성할 수 있게 되었습니다.

예를 들어, 오바마 대통령이 MC 렌에게 입장 표명을 하는 이 클립에서 볼 수 있듯이, 우리는 이미 신중하게 제작된 고품질 음성 모델이 사람의 귀를 상당히 속일 수 있는 수준에 도달했습니다.

사운드 클립이 길수록 문제를 알아차릴 가능성이 높아집니다. 그러나 특히 짧은 클립의 경우, 합법성에 의문을 제기할 이유가 없다면 가짜라는 것을 눈치채지 못할 수도 있습니다.

음질이 깨끗할수록 오디오 딥페이크의 징후를 더 쉽게 알아차릴 수 있습니다. 누군가가 스튜디오 품질의 마이크에 대고 말하는 경우 자세히 들어보면 가짜임을 감지할 수 있을 것입니다. 그러나 품질이 낮은 통화 녹음이나 시끄러운 주차장에서 휴대용 장치로 녹음한 대화는 평가하기가 훨씬 더 어렵습니다.

다행히도, 인간은 진짜와 가짜를 구별하는 데 어려움을 겪지만, 컴퓨터는 그렇지 않습니다. 음성 검증 도구는 이미 존재합니다. Pindrop에는 딥 러닝 시스템이 서로 경쟁하는 시스템이 있습니다. 이 두 시스템을 모두 사용하여 오디오 샘플이 원래 있어야 하는 사람의 목소리인지 확인합니다. 또한 인간이 샘플에 있는 모든 소리를 낼 수 있는지도 검사합니다.

오디오 품질에 따라 1초의 음성에는 8,000~50,000개의 분석 가능한 데이터 샘플이 포함됩니다.

Balasubramaniyan은 “우리가 일반적으로 찾고 있는 것은 인간 진화로 인한 언어 제약 조건입니다.”라고 설명했습니다.

예를 들어, 두 개의 보컬 사운드는 서로 최소한으로 분리되어 있습니다. 이것은 입과 성대의 근육이 스스로 재구성하는 속도로 인해 물리적으로 더 빨리 말할 수 없기 때문입니다.

“합성 오디오를 보면, 가끔은 ‘7피트 길이의 목이 있어야만 이런 소리를 낼 수 있으니, 인간이 만들 수 없는 소리이다’와 같은 결론을 내립니다.”

또한 ‘마찰음’이라는 소리의 종류도 있습니다. f, s, v, z와 같은 문자를 발음할 때 목구멍의 좁은 부분을 통해 공기가 통과할 때 만들어지는 소리입니다. 마찰음은 소프트웨어가 소음과 구별하는 데 어려움을 겪기 때문에 딥 러닝 시스템이 제대로 구현하기가 특히 어렵습니다.

따라서 적어도 현재로서는 음성 복제 소프트웨어가 인간이 공기를 통과시키는 살덩어리라는 사실 때문에 어려움을 겪고 있습니다.