오디오 딥페이크: 가짜인지 누가 알 수 있습니까?

비디오 딥페이크는 보이는 모든 것을 신뢰할 수 없다는 것을 의미합니다. 이제 오디오 딥페이크는 더 이상 귀를 신뢰할 수 없음을 의미할 수 있습니다. 대통령이 캐나다에 선전포고를 한 것이 맞습니까? 이메일 비밀번호를 묻는 전화 통화 중인 아빠가 정말 맞습니까?

우리 자신의 오만함이 어떻게 우리를 필연적으로 파괴할 수 있는지에 대한 목록에 또 다른 실존적 걱정을 추가하십시오. 레이건 시대에 유일한 진정한 기술적 위험은 핵, 화학 및 생물학 전쟁의 위협이었습니다.

다음 몇 년 동안 우리는 나노기술의 회색 끈적끈적한 끈적끈적함과 세계적 유행병에 대해 집착할 기회가 있었습니다. 이제 우리에게는 딥페이크가 있습니다. 사람들은 자신의 외모나 목소리에 대한 통제력을 상실합니다.

오디오 딥페이크란 무엇입니까?

우리 중 대부분은 딥 러닝 알고리즘을 사용하여 한 사람을 다른 사람의 초상으로 대체하는 비디오 딥페이크를 보았습니다. 최고는 매우 현실적이며 이제 오디오 차례입니다. 오디오 딥페이크는 잠재적으로 실제 사람과 구별할 수 없는 “복제된” 음성을 사용하여 합성 오디오를 생성하는 경우입니다.

“음성용 Photoshop과 같습니다.”라고 의 CEO인 Zohaib Ahmed가 말했습니다. AI를 닮다, 그의 회사의 음성 복제 기술에 대해.

그러나 나쁜 Photoshop 작업은 쉽게 폭로됩니다. 우리가 이야기한 한 보안 회사에 따르면 사람들은 보통 오디오 딥페이크가 진짜인지 가짜인지 대략 57%의 정확도로 추측할 뿐이며 동전 던지기보다 나을 것이 없다고 말했습니다.

또한 많은 음성 녹음이 저품질 전화 통화(또는 시끄러운 위치에서 녹음됨)이기 때문에 오디오 딥페이크를 훨씬 더 구별하기 어렵게 만들 수 있습니다. 음질이 나빠질수록 목소리가 진짜가 아니라는 명백한 신호를 포착하기가 더 어렵습니다.

그러나 어쨌든 음성용 Photoshop이 필요한 이유는 무엇입니까?

합성 오디오의 매력적인 사례

실제로 합성 오디오에 대한 엄청난 수요가 있습니다. Ahmed에 따르면 “ROI는 매우 즉각적입니다.”

이것은 게임에 관해서는 특히 그렇습니다. 과거에 음성은 주문형 제작이 불가능한 게임의 한 구성 요소였습니다. 실시간으로 렌더링되는 영화 수준의 장면이 포함된 대화형 제목에서도 재생되지 않는 캐릭터와의 언어 상호 작용은 항상 본질적으로 정적입니다.

하지만 이제 기술이 따라잡았습니다. 스튜디오는 배우의 목소리를 복제하고 문자를 음성으로 변환하는 엔진을 사용하여 캐릭터가 실시간으로 무엇이든 말할 수 있는 가능성이 있습니다.

또한 광고, 기술 및 고객 지원에서 보다 전통적인 용도가 있습니다. 여기에서 사람의 입력 없이 진정으로 사람처럼 들리고 개인적으로 그리고 상황에 따라 반응하는 음성이 중요합니다.

음성 복제 회사는 의료 애플리케이션에도 열광하고 있습니다. 물론 음성 대체는 의학에서 새로운 것이 아닙니다. 스티븐 호킹은 1985년 자신의 목소리를 잃은 후 로봇 합성 음성을 사용한 것으로 유명합니다. 그러나 현대의 음성 복제는 훨씬 더 나은 것을 약속합니다.

2008년 합성음성회사, CereProc, 故 로저 에버트(Roger Ebert)는 암이 사라진 후 그의 목소리를 되돌려 받았습니다. CereProc은 사람들이 메시지를 입력할 수 있는 웹 페이지를 게시하여 조지 부시 전 대통령의 목소리로 말할 수 있게 되었습니다.

CereProc의 최고 과학 책임자인 Matthew Aylett은 “Ebert는 그것을 보고 ‘그들이 Bush의 목소리를 따라할 수 있다면 내 목소리도 따라할 수 있어야 한다’고 생각했습니다.”라고 말했습니다. 그런 다음 Ebert는 회사에 음성 녹음의 대규모 라이브러리를 처리하여 대체 음성을 만들도록 요청했습니다.

  인터넷 연결 속도를 높이는 방법

Aylett은 “누군가가 그렇게 한 것은 처음이었고 그것은 진정한 성공이었습니다.”라고 말했습니다.

최근 몇 년 동안 많은 회사(CereProc 포함)가 ALS 협회 켜짐 프로젝트 청구서 ALS로 고통받는 사람들에게 합성 음성을 제공합니다.

합성 오디오의 작동 원리

음성 복제는 지금 순간을 보내고 있으며 많은 회사에서 도구를 개발하고 있습니다. AI를 닮다 그리고 설명 누구나 무료로 시도할 수 있는 온라인 데모가 있습니다. 화면에 나타나는 문구를 녹음하기만 하면 몇 분 만에 음성 모델이 생성됩니다.

음성을 구성하는 구성 요소 음소를 이해하기 위해 녹음된 음성을 텍스트와 일치시킬 수 있는 AI, 특히 딥 러닝 알고리즘에 감사할 수 있습니다. 그런 다음 결과 언어적 구성 요소를 사용하여 사용자가 말하는 것을 들어보지 못한 단어를 근사화합니다.

기본 기술은 한동안 존재했지만 Aylett이 지적했듯이 약간의 도움이 필요했습니다.

“목소리를 베끼는 것은 마치 과자를 만드는 것과 같았습니다.”라고 그는 말했습니다. “그것은 하기 힘든 일이었고 작동하도록 하기 위해 손으로 조정해야 하는 다양한 방법이 있었습니다.”

개발자는 만족스러운 결과를 얻기 위해 녹음된 음성 데이터의 엄청난 양을 필요로 했습니다. 그러다가 몇 년 전 수문이 열렸다. 컴퓨터 비전 분야의 연구는 중요한 것으로 판명되었습니다. 과학자들은 GAN(Generative Adversarial Networks)을 개발했으며, 이는 처음으로 기존 데이터를 기반으로 추정하고 예측할 수 있습니다.

“컴퓨터가 말 사진을 보고 ‘이것은 말입니다’라고 말하는 대신, 이제 내 모델이 말을 얼룩말로 만들 수 있습니다.”라고 Aylett이 말했습니다. “그래서 음성 합성이 폭발적으로 증가한 것은 컴퓨터 비전의 학문적 연구 덕분입니다.”

음성 복제의 가장 큰 혁신 중 하나는 음성을 생성하는 데 필요한 원시 데이터의 양이 전반적으로 감소한 것입니다. 과거에는 시스템에 수십 또는 수백 시간의 오디오가 필요했습니다. 그러나 이제는 단 몇 분의 콘텐츠로도 유능한 목소리를 낼 수 있습니다.

아무것도 믿지 않는다는 실존적 두려움

이 기술은 원자력, 나노기술, 3D 프린팅 및 CRISPR와 함께 스릴과 공포를 동시에 선사합니다. 결국, 사람들이 음성 클론에 속았다는 뉴스에 이미 사례가 있습니다. 2019년에 영국의 한 회사는 다음과 같이 주장했습니다. 오디오 딥페이크에 속아 전화를 걸어 범죄자에게 돈을 송금합니다.

놀랍도록 설득력 있는 오디오 가짜를 찾기 위해 멀리 갈 필요도 없습니다. 유튜브 채널 보컬 합성 잘 알려진 사람들이 한 번도 말하지 않은 말을 하는 것이 특징입니다. 50 Cent의 “In Da Club”을 읽고 있는 조지 W. 부시. 정상입니다.

YouTube의 다른 곳에서는 다음을 포함한 전직 대통령의 무리를들을 수 있습니다. 오바마, 클린턴, 레이건, NWA 랩. 음악과 배경 소리는 명백한 로봇 결함을 숨기는 데 도움이 되지만 이 불완전한 상태에서도 잠재력은 분명합니다.

우리는 도구를 실험했습니다. AI를 닮다 그리고 설명 그리고 음성 클론을 만들었습니다. Descript는 원래 Lyrebird라고 불리며 특히 인상적이었던 음성 복제 엔진을 사용합니다. 우리는 품질에 충격을 받았습니다. 자신이 한 번도 말하지 않은 것을 알고 있는 자신의 목소리를 듣는 것은 불안합니다.

연설에는 확실히 로봇적인 특성이 있지만, 아무렇지 않게 듣게 되면 대부분의 사람들은 그것이 가짜라고 생각할 이유가 없을 것입니다.

  HEIC에서 JPG로 사진을 변환하는 방법

우리는 Resemble AI에 대해 더 큰 희망을 가지고 있었습니다. 여러 목소리로 대화를 만들고 대화의 표현력, 감정 및 속도를 다양화할 수 있는 도구를 제공합니다. 그러나 우리는 음성 모델이 우리가 사용하는 음성의 본질적인 특성을 포착했다고 생각하지 않았습니다. 사실, 누군가를 속일 가능성은 거의 없었습니다.

Resemble AI 담당자는 “대부분의 사람들은 올바르게 수행하면 결과에 놀라움을 금치 못합니다.”라고 말했습니다. 유사한 결과로 음성 모델을 두 번 구축했습니다. 따라서 분명히 디지털 강도를 수행하는 데 사용할 수 있는 음성 복제를 만드는 것이 항상 쉬운 것은 아닙니다.

그럼에도 불구하고 Lyrebird(현재 Descript의 일부가 됨) 설립자인 Kundan Kumar는 우리가 이미 그 문턱을 넘었다고 생각합니다.

Kumar는 “소수 사례의 경우 이미 존재합니다. “내가 합성 오디오를 사용하여 연설에서 몇 단어를 변경하면 이미 너무 좋아서 무엇이 변경되었는지 알기가 어려울 것입니다.”

우리는 또한 이 기술이 시간이 지남에 따라 더 좋아질 것이라고 가정할 수 있습니다. 시스템은 모델을 생성하는 데 더 적은 오디오가 필요하며 더 빠른 프로세서는 실시간으로 모델을 구축할 수 있습니다. 더 똑똑한 AI는 예제 없이 더 설득력 있는 인간과 같은 케이던스와 연설 강조를 추가하는 방법을 배웁니다.

이는 우리가 손쉬운 음성 복제의 광범위한 가용성에 점점 더 가까워지고 있음을 의미합니다.

판도라의 상자 윤리학

이 분야에서 일하는 대부분의 회사는 안전하고 책임감 있는 방식으로 기술을 처리할 준비가 되어 있는 것 같습니다. 예를 들어 AI를 닮아 웹사이트의 전체 “윤리” 섹션, 그리고 다음 발췌문이 고무적입니다.

“우리는 회사가 복제하는 음성을 사용할 수 있고 성우와 적절한 동의를 얻을 수 있도록 엄격한 프로세스를 통해 회사와 협력합니다.”

그만큼

마찬가지로 Kumar는 Lyrebird가 처음부터 오용에 대해 우려하고 있다고 말했습니다. 그렇기 때문에 이제 Descript의 일부로 사람들이 자신의 목소리를 복제할 수만 있습니다. 사실, Resemble와 Descript 모두 동의 없는 음성 복제를 방지하기 위해 사람들이 샘플을 라이브로 녹음할 것을 요구합니다.

주요 상업 플레이어가 몇 가지 윤리적 지침을 부과했다는 것은 고무적입니다. 그러나 이러한 회사가 이 기술의 게이트키퍼가 아니라는 점을 기억하는 것이 중요합니다. 규칙이 없는 많은 오픈 소스 도구가 이미 존재합니다. 위협 인텔리전스 책임자인 Henry Ajder에 따르면 딥트레이스, 당신은 또한 그것을 오용하기 위해 고급 코딩 지식이 필요하지 않습니다.

Ajder는 “이 분야의 많은 발전은 GitHub와 같은 곳에서 이전에 출판된 학술 논문의 오픈 소스 구현을 사용하여 공동 작업을 통해 이루어졌습니다.”라고 말했습니다. “중간 정도의 코딩 능력만 있으면 누구나 사용할 수 있습니다.”

보안 전문가는 이 모든 것을 전에 보았습니다.

범죄자들은 ​​음성 복제가 가능하기 훨씬 전부터 전화로 돈을 훔치려 했으며 보안 전문가는 항상 이를 탐지하고 방지하기 위해 대기하고 있습니다. 보안 회사 핀드롭 발신자가 오디오에서 주장하는 사람인지 확인하여 은행 사기를 막으려 합니다. 2019년에만 Pindrop은 12억 개의 음성 상호 작용을 분석하고 약 4억 7천만 달러의 사기 시도를 방지했다고 주장합니다.

음성 복제 이전에 사기꾼들은 여러 가지 다른 기술을 시도했습니다. 가장 간단한 것은 마크에 대한 개인 정보를 가지고 다른 곳에서 전화를 거는 것이었습니다.

핀드롭의 비제이 발라수브라마니얀(Vijay Balasubramaniyan) CEO는 “우리의 음향 신호를 통해 우리는 실제로 나이지리아의 Skype 전화에서 전화가 걸려온 것인지 확인할 수 있습니다. “그러면 고객이 애틀랜타에서 AT&T 전화를 사용한다는 사실을 알고 비교할 수 있습니다.”

  분기 논리를 사용하여 Google 양식을 만드는 방법

일부 범죄자는 배경음을 사용하여 은행 직원을 제압하는 것으로 경력을 쌓기도 했습니다.

Balasubramaniyan은 “항상 수탉을 쫓는 치킨맨이라는 사기꾼이 있습니다.”라고 말했습니다. “그리고 배경에 울고 있는 아기를 이용해 콜센터 상담원을 설득해 ‘헤이, 나 힘든 시기를 겪고 있다’고 동정을 받는 한 여성이 있다.”

그리고 여성의 은행 계좌를 노리는 남성 범죄자들이 있습니다.

“그들은 기술을 사용하여 목소리의 주파수를 높이고 더 여성스럽게 들립니다.”라고 Balasubramaniyan이 설명했습니다. 이것들은 성공할 수 있지만 “때때로 소프트웨어가 엉망이 되어 Alvin과 Chipmunks처럼 들립니다.”

물론 음성 복제는 계속 확대되는 이 전쟁에서 가장 최근에 개발된 것입니다. 보안 회사는 이미 적어도 하나의 스피어피싱 공격에서 합성 오디오를 사용하는 사기범을 적발했습니다.

Balasubramaniyan은 “올바른 목표가 있으면 지불금이 엄청날 수 있습니다.”라고 말했습니다. “따라서 적절한 개인의 합성된 목소리를 만드는 데 시간을 할애하는 것이 합리적입니다.”

목소리가 가짜인지 누가 알 수 있습니까?

음성이 가짜인지 인식하는 데에는 좋은 소식과 나쁜 소식이 있습니다. 나쁜 점은 음성 클론이 나날이 좋아지고 있다는 것입니다. 딥 러닝 시스템은 점점 더 똑똑해지고 있으며 생성하는 데 더 적은 오디오가 필요한 보다 실감나는 음성을 만들고 있습니다.

이 클립에서 알 수 있듯이 오바마 대통령, MC 렌에게 입장 표명, 우리는 또한 신중하게 구성된 충실도 높은 음성 모델이 사람의 귀에 꽤 설득력 있게 들릴 수 있는 지점에 이미 도달했습니다.

사운드 클립이 길수록 문제가 있음을 인지할 가능성이 높아집니다. 그러나 더 짧은 클립의 경우 특히 합법성에 의문을 제기할 이유가 없는 경우 합성임을 눈치채지 못할 수 있습니다.

음질이 깨끗할수록 오디오 딥페이크의 징후를 더 쉽게 알아차릴 수 있습니다. 누군가가 스튜디오 품질의 마이크에 직접 대고 말하는 경우 자세히 들을 수 있습니다. 그러나 품질이 좋지 않은 통화 녹음이나 시끄러운 주차장에서 휴대용 장치로 캡처한 대화는 평가하기가 훨씬 더 어렵습니다.

좋은 소식은 인간이 진짜와 가짜를 구분하는 데 어려움을 겪더라도 컴퓨터에는 동일한 제한이 없다는 것입니다. 다행히 음성 확인 도구는 이미 존재합니다. Pindrop에는 딥 러닝 시스템이 서로 경쟁하는 시스템이 있습니다. 오디오 샘플이 원래 있어야 하는 사람인지 확인하기 위해 둘 다 사용합니다. 그러나 인간이 샘플의 모든 소리를 낼 수 있는지도 검사합니다.

오디오 품질에 따라 1초의 음성에는 분석할 수 있는 8,000-50,000개의 데이터 샘플이 포함됩니다.

Balasubramaniyan은 “우리가 일반적으로 찾고 있는 것은 인간 진화로 인한 언어 제약 조건입니다.”라고 설명했습니다.

예를 들어, 두 개의 보컬 사운드는 서로 최소한으로 분리되어 있습니다. 입과 성대의 근육이 스스로 재구성하는 속도로 인해 물리적으로 더 빨리 말할 수 없기 때문입니다.

“합성 오디오를 볼 때 우리는 때때로 사물을 보고 ‘이것을 생성할 수 있는 유일한 사람은 7피트 길이의 목이 필요하기 때문에 이것은 인간에 의해 생성될 수 없었습니다. “

“마찰음”이라고 하는 소리 종류도 있습니다. f, s, v 및 z와 같은 문자를 발음할 때 목구멍의 좁은 수축부를 통해 공기가 통과할 때 형성됩니다. 마찰음은 소프트웨어가 소음과 구별하는 데 문제가 있기 때문에 딥 러닝 시스템이 마스터하기가 특히 어렵습니다.

따라서 적어도 현재로서는 음성 복제 소프트웨어는 인간이 구멍을 통해 공기가 흐르는 고기 봉지라는 사실 때문에 비틀거립니다.