Alexa가 깨우기 단어를 듣는 방법

알렉사는 항상 주변 소리를 듣고 있지만, 실제로 녹음을 시작하는 것은 아닙니다. “알렉사”, “에코”, 또는 “컴퓨터”와 같은 깨우기 단어를 말할 때까지 아무런 정보도 클라우드 서버로 전송하지 않습니다. 하지만 이러한 깨우기 단어를 정확히 감지하는 과정은 생각보다 복잡합니다.

에코 하드웨어 자체는 그리 똑똑하지 않습니다. 인터넷 연결이 없으면 어떤 요청이나 질문도 처리할 수 없습니다. 모든 명령은 해석 및 처리를 위해 클라우드로 전송되기 때문입니다. 아마존은 사용자가 스마트 스피커 앞에서 나누는 모든 대화를 녹음하는 대신, 스피커에 직접 내리는 명령만 녹음되기를 원합니다. 이를 위해 아마존은 스마트 스피커가 특정 단어에만 반응하도록 설계했습니다. 이러한 목표를 달성하기 위해, 아마존은 정밀하게 조정된 마이크, 짧은 메모리 버퍼, 그리고 심층 신경망 학습을 결합하여 사용합니다.

미세 조정된 마이크가 당신의 목소리를 정확하게 포착합니다.

에코의 파란색 LED는 항상 사용자의 음성 방향을 향합니다.

에코 및 에코 닷과 같은 음성 인식 스피커에는 일반적으로 여러 개의 마이크가 내장되어 있습니다. 예를 들어, 에코 닷에는 7개의 마이크가 탑재되어 있습니다. 이러한 마이크 어레이는 멀리서 들려오는 명령을 포착하는 것부터 음성에서 배경 소음을 분리하는 것까지 다양한 기능을 수행합니다.

특히 깨우기 단어 감지 과정에서 이 기능은 매우 유용합니다. 에코는 여러 개의 마이크를 사용하여 사용자의 위치를 정확히 파악하고, 방의 다른 소리는 무시한 채 사용자의 목소리 방향에 집중합니다.

이러한 기능은 깨우기 단어를 사용할 때마다 확인할 수 있습니다. 에코 또는 에코 닷 옆에 서서 깨우기 단어를 말하면, 링이 짙은 파란색으로 켜진 후 사용자를 ‘가리키듯이’ 원을 그리며 밝은 파란색으로 바뀝니다. 이제 몇 걸음 옆으로 이동하여 다시 깨우기 단어를 말해보십시오. 밝은 파란색 불빛이 여러분을 따라 움직이는 것을 볼 수 있을 것입니다.

현재 위치를 파악함으로써, 기기는 사용자의 목소리에 더 집중할 수 있으며, 다른 방향에서 발생하는 소음을 효과적으로 걸러낼 수 있습니다.

짧은 메모리 버퍼는 불필요한 녹음을 방지합니다.

에코 기기에는 저장 공간이 있지만, 실제로 많은 저장 공간을 사용하지 않습니다. 아마존의 부사장 겸 에코 및 알렉사 인공지능 수석 과학자인 로히트 프라사드에 따르면, 단 몇 초 분량의 오디오만 임시로 저장할 수 있습니다.

아마존은 이러한 제한을 통해 개인 정보 보호 수준을 높일 뿐만 아니라(목소리가 저장되는 공간을 줄임으로써), 에코가 전체 대화를 듣는 대신 깨우기 단어를 찾는 데만 집중하도록 합니다.

만약 3초짜리 카세트와 녹음기가 있다고 상상해 봅시다. 테이프가 끝에 도달하면 다시 처음으로 돌아가서 계속 녹음한다고 가정합니다. 대화 녹음을 시작하면, 4초 전에 말한 모든 내용은 지워지고 새로운 내용으로 덮어씌워집니다. 아마존 에코는 이와 유사한 방식으로 작동합니다.

에코는 지속적으로 소리를 녹음하면서 동시에 방금 녹음한 내용을 지웁니다. 이러한 짧은 주의 지속 시간은 에코가 “알렉사”라는 단어만 들을 수 있도록 합니다. 하지만 3초는 그 단어가 기록되고, 검토되고, 적절한 조치가 취해지기에 충분한 시간입니다.

심층 신경망 학습은 패턴 매칭을 향상시킵니다.

아마존 알고리즘에 사용되는 계층 구조를 보여줍니다.

마지막으로, 아마존은 심층 신경망 학습을 통해 에코에게 패턴 매칭 기술을 가르칩니다. 다른 기계 학습 방식과 마찬가지로, 아마존은 ‘알렉사’ (또는 ‘컴퓨터’, ‘에코’ 등 회사가 학습시키는 단어)라는 단어의 수많은 사례를 제공하여 알고리즘을 훈련시킵니다.

이러한 훈련의 목표는 다양한 억양과 음조는 물론, 맥락까지 학습하는 것입니다. 아마존은 사용자가 에코와 대화할 때, 다른 사람과 대화할 때, 또는 ‘알렉사’라는 이름의 사람과 대화할 때의 차이점을 인지하기를 원합니다. 이러한 목표 달성을 위해 지향성 마이크도 함께 사용됩니다.

에코는 듣는 모든 단어에 대해 알고리즘 계층을 실행합니다. 각 계층은 소리의 유사성이나 맥락 정보를 통해 오탐지를 제거하도록 설계되었습니다. 하나의 계층 검사를 통과하면 다음 계층으로 넘어갑니다. 마지막으로 로컬 장치가 깨우기 단어를 감지했다고 판단하면 녹음을 시작하고 오디오를 아마존 클라우드 서버로 전송합니다. 아마존은 각 깨우기 단어(‘알렉사’, ‘컴퓨터’, ‘에코’)에 대해 각각 하나씩, 그리고 유리 깨지는 소리와 같은 특정 소리를 깨우기 단어처럼 처리하는 알렉사 가드에 대해 하나, 총 4개의 알고리즘을 사용합니다.

하지만 일치가 발생하더라도 아마존은 더 복잡한 검사를 실행합니다. 여러분은 TV 프로그램이나 광고에서 누군가가 알렉사라고 말할 때, 일반적으로 에코가 반응하지 않는다는 것을 알고 있을 것입니다. 이는 아마존이 클라우드 검사를 통해 이를 필터링하기 때문입니다.

클라우드 검사는 오탐지를 줄이는 데 도움을 줍니다.

재미있는 알렉사 광고는 에코를 깨우지 않습니다.

아마존은 알렉사가 등장하는 광고를 제작할 때, 미리 아마존에 해당 오디오를 제출합니다. 아마존은 깨우기 단어를 식별하는 데 사용되는 유사한 패턴 매칭 알고리즘을 통해 오디오를 실행합니다. 정확한 사례가 모두 수집되면 데이터베이스에 추가됩니다.

클라우드에 연결되면 에코는 프로세스 일부로 인식한 깨우기 단어에 대한 정보를 보내고 해당 데이터베이스를 확인합니다. 일치하는 항목이 발견되면 아마존은 에코에게 해당 깨우기 단어를 무시하고 녹음을 중단하도록 지시합니다.

아마존은 동시에 여러 명이 깨우기 단어를 말하는 경우도 확인합니다. 모든 회사가 미리 아마존에 오디오를 제출하는 것은 아니므로, 아마존은 새로운 백업 솔루션을 개발했습니다. 데이터베이스 매칭을 확인한 후, 아마존은 동시에 들어오는 깨우기 단어 임프린트를 다른 사례와 비교합니다. 동시에 “알렉사”를 말하는 두 사람이 정확히 똑같이 들릴 가능성은 매우 낮으므로, 일치하는 경우가 있다면 아마존은 광고나 TV 프로그램일 가능성이 높다고 판단하고 해당 요청을 무시합니다.

이러한 모든 검사에도 불구하고 오탐지는 여전히 발생할 수 있습니다. 에코가 녹음한 내용을 아마존의 개인 정보 허브에서 확인할 수 있으며, 거기에서 하나 이상의 오탐지를 발견할 수 있을 것입니다. 하지만 이 기술은 계속해서 개선되고 있으며, 아마존은 결국 이 기술이 완벽하게 작동하기를 기대하고 있습니다.