Alexa, Siri 및 Google은 사용자가 말하는 단어를 이해하지 못합니다.

알렉사, 구글 어시스턴트, 시리와 같은 음성 비서들은 지난 몇 년간 놀라운 발전을 이루었습니다. 하지만 아무리 발전했어도 여전히 분명한 제약이 존재합니다. 바로 사용자의 말을 제대로 이해하지 못한다는 점입니다. 이들은 특정 음성 명령에 과도하게 의존하는 경향을 보입니다.

음성 인식, 마법처럼 보이지만…

음성 비서는 사실상 사용자의 말을 “이해”하지 못합니다. 구글 홈이나 아마존 에코에 말을 걸 때, 기기는 사용자의 말을 텍스트 문자열로 변환한 다음, 미리 설정된 명령어와 비교합니다. 정확히 일치하는 명령어가 발견되면 해당 지시를 실행합니다. 만약 일치하는 명령어가 없다면, 가지고 있는 정보를 바탕으로 수행 가능한 다른 대안을 찾아보거나, “죄송하지만 잘 모르겠습니다.”와 같은 답변을 내놓을 뿐입니다. 사용자를 “이해한다”고 느끼게 하는 것은 일종의 속임수와 같습니다.

이들은 상황에 맞는 단서를 활용하여 최적의 추측을 하거나, 유사한 주제에 대한 이해를 바탕으로 결정을 내릴 수 없습니다. 예를 들어 알렉사에게 “당신은 NSA에서 일하나요?” 또는 “혹시 비밀리에 NSA의 일원이세요?”라고 물으면, (적어도 이 글을 쓰는 시점에서는) “잘 모르겠습니다.”라는 대답을 들을 가능성이 높습니다.

반면에, 인간은 말을 진정으로 이해합니다. 만약 누군가에게 “하늘에 있는 클라베인은 뭐지? 빨강, 주황, 노랑, 파랑 같은 아치형 줄무늬가 있는 거”라고 물으면, ‘클라베인’이라는 단어가 생소하더라도 질문을 듣는 사람은 무지개를 묘사하고 있다는 것을 맥락적으로 이해할 수 있습니다. 인간은 단순히 단어를 넘어 아이디어를 이해하고, 기존의 지식과 이해를 바탕으로 결론을 내릴 수 있습니다. NSA에서 일하는 사람에게 같은 질문을 하면 거짓말을 할지라도 “예” 또는 “아니오”로 답할 것입니다. 인간은 “잘 모르겠습니다”라고 말하지 않을 것입니다. 거짓말을 할 수 있다는 사실 자체가 진정한 이해의 한 측면입니다.

프로그래밍의 한계, 음성 비서의 숙명

음성 비서는 결국 프로그래밍된 예상 매개변수 내에서만 작동합니다. 이 범위를 벗어나면 프로세스가 중단됩니다. 타사 장치와의 상호작용을 예로 들어 보겠습니다. 대부분의 경우 “특정 장치 제조업체에 명령을 전달하여 선택적인 인수를 수행하도록 지시”하는 형식을 취합니다. 예를 들어, “월풀에 건조기를 멈추라고 말해줘”와 같이 복잡한 명령어를 사용해야 합니다. GE 오븐의 경우, 제네바 알렉사 스킬을 사용하려면 “GE”가 아닌 “제네바”를 기억하고, 나머지 명령어를 정확하게 입력해야 합니다. 오븐을 섭씨 175도로 예열하라고 요청할 수는 있지만, “50도 더 올려줘”와 같은 요청은 처리하지 못합니다. 반면, 인간은 이러한 요청을 쉽게 이해하고 따를 수 있습니다.

물론 아마존과 구글은 이러한 제약을 극복하기 위해 많은 노력을 기울이고 있습니다. 이전에는 스마트 잠금 장치를 작동시키기 위해 복잡한 명령어를 사용해야 했지만, 이제는 “앞문을 잠가줘”와 같은 간단한 명령으로 가능해졌습니다. 알렉사가 이전에는 “개 농담을 해봐”와 같은 질문에 제대로 반응하지 못했지만, 현재는 잘 작동합니다. 이러한 발전은 사용자가 사용하는 명령어의 다양성을 늘렸지만, 여전히 정확한 명령어와 구문을 알아야 한다는 근본적인 제약은 남아있습니다.

마치 명령 프롬프트와 유사하게 느껴진다면, 그것은 틀린 말이 아닙니다.

음성 비서는 훌륭한 명령줄일 뿐

명령줄은 특정 작업을 수행하도록 제한적으로 정의되어 있으며, 올바른 구문을 알고 있을 때만 작동합니다. 예를 들어, ‘dir’ 대신 ‘dyr’을 입력하면 오류 메시지가 표시됩니다. 명령어를 더 쉽게 기억하기 위해 별칭을 사용할 수 있지만, 원래 명령어와 작동 방식, 별칭을 효율적으로 사용하는 방법을 알아야 합니다. 명령줄의 모든 기능을 배우는 데 시간을 투자하지 않으면 제대로 활용할 수 없습니다.

음성 비서도 마찬가지입니다. 정확한 방식으로 명령을 내리거나 질문을 해야 합니다. 또한 구글 및 알렉사 그룹을 설정하는 방법, 기기 그룹화가 필요한 이유, 스마트 기기의 이름을 지정하는 방법 등을 알아야 합니다. 이러한 단계를 제대로 거치지 않으면, 음성 비서에게 “어떤 연구를 꺼줘”라고 말했을 때 실제로 연구실의 불을 끄도록 요청하는 좌절감을 느낄 수 있습니다.

올바른 구문을 정확한 순서로 사용하더라도 프로세스가 실패할 수 있습니다. 잘못된 응답이 나오거나 예상치 못한 결과가 발생할 수도 있습니다. 같은 집에 있는 두 개의 구글 홈은 동일한 사용자 계정 정보와 인터넷 연결에 액세스할 수 있음에도 불구하고, 약간 다른 지역의 날씨 정보를 제공할 수 있습니다.

위의 예시에서, “30분 타이머 설정” 명령어를 입력했을 때, 구글 홈 허브는 “Hour”라는 이름의 타이머를 생성한 다음, 타이머의 길이를 물어봅니다. 하지만 동일한 명령을 세 번 더 반복하면 30분 타이머가 정상적으로 설정됩니다. “30분 타이머 설정해줘”와 같이 약간 다른 표현을 사용하면 더 일관적으로 제대로 작동합니다.

결론적으로, 구글 홈이나 에코에 말을 거는 방식은 더 유연해졌을지 모르지만, 내부적으로 음성 비서는 여전히 명령줄과 동일한 방식으로 작동합니다. 새로운 언어를 배우는 것이 아니라, 새로운 방언을 익혀야 하는 것과 같습니다.

좁은 이해력, 음성 비서의 성장을 가로막다

이러한 한계에도 불구하고, 구글 어시스턴트나 알렉사와 같은 음성 비서는 여전히 유용하게 활용될 수 있습니다. (물론 코타나는 다른 이야기지만). 구글 어시스턴트와 알렉사는 온라인에서 질문을 적절하게 검색하고, 구글은 검색 기능이 뛰어나며, 단위 변환이나 간단한 수학 계산과 같은 기본적인 질문에 답할 수 있습니다. 스마트 홈을 제대로 설정하고 사용자가 적절히 훈련된 경우, 대부분의 스마트 홈 명령어는 의도대로 작동합니다. 하지만 이러한 결과는 지적인 이해의 결과가 아닌 노력과 시행착오의 산물입니다.

초기 타이머와 알람 기능은 매우 단순했습니다. 시간이 지남에 따라 이름 지정 기능이 추가되었고, 타이머에 시간을 더하는 기능이 추가되었습니다. 음성 비서는 단순한 기능에서 더 복잡한 기능으로 발전해왔습니다. 또한 더 많은 질문에 답할 수 있게 되었고, 매일 새로운 기능과 기술을 제공하고 있습니다. 하지만 이러한 발전은 학습과 이해에서 비롯된 진정한 성장이 아닙니다.

기존의 지식을 바탕으로 미지의 영역에 도달하는 능력은 아직 부족합니다. 작동하는 모든 명령어와 질문에는 항상 작동하지 않는 세 가지 이상의 문제가 따릅니다. 인간과 같은 이해 능력을 가진 인공지능의 혁신이 없다면, 음성 비서는 결코 진정한 비서가 될 수 없습니다. 특정한 상황에서는 유용하지만, 결국에는 이해하도록 프로그래밍된 시나리오에만 제한된 음성 명령줄일 뿐입니다.

다시 말해, 기계는 무엇인가를 배우고 있지만, 진정으로 이해하지는 못하고 있습니다.