음악 식별 앱은 처음 접할 때는 마치 마법처럼 느껴질 수 있지만, 그 속에는 매우 정교한 알고리즘이 숨겨져 있어 단 몇 초 만에 노래를 찾아냅니다. 이 놀라운 기술이 어떻게 작동하는지 자세히 살펴보겠습니다.
음악 식별의 신비
살다 보면 누구나 한 번쯤은 경험해봤을 겁니다. 분위기 좋은 레스토랑에서 식사를 하거나, 조용한 카페에서 시간을 보내거나, 쇼핑을 하다가 문득 흘러나오는 멋진 음악 소리에 귀를 기울이게 되는 순간. 익숙한 멜로디일 수도 있고, 처음 듣는 신선한 곡일 수도 있습니다. 그럴 때 우리는 스마트폰을 꺼내 Shazam과 같은 음악 식별 앱을 실행하고, 마치 마법이라도 부리는 듯이 휴대폰을 스피커 쪽으로 향하게 합니다. 잠시 후, 앱은 해당 음악의 제목, 아티스트 정보, 심지어 스트리밍 서비스 링크까지 제공합니다.
이러한 음악 식별 앱은 매우 빠르고 정확하며, 때로는 정말 찾기 어려울 것 같은 음악까지도 정확하게 식별해냅니다. 기본적인 원리는 음원으로부터 음악의 특징을 추출하여 방대한 데이터베이스와 비교하는 것입니다. 하지만 이러한 과정이 어떻게 이루어지는지 그 기술적인 세부 사항은 매우 복잡하고 인상적입니다.
오늘날 우리가 사용하는 Shazam 앱은 2002년에 처음 출시되었으며, 당시부터 이미 놀라운 정확성과 속도를 보여주었습니다. 이는 음악계에 혁명을 가져온 독창적인 알고리즘 덕분입니다.
단순한 가사 분석이 아니다
겉으로 보기에 Shazam과 같은 음악 식별 앱은 단순해 보일 수 있습니다. 우리는 종종 다른 음성 비서처럼 단순히 가사를 듣고 가사 데이터베이스에서 검색하여 음악을 찾아내는 것이라고 생각하기 쉽습니다.
하지만 실제로는 대부분의 음악 식별 앱은 악기 연주곡이나 다른 가수가 부른 커버 곡까지 식별할 수 있습니다. 이는 가사를 분석하는 대신, 각 음악에 고유한 ‘지문’을 찾아 방대한 데이터베이스와 비교하기 때문입니다.
지문 기술의 비밀

우리는 지문을 사용하여 스마트폰을 잠금 해제할 수 있습니다. 지문은 손가락의 고유한 패턴을 담고 있습니다. 마찬가지로, 마이크를 통해 짧은 음악 클립을 녹음하면 이 클립은 Shazam이나 다른 앱이 데이터베이스에서 검색할 수 있는 특정한 데이터 패턴으로 변환됩니다.
처음에는 이 방법이 몇 가지 문제점을 안고 있는 것처럼 보일 수 있습니다. 공공장소에서 음악을 들을 때, 배경 소음이나 스피커의 왜곡으로 인해 음악을 제대로 식별하지 못할 수도 있습니다. 또한 짧은 음악 클립에도 많은 데이터가 포함되어 있어 수백만 곡의 데이터베이스에서 이 패턴을 검색하는 데 시간이 오래 걸릴 수 있습니다.
2003년 사이언티픽 아메리칸과의 인터뷰에서 Shazam의 수석 데이터 과학자이자 공동 창립자인 Avery Li-Chun Wang은 그들의 알고리즘이 이러한 문제를 어떻게 해결하는지 설명했습니다. 오디오 클립의 정보는 특정 시간 동안의 주파수 변화를 나타내는 스펙트로그램이라는 3D 차트로 시각화할 수 있습니다. 또한 소리의 크기를 나타내는 진폭도 고려하며, 이는 스펙트로그램에서 색상의 강도로 표현됩니다.

사람이 특정 주파수에 집중하지 않으면 소리를 제대로 인식할 수 없는 것과 마찬가지로, Shazam은 검색을 수행할 때 전체 노래를 고려하는 대신 오디오 클립 내에서 가장 높은 에너지 함량을 가진 ‘피크’만을 추출합니다. 캡처된 지문은 주어진 시간 프레임 내에서 가장 높은 주파수 지점과 해당 주파수 내에서 최대 진폭 지점을 선택합니다.
컬럼비아 대학교의 연구 논문에서 Wang은 이러한 방법으로 오디오 클립에서 배경 소음과 같은 불필요한 부분을 대부분 제거하고 왜곡을 줄일 수 있다고 밝혔습니다. 또한, 이 방법은 방대한 데이터베이스에서 노래를 식별하는 데 1000분의 1초밖에 걸리지 않을 만큼 지문 크기를 작게 만듭니다.
Shazam의 영향력
음악 식별 앱은 단순히 좋아하는 노래를 듣는 일반 청취자에게 도움이 되는 것 외에도, 음악 산업 전체를 변화시키는 데 중요한 역할을 합니다.
라디오 방송국과 스트리밍 서비스는 Shazam에서 가장 많이 검색되는 음악 데이터를 활용하여 대중이 어떤 음악에 관심을 가지고 있는지 파악합니다. 이는 아티스트에 상관없이 음악 자체의 매력도와 잠재적 인기를 나타내는 중요한 지표가 됩니다. 앱을 통해 얼마나 많은 사용자가 특정 노래를 찾으려 시도했는지 실시간으로 알 수 있기 때문입니다.

Shazam이 등장한 이후로 몇몇 경쟁자들도 등장했습니다. Soundhound는 단순히 노래를 부르거나 흥얼거리는 것만으로도 음악을 식별할 수 있다고 주장하지만, 그 결과는 다소 차이가 있습니다. 또한 Shazam과 유사한 시스템을 기반으로 작동하는 Google Assistant와 같은 음성 앱에 통합된 음악 식별 기능도 있습니다.