Shazam과 같은 음악 식별 앱은 어떻게 작동합니까?

음악 식별 앱은 처음에는 마술처럼 보이지만 그 이면에는 순식간에 노래를 찾을 수 있는 정교한 알고리즘이 있습니다. 작동 방식은 다음과 같습니다.

음악 식별의 마법

아마도 우리 모두에게 일어난 일입니다. 멋진 레스토랑에서 저녁을 먹거나, 커피숍에서 시간을 보내거나, 가게를 돌아다니다 보면 갑자기 스피커에서 멋진 노래가 재생되는 소리가 들립니다. 아마도 이전에 들어본 노래이거나 한 번도 들어본 적이 없는 트랙일 수 있습니다. 그래서 스마트폰을 꺼내서 Shazam을 열고 기기를 천장에 댑니다. 앱은 순식간에 노래가 무엇인지, 아티스트가 누구이며, 스트리밍할 위치를 알려줍니다.

빠르고 놀라울 정도로 정확하며 가장 모호한 노래도 식별할 수 있습니다. 간단히 말해서 녹음에서 노래를 분리하고 방대한 트랙 데이터베이스와 대조하여 검색합니다. 그러나 이를 수행하는 방법의 이면에 있는 기술은 매우 복잡하고 인상적입니다.

오늘날 우리가 알고 있는 Shazam 앱이 2002년에 출시되었고 시스템이 지금처럼 정확하고 빨랐다는 사실에 충격을 받을 수도 있습니다. 이것이 모두 음악 세계에 혁명을 일으킬 독특한 알고리즘 덕분입니다.

가사뿐만이 아니다

언뜻 보면 Shazam과 같은 음악 식별 앱이 단순해 보일 수 있습니다. 다른 보이스 어시스턴트와 마찬가지로 가사만 듣고 노래 가사 데이터베이스에서 검색하여 노래가 무엇인지 알려준다고 생각할 수도 있습니다.

그러나 대부분의 음악 식별 앱은 기악 제목이 무엇인지, 심지어 커버 곡의 가수가 무엇인지 알 수 있습니다. 트랙의 가사를 분석하는 대신 광범위한 데이터베이스에서 각 노래에 고유한 “지문”을 찾고 있기 때문입니다.

지문 기술

지문을 사용하여 잠금을 해제할 수 있는 장치가 있을 수 있습니다. 지문은 고유한 손가락의 작은 선 배열입니다. 마찬가지로 마이크를 들고 노래의 짧은 클립을 녹음하면 이 클립이 Shazam이나 다른 앱이 데이터베이스에서 조회할 수 있는 데이터 패턴으로 바뀝니다.

언뜻보기에 그 방법은 몇 가지 문제가 있는 것처럼 보입니다. 공공 장소에서 음악을 들을 때 대부분의 경우 스피커로 인해 배경 소음과 왜곡이 발생하여 노래를 식별할 수 없거나 일치하지 않을 수 있습니다. 또한 짧은 사운드 클립에도 많은 데이터가 캡처되어 수백만 곡의 데이터베이스에서 이러한 패턴을 검색하는 속도가 느려질 수 있습니다.

  TV 쇼, 콘서트, 게임, 비 등에 대한 알림 받기

와의 인터뷰에서 사이언티픽 아메리칸 2003년, 수석 데이터 과학자이자 Shazam의 공동 설립자인 Avery Li-Chun Wang은 그들의 알고리즘이 이러한 문제를 해결하는 방법을 설명합니다. 오디오 클립의 정보는 일정 기간 동안의 주파수 변화를 나타내는 스펙트로그램이라는 3D 차트로 시각화할 수 있습니다. 또한 소리의 크기를 나타내는 진폭도 고려합니다. 이것은 색상의 강도를 사용하여 스펙트로그램으로 표시됩니다.

사람이 특정 주파수에 있지 않으면 소리를 인식할 수 없는 것과 마찬가지로, 검색을 수행할 때 노래 전체를 고려하는 대신 Shazam은 오디오 클립 내에서 가장 높은 에너지 함량인 “피크”만 가져옵니다. . 캡처한 지문은 주어진 시간 프레임 내에서 가장 높은 주파수 지점만 취한 다음 해당 주파수 내에서 최대 진폭 지점을 취합니다.

에 대한 연구 논문에서 컬럼비아 대학교, Wang은 이 방법을 통해 오디오 클립에서 배경 소음과 같은 불필요한 부분을 대부분 제거하고 왜곡을 제거할 수 있다고 말했습니다. 또한 방대한 데이터베이스에서 노래를 식별하는 데 1000분의 1초밖에 걸리지 않을 만큼 지문 크기를 작게 만듭니다.

Shazam의 영향

자신이 좋아하는 노래를 듣는 일반 청취자에게 도움이 되는 것 외에도 음악 식별 앱은 음악 세계를 형성하는 데에도 도움이 됩니다.

라디오 방송국과 스트리밍 서비스는 사람들이 가장 많이 Shazam하는 항목에 관한 데이터를 사용하여 대중이 어떤 트랙을 듣고 있는지 파악합니다. 이는 아티스트에 관계없이 노래의 매력도와 잠재적인 인기도를 나타내기 때문에 유용합니다. 앱으로 노래를 식별하면 얼마나 많은 사람들이 노래를 식별하려고 시도했는지 즉시 알 수 있습니다.

Shazam이 등장한 이후로 소수의 경쟁자들도 등장했습니다. Soundhound는 단순히 노래를 부르거나 흥얼거리는 것만으로 노래를 식별할 수 있다고 주장하며 결과는 혼합됩니다. Shazam의 시스템과 매우 유사하게 작동하는 Google Assistant와 같은 음성 앱과 통합된 노래 식별자도 있습니다.