제로샷 학습이란 무엇이며 AI를 어떻게 향상시킬 수 있나요?

주요 시사점

  • 일반화는 딥러닝에서 새로운 데이터로 정확한 예측을 보장하는 데 필수적입니다. 제로샷 학습은 AI가 기존 지식을 사용하여 레이블이 지정된 데이터 없이 새 클래스나 보이지 않는 클래스에 대해 정확한 예측을 할 수 있도록 함으로써 이를 달성하는 데 도움이 됩니다.
  • 제로샷 학습은 인간이 데이터를 학습하고 처리하는 방식을 모방합니다. 인간이 속이 빈 기타의 특성을 이해하여 식별하는 방법을 배울 수 있는 것처럼 사전 훈련된 모델은 추가적인 의미 정보를 제공함으로써 새로운 클래스를 정확하게 식별할 수 있습니다.
  • 제로샷 학습은 일반화, 확장성을 개선하고 과적합을 줄이고 비용 효율성을 높여 AI를 향상시킵니다. 이를 통해 모델은 더 큰 데이터 세트에 대해 훈련되고, 전이 학습을 통해 더 많은 지식을 얻고, 상황에 맞는 이해가 향상되고, 광범위한 레이블이 지정된 데이터의 필요성이 줄어듭니다. AI가 발전함에 따라 다양한 분야의 복잡한 과제를 해결하는 데 제로샷 학습이 더욱 중요해질 것입니다.

딥러닝의 가장 큰 목표 중 하나는 일반화된 지식을 얻은 모델을 훈련시키는 것입니다. 일반화는 모델이 의미 있는 패턴을 학습했는지 확인하고 새로운 데이터나 보이지 않는 데이터에 직면했을 때 정확한 예측이나 결정을 내릴 수 있기 때문에 필수적입니다. 이러한 모델을 훈련하려면 상당한 양의 레이블이 지정된 데이터가 필요한 경우가 많습니다. 그러나 이러한 데이터는 비용이 많이 들고 노동 집약적이며 때로는 불가능할 수도 있습니다.

이러한 격차를 해소하기 위해 제로샷 학습이 구현되어 AI는 레이블이 지정된 데이터가 부족함에도 불구하고 기존 지식을 사용하여 상당히 정확한 예측을 할 수 있습니다.

제로샷 학습이란 무엇입니까?

제로샷 학습은 특정 유형의 전이 학습 기술입니다. 이는 사전 훈련된 모델을 사용하여 새 클래스의 세부 사항을 설명하는 추가 정보를 제공함으로써 새 클래스 또는 이전에 본 적이 없는 클래스를 식별하는 데 중점을 둡니다.

  macOS 메뉴 막대에서 짧은 형식으로 날짜를 표시하는 방법

특정 주제에 대한 모델의 일반 지식을 사용하고 무엇을 찾아야 하는지에 대한 추가 의미를 제공함으로써 식별해야 할 주제가 무엇인지 매우 정확하게 파악할 수 있어야 합니다.

얼룩말을 식별해야 한다고 가정해 보겠습니다. 그러나 그러한 동물을 식별할 수 있는 모델은 없습니다. 따라서 우리는 말을 식별하고 검은색과 흰색 줄무늬가 있는 말이 얼룩말이라고 모델에 알려주도록 훈련된 기존 모델을 얻습니다. 얼룩말과 말의 이미지를 제공하여 모델 추론을 시작하면 모델이 각 동물을 올바르게 식별할 가능성이 높습니다.

많은 딥러닝 기술과 마찬가지로 제로샷 학습은 인간이 데이터를 학습하고 처리하는 방식을 모방합니다. 인간은 타고난 제로샷 학습자로 알려져 있습니다. 음반 가게에서 속이 빈 기타를 찾는 임무를 받았다면, 찾는 데 어려움을 겪을 수 있습니다. 하지만 속이 빈 바디는 기본적으로 한쪽 또는 양쪽에 f자 모양의 구멍이 있는 기타라고 말하면 아마 즉시 찾을 수 있을 것입니다.

실제 예를 들어, open source LLM 호스팅 사이트 Hugging Face에서 Clip-vit-large 모델을 사용하는 제로샷 분류 앱을 사용해 보겠습니다.

공개된 사진에는 높은 의자에 묶인 식료품 봉지에 담긴 빵의 이미지가 담겨 있다. 모델은 대규모 이미지 데이터 세트를 학습했기 때문에 빵, 식료품, 의자, 안전 벨트 등 사진의 각 항목을 식별할 수 있습니다.

이제 모델이 이전에 볼 수 없었던 클래스를 사용하여 이미지를 분류하기를 원합니다. 이 경우 참신하거나 보이지 않는 수업은 “편안한 빵”, “안전한 빵”, “앉아있는 빵”, “운전하는 식료품점”, “안전한 식료품점”이 될 것입니다.

우리는 이미지에 대한 제로샷 분류의 효율성을 보여주기 위해 의도적으로 흔하지 않은 클래스와 이미지를 사용했습니다.

모델을 추론한 결과, 이미지에 가장 적합한 분류가 ‘안전한 빵’이라는 것을 약 80%의 확실성으로 분류할 수 있었습니다. 이는 모델이 높은 의자가 앉거나 휴식을 취하거나 운전하는 것보다 안전에 더 중요하다고 생각하기 때문일 수 있습니다.

엄청난! 나는 개인적으로 모델의 결과에 동의합니다. 그런데 모델이 정확히 어떻게 그런 결과를 내놓았을까요? 제로샷 학습이 어떻게 작동하는지에 대한 일반적인 설명은 다음과 같습니다.

  5분 이내에 설명되는 RabbitMQ

제로샷 학습 작동 방식

제로샷 학습은 사전 훈련된 모델이 레이블이 지정된 데이터를 제공하지 않고도 새 클래스를 식별하는 데 도움이 될 수 있습니다. 가장 간단한 형태의 제로샷 학습은 세 단계로 수행됩니다.

1. 준비

제로샷 학습은 세 가지 유형의 데이터를 준비하는 것부터 시작됩니다.

  • Seen Class: 사전 훈련된 모델을 훈련하는 데 사용되는 데이터입니다. 모델은 이미 본 클래스를 제공합니다. 제로샷 학습에 가장 적합한 모델은 모델이 식별하기를 원하는 새 클래스와 밀접하게 관련된 클래스에 대해 훈련된 모델입니다.
  • 보이지 않는/새로운 클래스: 모델 학습 중에 한 번도 사용되지 않은 데이터입니다. 이 데이터는 모델에서 얻을 수 없으므로 직접 관리해야 합니다.
  • 의미/보조 데이터: 모델이 새로운 클래스를 식별하는 데 도움이 될 수 있는 추가 데이터 비트입니다. 이는 단어, 구문, 단어 임베딩 또는 클래스 이름일 수 있습니다.

2. 의미론적 매핑

다음 단계는 보이지 않는 클래스의 기능을 파악하는 것입니다. 이는 단어 임베딩을 생성하고 보이지 않는 클래스의 속성이나 특징을 제공된 보조 데이터에 연결하는 의미 체계 맵을 만들어 수행됩니다. AI 전이 학습은 보이지 않는 클래스와 관련된 많은 속성이 이미 매핑되어 있으므로 프로세스를 훨씬 빠르게 만듭니다.

3. 추론

추론은 예측이나 결과를 생성하기 위해 모델을 사용하는 것입니다. 제로샷 이미지 분류에서는 주어진 이미지 입력에 대해 단어 임베딩이 생성된 다음 플롯되어 보조 데이터와 비교됩니다. 확실성의 수준은 입력과 제공된 보조 데이터 간의 유사성에 따라 달라집니다.

제로샷 학습이 AI를 향상시키는 방법

제로샷 학습은 다음을 포함하여 기계 학습의 여러 과제를 해결하여 AI 모델을 개선합니다.

  • 향상된 일반화: 레이블이 지정된 데이터에 대한 의존도를 줄이면 더 큰 데이터 세트에서 모델을 훈련할 수 있어 일반화가 개선되고 모델이 더욱 강력하고 신뢰할 수 있게 됩니다. 모델이 더욱 경험이 많고 일반화됨에 따라 모델이 정보를 분석하는 일반적인 방법이 아닌 상식을 배우는 것이 가능할 수도 있습니다.
  • 확장성: 전이 학습을 통해 모델을 지속적으로 훈련하고 더 많은 지식을 얻을 수 있습니다. 기업과 독립적인 연구자들은 미래에 더 많은 역량을 발휘할 수 있도록 모델을 지속적으로 개선할 수 있습니다.
  • 과적합 가능성 감소: 가능한 모든 입력을 표현하기에 충분한 다양성을 포함하지 않는 작은 데이터 세트에 대해 모델을 훈련시키기 때문에 과적합이 발생할 수 있습니다. 제로샷 학습을 통해 모델을 훈련하면 주제에 대한 더 나은 상황적 이해를 갖도록 모델을 훈련시켜 과적합 가능성을 줄입니다.
  • 비용 효율성: 대량의 레이블이 지정된 데이터를 제공하려면 시간과 리소스가 필요할 수 있습니다. 제로샷 전이 학습을 사용하면 훨씬 적은 시간과 레이블이 지정된 데이터로 강력한 모델을 교육할 수 있습니다.
  USB 드라이브의 이미지를 만드는 방법

AI가 발전함에 따라 제로샷 학습과 같은 기술이 더욱 중요해질 것입니다.

제로샷 학습의 미래

제로샷 학습은 머신러닝의 필수적인 부분이 되었습니다. 이를 통해 모델은 명시적인 교육 없이도 새로운 클래스를 인식하고 분류할 수 있습니다. 모델 아키텍처, 속성 기반 접근 방식 및 다중 모드 통합이 지속적으로 발전함에 따라 제로샷 학습은 로봇 공학, 의료 및 컴퓨터 비전의 복잡한 문제를 해결하는 데 모델의 적응력을 훨씬 더 높이는 데 크게 도움이 될 수 있습니다.