생성적 AI 애플리케이션 구축을 위한 13가지 인기 AI 모델

개인 맞춤형 생성 AI 어플리케이션을 만들고 싶으신가요? 시작하는 데 도움이 될 만한 AI 모델들을 소개해 드립니다.

AI 모델은 특정 작업에 특화되어 설계된 신경망 구조입니다. 이미지 분류 및 분할을 위한 컨볼루션 신경망, 사전 학습된 대규모 언어 모델, 이미지 생성에 사용되는 확산 모델 등이 그 예시입니다.

최근 들어 이미지, 음성, 텍스트와 같은 생성 AI 어플리케이션에 사용되는 AI 모델들이 큰 인기를 얻고 있습니다. 이는 연구 개발의 발전과 고성능 컴퓨팅 환경 덕분입니다.

다음은 현재 주목받고 있는 AI 모델들의 간략한 설명입니다.

모델	주요 기능
GPT-4	오픈 소스 대규모 언어 모델을 활용하여 LLM 기반 애플리케이션 구축 가능
라마	챗봇부터 코딩 도우미까지 다양한 자연어 처리(NLP) 애플리케이션
팔콘	오픈 소스 대규모 언어 모델을 활용하여 LLM 기반 애플리케이션 구축 가능
스테이블 디퓨전	텍스트를 이미지로 변환, 이미지 인페인팅, 아웃페인팅 및 업스케일링
DALL-E 2	텍스트 기반 이미지 생성
위스퍼	음성 인식, 언어 번역, 언어 감지
스테이블LM	오픈 소스 경량 대형 언어 모델
CLIP	질의응답, 요약, 텍스트 생성 등 다양한 NLP 작업
인턴LM	오픈 소스 대규모 언어 모델, LLM 기반 애플리케이션 구축에 사용 가능
세그먼트 애니씽 모델	다양한 이미지 분할 작업을 위한 제로샷 일반화
WaveGAN	오디오 생성
사이클GAN 및 pix2pix	이미지-이미지 변환
바이오GPT	생물 의학 텍스트 생성 및 마이닝

AI 아트를 만들거나 맞춤형 코딩 도우미를 구축하는 등, 다양한 분야에서 생성 AI 어플리케이션을 개발할 수 있습니다. 여기서는 탐색해 볼 만한 몇 가지 흥미로운 AI 모델과 그 핵심 기능들을 소개합니다.

자, 시작해 볼까요!

GPT-4

다가오는 여행 계획표 작성부터 직무 설명에 맞는 자기소개서 초안 작성까지, ChatGPT는 일상 업무에서 유용하게 활용되고 있습니다. 그 후속 모델인 GPT-4는 훨씬 강력한 성능을 자랑하는 대규모 언어 모델입니다.

GPT-4는 ChatGPT보다 뛰어난 추론 능력과 성능을 가진 OpenAI의 최첨단 AI 시스템입니다.

다음은 GPT-4의 작동 원리와 이를 활용하여 어플리케이션을 구축하는 방법에 대한 설명입니다.

무료 OpenAI 계정을 통해 ChatGPT 인터페이스를 이용할 수 있습니다. 하지만 GPT-4에 접근하려면 ChatGPT Plus를 구독해야 합니다.

다음은 GPT-4와 같은 대규모 언어 모델을 사용하여 만들 수 있는 몇 가지 어플리케이션입니다.

개인 맞춤형 챗봇
CRM 플랫폼 개선
맞춤형 데이터셋에 대한 질문 응답
요약 및 텍스트 생성과 같은 기타 작업

다음으로는 몇 가지 오픈 소스 대규모 언어 모델들을 살펴보겠습니다.

라마

메타 AI는 2023년 2월에 650억 개의 매개변수를 가진 기본 대규모 언어 모델인 라마를 출시했습니다. 이후 Llama 2는 이전 버전에 비해 크게 향상된 성능을 보여주며 출시되었습니다. Llama 2는 다음과 같은 기능들을 제공합니다:

Llama Chat: 미세 조정된 Llama 2 모델
Code Llama: Llama 2를 기반으로 제작되었으며, 5000억 개 이상의 코드 토큰으로 학습되었습니다. 다양한 프로그래밍 언어의 코드 생성을 지원합니다.

접근 권한 요청을 통해 Llama 모델을 다운로드하고 사용할 수 있습니다. 파이썬 어플리케이션에서 Llama 2를 사용하는 방법을 배우고 싶다면 이 튜토리얼을 참고하세요.

팔콘

팔콘은 아랍에미리트의 기술혁신연구소(Technology Innovation Institute)에서 개발한 또 다른 오픈 소스 언어 모델입니다. 팔콘 LLM 제품군의 모든 모델은 오픈 소스이며 자유롭게 이용할 수 있습니다. 따라서 이를 활용하여 LLM 기반 어플리케이션을 구축할 수 있습니다.

현재 13억, 75억, 400억, 1800억 개의 매개변수를 가진 네 가지 모델 크기가 있습니다. 1800억 개의 매개변수를 가진 모델은 3.5조 개의 토큰 데이터셋으로 학습되었으며, 다양한 벤치마크에서 우수한 성능을 보입니다. 팔콘 LLM은 다른 주요 오픈 소스 LLM들과 비슷한 수준의 성능을 제공합니다.

팔콘 180B 오픈 소스 LLM은 GPT-4에 가까운 성능을 달성합니다. 팔콘 180B의 사용 방법, 하드웨어 요구 사항, GPT-4와의 성능 비교에 대한 튜토리얼을 참고하세요.

스테이블 디퓨전

스테이블 디퓨전은 이미지 생성 및 기타 창의적인 AI 어플리케이션을 위한 텍스트-이미지 모델입니다. 이미지 업스케일링 및 인페인팅에도 활용할 수 있습니다.

2023년 7월에 출시된 스테이블 디퓨전XL은 다음과 같은 개선 사항들을 제공합니다.

짧은 프롬프트만으로도 상세한 이미지 생성
이미지 내 텍스트 생성 기능
이미지 인페인팅 및 아웃페인팅 작업
원래 이미지와 상호 작용하여 변형 생성

확산 모델의 작동 원리가 궁금하다면, DeepLearning.AI의 무료 강좌인 확산 모델 작동 방식을 확인해 보세요.

DALL-E 2

DALL-E 2는 Open AI에서 개발한 또 다른 인기 있는 텍스트-이미지 생성 모델입니다. 텍스트(자연어 설명)를 바탕으로 사실적인 이미지와 예술 작품을 만들 수 있습니다.

DALL-E 2는 다음 작업에 사용할 수 있습니다.

텍스트 프롬프트를 기반으로 이미지 생성
이미지 인페인팅 및 아웃페인팅
이미지 변형 생성

OpenAI API 또는 OpenAI 연구소 웹 인터페이스를 통해 사용할 수 있습니다.

위스퍼

Open AI의 위스퍼는 다양한 어플리케이션에 활용할 수 있는 음성 인식 모델입니다. 여기에는 다음과 같은 기능이 포함됩니다.

언어 식별
오디오 파일 전사와 같은 음성 인식 작업
음성 번역

다음은 OpenAI 위스퍼 API를 사용하여 음성을 텍스트로 변환하는 방법을 보여주는 튜토리얼입니다.

모델을 직접 사용해 보려면 pip를 사용하여 위스퍼(openai-whisper)를 설치하고, 파이썬 스크립트 내에서 API에 접근하여 오디오 파일을 복사할 수 있습니다. 다른 대규모 언어 모델과 함께 사용하여 음성 파일을 요약하는 파이프라인을 구축할 수도 있습니다.

스테이블LM

스테이블LM은 Stability AI의 오픈 소스 LLM 제품군입니다. 현재 30억 및 70억 개의 매개변수를 가진 모델을 사용할 수 있으며, 향후에는 150억에서 650억 개의 매개변수를 가진 더 큰 모델도 출시될 예정입니다.

따라서 가벼운 오픈 소스 LLM을 어플리케이션에서 활용하고 싶다면 스테이블LM을 고려해 볼 수 있습니다.

CLIP

CLIP은 Contrastive Language-Image Pre-training의 약자입니다. 이는 (텍스트, 이미지) 쌍으로 이루어진 대규모 데이터셋으로 학습된 다중 모드 모델인 신경망입니다. 모델은 자연어 데이터를 활용하여 자연어 설명으로 이미지의 의미를 학습하려고 합니다. CLIP 모델은 주어진 이미지에서 가장 관련성이 높은 텍스트를 예측할 수 있습니다.

CLIP을 사용하면 비용이 많이 드는 사전 학습 및 미세 조정 없이 제로샷 이미지 분류를 수행할 수 있습니다. 또한 CLIP 및 벡터 데이터베이스 기능을 활용하여 다음과 같은 흥미로운 어플리케이션을 만들 수 있습니다.

텍스트-이미지 및 이미지-이미지 검색
역방향 이미지 검색

세그먼트 애니씽 모델

이미지 분할은 이미지 내 특정 객체에 해당하는 픽셀을 식별하는 작업입니다. 메타 AI는 세그먼트 애니씽 모델(SAM)을 출시했으며, 이는 이미지를 분할하고 이미지에서 객체를 잘라내는 데 사용할 수 있습니다.

이미지 출처: 세그먼트 애니씽

프롬프트를 사용하여 이미지에서 분할할 항목을 지정할 수 있습니다. SAM은 현재 경계 상자, 마스크, 전경 및 배경 점과 같은 프롬프트를 지원합니다. 이 모델은 이전에는 볼 수 없었던 이미지에 대한 뛰어난 제로샷 일반화 성능을 보유하고 있어 명시적인 교육이 필요하지 않습니다.

직접 체험해 보세요 브라우저에서 SAM 모델 사용하기!

인턴LM

인턴LM은 오픈 소스 언어 모델입니다. 70억 개의 매개변수를 가진 기본 모델과 오픈 소스 채팅 모델을 사용해 볼 수 있습니다. 이 모델은 8K 컨텍스트 창을 지원합니다. 또한 인턴LM은 코드 인터프리터 및 함수 호출 기능을 제공합니다.

인턴LM은 HuggingFace 트랜스포머 라이브러리에서도 사용할 수 있습니다. 가벼운 사전 학습 프레임워크를 활용할 수 있으며, LMDeploy를 사용하여 어플리케이션을 구축하고 배포할 수 있습니다. 따라서 인턴LM을 사용하여 엔드 투 엔드 생성 NLP 어플리케이션을 만들 수 있습니다.

WaveGAN

WaveGAN은 오디오 생성을 위한 모델입니다. 실제 오디오 데이터 샘플에서 원시 오디오를 합성하는 데 유용합니다.

임의 오디오 파일 데이터셋에서 WaveGAN을 학습시키고, 광범위한 전처리 없이 오디오를 합성할 수 있습니다.

사이클GAN과 Pix2Pix

지금까지 자연어 처리 작업을 위한 다양한 음성-텍스트, 텍스트-이미지 및 기타 모델을 살펴보았습니다. 그렇다면 이미지-이미지 변환은 어떻게 수행해야 할까요? 이때 사이클GAN을 사용하여 소스 도메인에서 대상 도메인으로의 매핑을 학습함으로써 이미지-이미지 변환을 수행할 수 있습니다.

예를 들어 겨울 호숫가 이미지가 있다면, 같은 장소를 여름으로 바꿔서 보고 싶을 수도 있습니다. 또는 말 이미지에서 배경을 유지하면서 말을 얼룩말로 교체할 수 있습니다. 사이클GAN은 이러한 작업에 매우 적합합니다.

pix2pix 모델은 이미지 간 변환에 사용될 수 있습니다. 이 모델의 주요 기능은 다음과 같습니다.

가장자리 맵에서 객체 재구성
이미지 색상화

사이클GAN 및 pix2pix의 PyTorch 구현은 GitHub에서 찾을 수 있습니다.

바이오GPT

바이오GPT는 마이크로소프트에서 개발한 생물의학 데이터 마이닝 및 텍스트 생성 어플리케이션에 사용할 수 있는 트랜스포머 모델입니다. Fairseq에서 제공하는 시퀀스-투-시퀀스 모델 구현을 사용합니다.

페어시크는 페이스북 연구소(현 메타 AI)에서 개발한 툴킷으로, 다음과 같은 작업을 위한 시퀀스-투-시퀀스 모델 구현을 제공합니다.

언어 모델링
번역
요약

두 모델 모두 사전 학습된 모델 및 미세 조정된 모델 체크포인트를 제공합니다. URL 또는 HuggingFace 허브에서 모델을 다운로드할 수 있습니다.

바이오GPT 모델은 HuggingFace 트랜스포머 라이브러리에도 포함되어 있습니다. 따라서 생물의학 분야에서 연구를 진행하는 경우 바이오GPT를 사용하여 특정 분야에 맞는 어플리케이션을 개발할 수 있습니다.

마무리

생성 AI 어플리케이션 구축에 도움이 될 만한 몇 가지 모델을 소개했습니다. 이 목록은 완전하지 않지만, 텍스트 및 오디오 생성, 음성-텍스트 변환, 이미지 검색 등 다양한 기능을 가진 인기 모델들을 다루었습니다.

대규모 언어 모델을 사용하여 어플리케이션을 개발하는 경우, 잘못된 정보나 환각과 같은 일반적인 함정에 주의해야 합니다. 또한 미세 조정 과정은 많은 리소스를 필요로 하므로 모델을 미세 조정할 때 제약에 직면할 수 있습니다.

개발자라면 이제 AI 혁명에 동참하여 흥미로운 AI 어플리케이션을 개발해 보세요! Google Colab 또는 기타 협업 데이터 과학 노트북에서 이러한 모델을 직접 체험해 볼 수 있습니다.