MidJourney vs. 안정적인 확산 vs. Bing Image Creator

인공지능 기반 예술 생성기의 세계: MidJourney, Stable Diffusion, Bing Image Creator 비교

인공지능(AI) 기술은 예술 분야에 혁명적인 변화를 가져오고 있습니다. 그중에서도 특히 주목할 만한 것은 텍스트 설명을 기반으로 이미지를 생성하는 AI 예술 생성기입니다. 이러한 기술은 이미지를 분석하고 해석하여 완전히 새로운 예술 작품을 만들어내는 놀라운 능력을 보여줍니다.

본 글에서는 대표적인 AI 아트 생성기 3종, 즉 MidJourney, Stable Diffusion, 그리고 Microsoft Bing Image Creator를 심층적으로 비교 분석하고자 합니다. 이 세 가지 도구 중에서 어떤 것이 주어진 프롬프트에 가장 뛰어난 결과물을 생성하는지 탐구해 보겠습니다.

MidJourney

MidJourney는 데이비드 홀츠(David Holz)가 설립한 AI 기반 예술 생성 플랫폼입니다. 이 플랫폼은 기계 학습을 활용하여 기존 예술 작품의 패턴과 특징을 학습한 후, 이를 토대로 새로운 작품을 창조합니다.

2022년 7월 12일, MidJourney는 오픈 베타 서비스를 시작했습니다. 홀츠는 MidJourney를 개발하기 전에 사용자의 손동작과 영상 캡처를 이용한 인터페이스 혁신 스타트업인 Leap Motion을 공동 창업한 바 있습니다. 그는 2019년에 Leap Motion을 Ultrahaptics에 매각했습니다.

MidJourney의 인기가 높아짐에 따라 홀츠는 기술에 대한 그의 통찰력과 예술 및 사회에 미치는 영향에 대한 의견을 공유했습니다. 그는 예술가를 경쟁자가 아닌 MidJourney의 고객으로 여기며, 이 플랫폼이 아이디어 구상 단계에서 더 큰 창의성과 실험을 촉진할 수 있다고 믿습니다.

하지만 MidJourney 학습 데이터에 다른 작가의 작품이 포함될 가능성이 있어 잠재적인 저작권 침해에 대한 우려도 존재합니다.

홀츠는 MidJourney가 인간의 능력을 대체하기보다는 강화하기 위해 설계되었다고 강조합니다. 그는 자동차가 사람보다 빠르다고 해서 다리를 자를 필요가 없는 것과 같다고 비유적으로 설명합니다.

예술가들은 MidJourney의 AI 이미지 생성 기능을 활용하여 자신의 작품 제작 전에 다양한 가능성을 탐색하고, 수많은 아이디어를 얻을 수 있습니다.

Stable Diffusion

Stable Diffusion은 텍스트에서 이미지를 생성하거나, 텍스트 설명을 바탕으로 이미지를 수정하거나, 저해상도 또는 세부 묘사가 부족한 이미지의 디테일을 보완하는 데 사용될 수 있는 오픈 소스 머신러닝 모델입니다. 수십억 개의 이미지를 학습 데이터로 사용하며, DALL-E 2나 MidJourney와 유사한 결과물을 생성할 수 있습니다.

Stability AI의 설립자이자 CEO인 에마드 모스타크(Emad Mostaque)는 Stable Diffusion 개발을 담당하고 있습니다. Stable Diffusion은 뮌헨대학교(LMU Munich)의 CompVis 그룹에서 개발한 잠재 확산 모델을 기반으로 하며, 이전 모델 개발자인 패트릭 에서(Patrick Esser)와 로빈 롬바흐(Robin Rombach)가 설계에 참여했습니다.

Stability AI, CompVis LMU, Runway, EleutherAI 및 LAION 간의 협력을 통해 Stable Diffusion은 대중에게 공개될 수 있었습니다.

Stable Diffusion은 Windows와 Apple 기기를 비롯한 다양한 플랫폼에서 사용할 수 있습니다. 앱에서 온디바이스 배포를 활용하면 서버 기반 접근 방식에 비해 사용자 개인 정보 보호에 더 유리합니다.

Microsoft Bing Image Creator

Microsoft는 사용자가 Microsoft Edge 브라우저 내에서 직접 이미지를 생성할 수 있는 Bing Image Creator라는 새로운 도구를 출시했습니다. 이 도구는 창의성과 자기표현을 장려하기 위해 고안된 크리에이터 도구 모음에 속하며, 개인화된 이미지 제작을 통해 일상생활의 소식을 공유하거나 다른 목적으로 활용할 수 있도록 돕습니다.

사용자는 Microsoft Edge 사이드바에서 Image Creator에 쉽게 액세스할 수 있습니다. Microsoft는 도구를 책임감 있게 사용하고 불쾌감을 주는 콘텐츠의 확산을 방지하기 위해 사전 조치를 취했습니다.

이 회사는 특정 상황에서 Image Creator 사용을 제한하는 콘텐츠 정책을 시행하고 있으며, 사용자들은 이러한 정책을 위반하는 행위를 신고할 수 있습니다. 또한 Microsoft는 이미지 생성 기술에서 발생할 수 있는 잠재적 편견을 해결하기 위한 기술을 구현했습니다.

이제 아래에서는 동일한 텍스트 프롬프트를 사용하여 각 AI 이미지 생성기의 결과물을 비교 평가하는 과정을 살펴보겠습니다.

프롬프트 비교

프롬프트 1: 따뜻하고 햇볕이 쨍쨍한 날, 고속도로에서 순록이 끄는 썰매를 탄 현대적인 산타클로스
프롬프트 2: 큰 눈을 가진 동물의 순수함과 귀여움을 포착한 클로즈업 사진
프롬프트 3: 새로운 행성에 착륙한 인간 우주비행사가 무기를 꺼내는 적대적인 외계 생명체를 맞이하는 장면
프롬프트 4: 뉴욕을 배경으로 한, 대담하고 밝은 색상의 추상적인 현대 소설 표지 디자인
프롬프트 5: 피자와 치즈버거 중 하나를 선택하려는 남자의 모습
프롬프트 6: 눈 덮인 산에서 칼을 들고 말을 탄 부상당한 전사
프롬프트 7: 물의 움직임과 흐름을 다양한 색조로 표현한 추상적인 이미지
프롬프트 8: 배경에 무성한 푸른 나무가 보이는 강가의 연어
프롬프트 9: 손으로 짠 레몬과 함께 테이블 위에 놓인 물 한 잔
프롬프트 10: 코끼리를 탄 사람의 시점에서 바라본 사막 지평선
프롬프트 11: 나무에서 지폐가 자라고 새가 동전으로 만들어진 숲
프롬프트 12: 셀 셰이딩 기법으로 표현된 라면 한 그릇, 저녁 조명 아래에서 사실적으로 묘사
프롬프트 13: 가난하고 실업자인 일론 머스크(Elon Musk)의 모습

결론

MidJourney, Stable Diffusion, Bing Image Creator의 결과물을 분석한 결과, 어떤 도구가 압도적으로 뛰어나다고 단정하기는 어렵습니다.

각 생성기는 고유한 방식으로 프롬프트를 해석하며, Bing Image Creator와 MidJourney의 결과물에서 유사점이 발견되기도 합니다. Stable Diffusion은 프롬프트에 대한 명확한 설명이 있을 때 효과적이지만, 때로는 단어를 지나치게 문자 그대로 받아들이는 경향이 있습니다. MidJourney와 Bing Image Creator는 일반적으로 좋은 결과를 보여주지만, 때때로 프롬프트와 일치하지 않는 결과물을 생성하기도 합니다.

특히 Bing Image Creator는 모욕적이거나 선동적인 결과물 생성에 매우 신중하며, 가난하고 실직한 일론 머스크의 이미지를 만들라는 프롬프트에 대해서는 경고 메시지를 표시합니다. 이러한 Microsoft의 보호 조치는 칭찬할 만합니다.

반면에 MidJourney는 신경망 전문성을 바탕으로 궁핍하고 외로운 일론 머스크의 이미지를 생성해냈습니다. 따라서 각 생성기는 특정 사용자 기반의 요구에 맞추어 개발되었다고 결론내릴 수 있습니다.