Google의 Gemini AI가 출시되었지만 ChatGPT보다 나은가요?

핵심 요약

Google의 AI 모델 제미니는 다양한 난이도와 작업에 최적화된 울트라, 프로, 나노의 세 가지 버전으로 구성되어 있습니다.
제미니 울트라는 주요 AI 벤치마크에서 뛰어난 성능을 보였지만, 2023년 12월 현재 일반에 공개되지 않았으며, Google은 2024년 1월 출시를 예고했습니다.
제미니 프로는 현재 사용 가능하며 준수한 성능을 보이지만, GPT-4를 능가하지는 못하고 있습니다.

Google은 제미니 AI 모델이 ChatGPT Plus의 기반 모델인 OpenAI의 GPT-4를 능가할 것이라고 꾸준히 주장해 왔습니다. 이제 제미니가 출시되었으므로, 실제로 테스트하여 제미니가 GPT-4와 어떻게 비교되는지 확인할 수 있게 되었습니다.

2023년 3월 Google이 바드를 출시했을 때, 기대감이 컸습니다. 마침내 OpenAI의 ChatGPT 독점 시대가 끝나고 경쟁이 본격화될 것이라는 희망이 있었습니다.

그러나 바드는 기대에 미치지 못했고, GPT-4는 여전히 생성 AI 챗봇 분야의 선두주자로 자리매김했습니다. 이제 Google의 제미니가 출시되었지만, 오랜 기다림 끝에 등장한 이 AI 모델이 과연 ChatGPT보다 나을까요?

Google의 제미니 AI 모델이란?

제미니는 텍스트, 오디오, 이미지, 비디오 등 다양한 형태의 데이터를 이해하고 처리할 수 있는 Google의 최첨단 생성 AI 모델입니다. 이는 Google이 최고 수준의 AI 기술을 바탕으로 통합 AI 모델을 구축하려는 노력의 결실입니다. 제미니는 세 가지 버전으로 제공됩니다.

제미니 울트라: 매우 복잡한 작업을 처리하도록 설계된 최고 성능의 모델입니다.

제미니 프로: 다양한 작업에서 높은 성능을 제공하는 모델이지만 울트라보다는 성능이 낮습니다.

제미니 나노: 기기 내 작업 처리에 최적화된 가장 효율적인 모델입니다. 개발자는 제미니 나노를 사용하여 모바일 앱이나 통합 시스템을 구축하여 강력한 AI 기능을 모바일 환경에 도입할 수 있습니다.

공식 블로그에 따르면, 키워드, Google은 제미니 울트라가 여러 벤치마크에서 최고 수준의 모델보다 뛰어난 성능을 보인다고 주장합니다. 특히, GPT-4를 능가한다고 강조합니다.

엄격한 MMLU 벤치마크에서 90.0%라는 놀라운 점수를 기록한 제미니 울트라는 57개 주제를 다루는 다양한 테스트에서 인간 수준의 성능을 넘어선 최초의 모델이라고 Google은 설명합니다.

Google

제미니 울트라는 또한 Go, JavaScript, Python, Java 및 C++ 등 세계에서 가장 널리 사용되는 프로그래밍 언어로 작성된 코드를 이해, 설명 및 생성할 수 있습니다. 이는 매우 고무적인 결과입니다. 그러나 이는 벤치마크 테스트 결과일 뿐이며, 벤치마크가 항상 실제 성능을 대변하는 것은 아닙니다. 그렇다면 제미니는 실제 작업에서 얼마나 효과적일까요?

Google 제미니 AI 사용 방법

제미니 AI 모델 중 현재 사용 가능한 것은 제미니 프로입니다. 제미니 프로는 Google의 바드 챗봇에서 이용할 수 있습니다. 바드에서 제미니 프로를 사용하려면 bard.google.com으로 이동하여 Google 계정으로 로그인하십시오.

Google은 제미니 울트라가 2024년 1월에 출시될 것이라고 발표했으므로, 현재로서는 ChatGPT와 제미니 프로를 비교하는 것으로 만족해야 할 것입니다.

제미니와 GPT-3.5 및 GPT-4 비교

새로운 AI 모델이 출시되면, OpenAI의 GPT 모델을 기준으로 성능을 평가하는 것이 일반적입니다. GPT 모델은 일반적으로 다른 모델들이 넘어야 할 최고 수준의 기준으로 간주되기 때문입니다. 이에 따라, 바드와 ChatGPT를 사용하여 제미니의 수학 능력, 창의적 글쓰기 능력, 코드 생성 능력, 이미지 입력 처리 능력을 테스트했습니다.

가장 쉬운 수학 문제부터 시작하여, 두 챗봇 모두에게 -1 x -1 x -1을 풀도록 요청했습니다.

바드가 먼저 시도했습니다. 질문을 두 번 반복했지만 모두 잘못된 답을 내놓았습니다. 세 번째 시도에서 정답을 얻었지만, 이는 큰 의미가 없습니다.

GPT-3.5 기반의 ChatGPT를 사용해 보았습니다. 첫 번째 시도에서 정답을 맞혔습니다.

제미니의 이미지 해석 능력을 테스트하기 위해, 몇 가지 인기 있는 밈을 해석하도록 했습니다. 하지만 인물이 포함된 이미지는 해석할 수 없다는 답변이 돌아왔습니다. GPT-4V를 기반으로 하는 ChatGPT는 이를 완벽하게 처리했습니다.

문제 해결 및 코딩 능력을 테스트하면서 이미지를 해석하도록 하는 또 다른 시도를 했습니다. 제미니 프로 기반의 바드에게 스크린샷을 제공하고, HTML 및 CSS 코드를 분석 및 작성하여 스크린샷을 재현하도록 요청했습니다.

원래 스크린샷은 다음과 같습니다.

다음은 HTML과 CSS를 사용하여 스크린샷을 분석하고 재현하려는 제미니 프로의 시도입니다.

다음은 스크린샷을 재현하려는 GPT-4의 시도입니다. GPT-4가 코딩 분야에서 강력한 성능을 보여왔다는 점을 감안하면, 이 결과는 놀라운 것이 아닙니다. 이전에 GPT-4를 사용하여 웹 앱을 처음부터 구축하는 방법을 보여드린 적이 있습니다.

제미니 프로에게 테슬라(전기 자동차 브랜드)에 대한 시를 작성해 달라고 요청했습니다. 이전 테스트와 비교하여 약간의 개선이 있었습니다. 결과는 다음과 같습니다.

이 시점에서, 우리는 제미니 프로의 결과를 GPT-4가 아닌 GPT-3.5와 비교하는 것이 더 적절할 것이라고 판단했습니다. 그래서 GPT-3.5 기반의 ChatGPT에 비슷한 시를 작성해 달라고 요청했습니다.

개인적인 취향일 수도 있지만, 제미니 프로의 시가 더 나아 보입니다. 그러나 판단은 여러분에게 맡기겠습니다.

제미니가 ChatGPT보다 나은가?

Google이 바드를 출시하기 전에 우리는 이것이 ChatGPT와 경쟁할 만한 모델일 것이라고 생각했지만, 그렇지 못했습니다. 이제 제미니가 출시되었지만, 현재까지 제미니 프로는 ChatGPT에 강력한 경쟁력을 보여주지 못하고 있습니다.

Google은 제미니 울트라가 훨씬 더 나을 것이라고 주장합니다. 제미니 울트라가 발표 내용에 부합하거나 능가하기를 기대합니다. 그러나 Google의 생성 AI 도구의 최고 버전을 확인하고 테스트하기 전까지는 이 도구가 다른 AI 모델 경쟁자를 능가할 수 있을지 알 수 없습니다. 현재로서는 GPT-4가 여전히 가장 강력한 AI 모델로 남아 있습니다.