Mistral AI의 Le Chat AI Chatbot을 사용해 보았고 ChatGPT와 비교하는 방법은 다음과 같습니다.

주요 관점

  • 미스트랄 AI의 AI 챗봇 ‘르챗’은 가능성을 보이지만, 창의성과 프로그래밍 능력에서 ChatGPT에 미치지 못합니다.
  • 르챗의 코딩 능력은 기본적인 과제에서 실패하는 등 ChatGPT보다 떨어지지만, 상식 추론에서는 뛰어난 면모를 보여줍니다.
  • 르챗은 잠재력이 있지만, ChatGPT와 같은 선두 AI 챗봇과 경쟁하려면 추가적인 개선이 필요합니다.

미스트랄의 ‘르챗’은 AI 챗봇 커뮤니티에서 주목을 받고 있으며, 일부에서는 ChatGPT의 잠재적인 경쟁자로 거론하기도 합니다.

하지만 이 새로운 AI 챗봇이 정말 그만큼의 가치가 있을까요? 미스트랄의 ‘르챗’이 ChatGPT보다 우수한가에 대한 질문이 제기됩니다.

미스트랄 AI의 르챗이란?

르챗(Le Chat)은 프랑스 AI 스타트업 미스트랄 AI에서 개발한 대화형 AI 챗봇입니다. 미스트랄 Large, Mistral Small, Mistral Next를 포함한 다양한 대형 언어 모델을 기반으로 하며, 사용자는 AI 챗봇과의 상호작용 시 원하는 모델을 선택할 수 있습니다. AI 챗봇 분야에서는 비교적 새로운 주자이지만, Gemini나 GPT-4와 같은 업계 선두주자들에 비해 작은 규모에도 불구하고 뛰어난 성능을 보여준다는 평가를 받고 있습니다.

이 내용을 이해하기 쉽게 설명하자면, 블록 쌓기 놀이를 생각해 볼 수 있습니다. 블록이 많을수록 더 복잡하고 정교한 구조물을 만들 수 있듯이, AI 언어 모델도 마찬가지입니다. 규모는 일반적으로 매개변수의 수로 표시됩니다. 따라서 AI 모델에서 “7B 매개변수” 또는 “70B 매개변수”와 같은 용어를 듣게 됩니다. 매개변수의 수는 모델이 응답을 이해하고 생성해야 하는 구성 요소의 수와 같습니다. 따라서 언어 모델의 매개변수가 많을수록 더 복잡하고 우수한 응답을 이해하고 생성할 수 있습니다.

예를 들어 GPT-4는 약 1조 7600억 개의 매개변수를 가지고 있는 반면, 미스트랄 AI의 모델은 70억에서 560억 개의 매개변수를 가진 것으로 추정됩니다. 이러한 크기 차이에도 불구하고 미스트랄 AI가 좋은 성능을 보이는 것은 주목할 만합니다.

르챗은 ChatGPT가 누리는 홍보 수준이나 Gemini와 같은 브랜드 자산을 가지고 있지는 않지만, ChatGPT의 경쟁 상대로 언급될 때마다 꾸준히 등장합니다. 그렇다면 실제로 경쟁할 만한 자격이 있는지에 대한 의문이 남습니다.

저 역시 같은 의문을 품고 ‘르챗’을 광범위하게 테스트하여 ChatGPT와 비교해 보았습니다.

르챗 vs ChatGPT: 창의성

창의성은 대화형 AI 챗봇의 성능을 평가하는 중요한 기준 중 하나입니다. AI 챗봇의 목표는 인간의 대화 능력과 창의적 재능을 대규모로 모방하는 것이며, 이는 창의성이 모든 AI 챗봇의 핵심 강점이 되도록 만듭니다. ChatGPT는 1년 넘게 사용되며 그 창의력을 입증받았습니다. 그렇다면 르챗은 어떨까요? 우리는 두 챗봇에 창의성 테스트를 진행했습니다.

먼저 두 챗봇에게 “예술가에게 자신을 어떻게 설명하겠습니까?”라는 질문을 던졌습니다. 이 질문을 통해 창의적이고 상상력이 풍부한 단어를 사용하여 자신을 표현하는 능력을 평가하고자 했습니다.

ChatGPT가 예술가에게 자신을 설명하는 방법은 다음과 같습니다.

르챗이 자신을 설명하는 방법은 다음과 같습니다.

두 답변 모두 고유한 방식으로 적절했습니다. ChatGPT는 생생한 이미지와 은유를 사용하여 창의적인 감각을 보여주었지만, 르챗의 답변은 매우 정보 제공적이며 AI 챗봇으로서의 본질을 설명하는 데 집중했습니다. 일부는 ChatGPT의 응답에 창의성이 부족하다고 느낄 수 있지만, 저는 르챗의 명확한 답변이 ChatGPT의 추상적인 설명보다 더 좋았습니다.

다음으로 우리는 두 챗봇에게 오이를 재배하여 부자가 되는 것에 대한 랩 노래를 써달라고 요청했습니다. 이는 다른 챗봇의 창의성을 테스트할 때 사용한 까다로운 요청이었습니다. 웹에서 오이에 대한 랩 노래를 얼마나 많이 찾을 수 있을까요?

ChatGPT의 응답은 다음과 같습니다.

르챗의 답변은 다음과 같습니다.

주관적인 판단일 수 있지만, 이번에는 ChatGPT의 응답이 더 나은 선택으로 보입니다. 르챗의 가사는 장황하고 래퍼가 뱉어내는 가사처럼 느껴지지 않았습니다. Suno AI 음악 생성기를 사용하여 두 가사를 음악으로 만들어 비교해 본 결과, 세 번의 시도 모두 ChatGPT의 가사가 훨씬 더 좋게 들렸습니다. 다음은 두 AI 챗봇의 샘플입니다. 어떤 챗봇이 더 나은지 직접 판단해 보십시오.

ChatGPT의 가사로 생성된 샘플

샘플 1:

샘플 2:

미스트랄 르챗의 가사로 생성된 샘플

샘플 1:

샘플 2:

AI 챗봇을 사용하여 시, 기사 작성, 어려운 업무 이메일 초안 작성 등 다양한 창의적 과제를 시도해 보았습니다. 르챗은 가능성을 보여주었지만, 모든 경우에서 ChatGPT보다 명백히 뒤쳐졌습니다. 기사 작성 분야에서 르챗이 강점을 보였지만, 몇 가지 복잡한 프롬프트 스타일이 있었습니다. 전반적인 창의성 측면에서 ChatGPT가 더 우수하다고 볼 수 있습니다.

르챗 vs ChatGPT: 프로그래밍 기술

코딩 능력은 주요 AI 챗봇의 핵심 요구 사항이 되었습니다. 기본적인 코드를 작성하는 것은 기본이며, 엘리트 그룹에서 두각을 나타내려면 AI 챗봇이 복잡하고 다양한 문제를 효과적으로 해결할 수 있는 코딩 능력을 보여주어야 합니다. 이전에는 ChatGPT를 사용하여 처음부터 전체 웹 앱을 구축하는 등 프로그래밍 도구로서의 뛰어난 능력을 보여준 바 있습니다. 그렇다면 르챗의 코딩 능력은 어떨까요?

우리는 두 챗봇에게 CSS, HTML, JavaScript를 사용하여 간단한 할 일 목록 앱을 만들도록 요청했습니다. ChatGPT는 문제없이 좋은 결과를 만들어냈습니다. 생성된 코드를 복사하여 브라우저에서 미리 보았을 때 ChatGPT가 만든 앱은 다음과 같습니다.

프롬프트를 반복할 때마다 ChatGPT는 다양한 스타일의 기능적인 할 일 목록 앱을 만들었습니다. 어떤 경우에도 생성된 코드가 작동하지 않는 경우는 없었습니다.

반면 르챗은 동일한 프롬프트에 대해 이해하기 쉬운 코드를 생성했지만, 브라우저에서 실행하려고 했을 때 작동하지 않았습니다. 프롬프트를 세 번 반복한 후에도 주어진 작업을 완료할 수 있는 코드를 생성하지 못했습니다. 가장 기본적인 코딩 작업에서 실패한 것입니다!

물론 한 번의 실패로 르챗을 판단할 수는 없습니다. 다음으로 우리는 두 챗봇 모두에게 텍스트 암호화 및 해독을 위한 JavaScript 및 PHP 코드를 생성하도록 요청했습니다. 두 번째 테스트에서는 ChatGPT와 르챗 모두 주어진 작업을 수행할 수 있는 기능 코드를 생성했습니다. 그러나 르챗의 버전은 경험이 부족한 초급 프로그래머가 작성한 것처럼 보였고, 반면 ChatGPT의 코드는 더욱 완전하고 숙련된 프로그래머가 작성한 것처럼 보였습니다.

버그 찾기 및 수정과 관련된 몇 가지 프로그래밍 테스트를 더 진행한 결과, ChatGPT가 르챗보다 지속적으로 우수한 성능을 보여주었습니다. 어떤 경우에는 르챗이 무엇을 해야 할지조차 몰랐습니다. 르챗이 일부 영역에서 ChatGPT에 도달할 가능성이 있을 수 있지만, 코딩 능력은 그중 하나가 아닌 것 같습니다.

르챗 vs ChatGPT: 상식과 논리적 추론

AI 챗봇의 흥미로운 점은 복잡한 작업은 쉽게 해결할 수 있지만, 기본적인 상식이 필요한 간단한 작업에서는 실패한다는 것입니다. ChatGPT와 같은 기존 챗봇과 르챗과 같은 새로운 주자 모두, 인간 수준의 상식과 논리적 추론이 필요한 과제를 해결하는 데 어려움을 겪고 있습니다. 그렇다면 르챗과 ChatGPT는 이 측면에서 어떻게 비교될까요?

우리는 두 챗봇에게 “3리터 병과 5리터 병이 있다면, 이 두 병을 사용하여 4리터의 물을 어떻게 측정할 수 있습니까?”라는 질문을 던졌습니다.

ChatGPT는 능숙하게 문제를 해결했습니다.

르챗도 같은 작업을 시도했지만, 다른 접근 방식으로 문제를 해결했습니다.

이 테스트에서는 두 챗봇 모두 비슷한 성능을 보였습니다.

다음으로 우리는 두 챗봇에게 다음과 같은 트릭 질문을 던졌습니다. “만약 화성에서 온 우주선이 두 조각으로 나뉘어 한 조각은 브라질 근처 대서양에, 다른 조각은 일본 근처 태평양에 추락한다면, 생존자를 어디에 묻어야 할까요?”

ChatGPT는 함정을 파악하고 그에 맞게 대응했습니다.

르챗 역시 함정을 파악하고 그에 맞게 대응했습니다.

더 많은 트릭 질문을 시도해 본 결과, ChatGPT와 르챗 모두 상식과 논리적 추론을 요구하는 질문에 능숙하게 대처했습니다. 그러나 복잡한 논리적 질문의 경우, ChatGPT만이 정답을 제공할 수 있었습니다.

르챗은 잠재적인 “ChatGPT 킬러”라는 소문이 있었지만, 저희 테스트 결과, AI 챗봇 분야에서 진정으로 경쟁하려면 아직 더 많은 개선이 필요한 것으로 보입니다. 르챗은 상식 추론과 같은 영역에서 인상적인 능력을 보여주었지만, 창의적인 결과와 코딩 능력은 ChatGPT에 비해 분명히 뒤처져 있었습니다. 프랑스 AI 스타트업은 가능성을 보여주지만, 과대 광고는 현실보다 조금 앞서 나간다는 것을 알 수 있습니다.

과거의 많은 야심찬 경쟁자들과 마찬가지로 르챗도 주요 경쟁에 뛰어들기 전에 지속적인 개선과 훈련이 필요합니다. 현재로서는 ChatGPT와 같은 AI 챗봇이 여전히 AI 챗봇 세계의 분명한 왕좌를 차지하고 있습니다. 하지만 경쟁은 점점 더 치열해지고 있으며, 선두주자들은 안주할 수 없는 상황입니다.