주요 정보 요약
- 앤트로픽의 클로드 3는 이전 모델인 클로드 2에서 크게 발전했으며, 여러 분야에서 GPT-4를 능가하는 성능을 보여줍니다.
- 클로드 3를 이용하면, 구독료 없이 다양한 분야의 질문에 대한 답변을 얻을 수 있습니다.
- 클로드 3는 ChatGPT의 GPT-4와 경쟁할 수 있을 정도의 뛰어난 성능을 보이며, 특히 프로그래밍, 창작 글쓰기, 그리고 컨텍스트 창 크기에서 강점을 드러냅니다.
앤트로픽은 GPT-4의 강력한 경쟁자가 될 가능성이 있는 AI 모델 제품군인 클로드 3를 공개했습니다. 클로드 3가 뛰어난 성능을 가지고 있음은 분명하지만, 과연 ChatGPT의 자리를 차지할 수 있을까요?
클로드 3란 무엇인가?
클로드 3는 앤트로픽이 클로드 2 AI 모델 시리즈를 대체하기 위해 개발한 세 가지 멀티모달 AI 모델입니다. 클로드 3는 구글의 제미니와 OpenAI의 GPT-4에 대응하는 모델로 볼 수 있습니다. 지능 수준에 따라 하이쿠, 소네트, 그리고 오푸스 세 가지 버전으로 제공되며, 앤트로픽의 첫 번째 멀티모달 AI 모델이자 클로드 2 시리즈에서 큰 진보를 보여줍니다.
만약 클로드 AI 챗봇에 대해 들어본 적이 없다면, 그 이유는 클로드가 ChatGPT만큼 유명하지 않거나 구글 제미니처럼 브랜드 인지도가 높지 않기 때문일 것입니다. 그러나 클로드는 분명 세계에서 가장 발전된 AI 챗봇 중 하나이며, 일부 주요 영역에서는 널리 알려진 ChatGPT를 능가합니다.
클로드 3의 진가를 제대로 이해하기 위해서는 이전 모델들이 가지고 있던 문제점을 살펴볼 필요가 있습니다.
- 클로드의 초기 버전은 AI 안전에 대한 지나친 집착으로 알려져 있었습니다. 예를 들어, 클로드 2의 안전 기능은 지나치게 엄격하여 챗봇이 많은 주제를 피하게 만들었고, 심지어 안전 문제가 없는 주제조차 회피하는 경향이 있었습니다.
- 모델의 컨텍스트 창에도 문제가 있었습니다. AI 모델에 설명을 요청하거나 긴 글을 요약하도록 요청할 때, 모델은 글의 몇 단락만 처리할 수 있었습니다. 컨텍스트 창은 모델이 한 번에 처리할 수 있는 텍스트 양을 의미합니다. 이전 버전의 클로드는 20만 개의 토큰(약 15만 단어)의 컨텍스트 창을 가졌지만, 실제로 그 많은 텍스트를 문제없이 처리하는 데는 어려움이 있었습니다.
- 다중 모드 기능도 부족했습니다. 대부분의 주요 AI 모델은 이미지와 같은 다른 형태의 데이터를 처리하고 응답할 수 있는 멀티모달 기능을 갖추고 있었지만, 클로드는 그렇지 못했습니다.
클로드 3 출시로 인해 이러한 세 가지 문제점이 모두 해결되거나 최소한 개선되었습니다.
클로드 3로 할 수 있는 것
대부분의 최첨단 생성 AI 모델처럼, 클로드 3는 다양한 분야의 질문에 대해 뛰어난 답변을 생성할 수 있습니다. 간단한 수학 문제 해결, 새로운 노래 작곡, 심층적인 기사 초안 작성, 소프트웨어 코드 작성, 또는 방대한 데이터 세트 분석이 필요하다면 클로드 3가 적합한 선택이 될 수 있습니다.
다른 AI 모델들도 이러한 작업을 할 수 있는데, 왜 클로드 3를 사용해야 할까요?
간단히 말해, 클로드 3는 위와 같은 작업을 잘 수행하는 또 다른 AI 모델이 아니라, 현재 인터넷에서 이용할 수 있는 가장 진보된 무료 멀티모달 AI 모델 중 하나이기 때문입니다. 물론 벤치마크 테스트에서 뛰어난 성능을 보여주는 구글의 제미니도 있지만, 앤트로픽은 클로드 3가 여러 작업에서 제미니를 능가한다고 주장합니다. 벤치마크 결과는 항상 주의해야 하지만, 필자가 두 AI 모델을 모두 테스트한 결과, 클로드 3가 몇 가지 주요 사용 사례에서 우위를 점하고 있다는 점은 분명했습니다.
결론적으로, 클로드 3를 사용하면 ChatGPT 프리미엄 구독료를 내지 않고도 제미니 및 GPT-4와 유사한 기능을 (이미지 생성 제외) 사용할 수 있습니다.
클로드 3 vs ChatGPT
AI 모델의 성능을 빠르게 평가하는 방법은 시장에서 가장 강력한 모델인 GPT-4와 얼마나 잘 비교되는지 확인하는 것입니다. 그래서 필자도 두 모델을 모두 테스트했습니다. 앤트로픽의 클로드 3는 GPT-4에 비해 얼마나 뛰어날까요?
클로드 vs ChatGPT: 코딩 능력
프로그래밍 능력 테스트 결과, 클로드 3는 제시된 모든 기본적인 프로그래밍 작업에서 GPT-4와 비슷한 능력을 보였으며, 일부에서는 능가하기도 했습니다. 이전 버전의 클로드는 2023년 9월에 실시한 동일한 테스트에서 눈에 띄게 부족한 성능을 보였던 반면, 클로드 3는 기본 작업에서 GPT-4와 동등하거나 더 나은 성능을 보였습니다. 예를 들어, 간단한 할 일 목록 앱을 만들도록 요청했을 때 클로드 2는 모든 경우에 실패했지만 ChatGPT는 훌륭한 결과물을 만들었습니다.
최신 버전인 클로드 3는 세 가지 테스트 사례 모두에서 훨씬 나은 할 일 목록 앱을 만들었습니다. 아래는 할 일 목록 앱을 만들도록 요청했을 때 GPT-4가 생성한 결과물입니다.
다음은 클로드 3에게 동일한 작업을 요청했을 때 얻은 결과입니다.
두 앱 모두 어느 정도 기능적이었지만, 클로드 3가 더 나은 앱을 만든 것은 분명해 보입니다.
더 복잡한 프로그래밍 테스트를 시도했을 때도 클로드가 더 나은 결과를 보여준 경우가 많았지만, GPT-4가 더 나은 결과를 보인 경우도 있었습니다. 따라서 클로드 3가 프로그래밍 논리에서 더 뛰어나다고 결론 내릴 수는 없지만, 두 모델 사이에 차이가 존재했다면 그 격차가 크게 줄어든 것은 분명합니다.
클로드 vs ChatGPT: 상식 추론
필자는 두 모델 모두 상식 추론 능력을 테스트했습니다. AI 챗봇으로 작업하는 것은 흥미로운 역설을 보여줍니다. AI 챗봇은 복잡한 작업은 쉽게 처리하지만 상식이나 논리가 필요한 기본적인 문제에서는 어려움을 겪는 경우가 많습니다. 그래서 필자는 두 모델 모두에게 상식이 필요한 간단해 보이는 질문들을 던져보았습니다.
다섯 가지 질문 중에서 두 모델 모두 모든 질문에 논리적으로 답변했습니다. 그 중 한 가지 질문은 다음과 같습니다. 만약 화성에서 온 우주선이 두 개로 나뉘어 하나는 브라질 근처 대서양에, 다른 하나는 일본 근처 태평양에 추락한다면, 생존자들을 어디에 묻어야 할까요?
ChatGPT는 GPT-4 없이도 정확하게 대답했습니다. 왜 이러한 질문을 선택했는지 궁금할 수도 있는데, 과거에 챗봇은 이러한 질문에서 매우 실망스러운 결과를 보여주었기 때문입니다. 이제 클로드의 답변을 살펴보겠습니다.
클로드의 답변이 완벽하게 정확하지는 않았지만, 핵심 내용을 파악했다는 것은 알 수 있습니다. 즉, 생존자는 묻으면 안 됩니다. 이전 클로드 2 버전에서는 같은 질문을 했을 때 상식의 함정을 피하지 못했다는 점을 기억해야 합니다.
클로드 vs ChatGPT: 창작 글쓰기
실제로 AI 챗봇이 가장 많이 사용되는 분야 중 하나는 기사, 편지, 노래 가사 등 다양한 형태의 창의적인 텍스트를 생성하는 것입니다. 그래서 필자는 두 모델을 모두 테스트하여 어떤 모델이 인간처럼 들리는 텍스트를 더 잘 생성하는지 확인했습니다.
결과물이 단순히 “정확”하거나 (로봇처럼) 창의적인 것에서 그치는 것이 아니라, 인간이 작성한 것처럼 들려야 한다는 것이 목표였습니다. 필자는 오이 재배와 오이를 통해 백만장자가 되는 것에 대한 랩 가사를 두 모델에게 작성하도록 요청했습니다. 누가 오이에 대한 랩송을 쓰겠어요? 이것이 바로 아이디어입니다. 조금은 특이한 도전이죠!
ChatGPT의 결과는 다음과 같습니다.
다음은 동일한 프롬프트를 사용했을 때 클로드의 응답입니다.
주관적일 수도 있지만, 필자는 이 경우에 클로드가 더 나은 결과를 보여줬다고 생각합니다. 또한 두 도구 모두 서로 다른 주제에 대한 세 개의 기사 초안을 작성하도록 했을 때, 클로드는 세 가지 경우 모두 더 나은 결과를 보여주었습니다. 클로드는 더욱 인간과 유사한 결과를 생성했으며, AI가 생성한 텍스트에서 자주 나타나는 과장, 복잡한 단어 사용, 연결어의 어색한 사용과 같은 패턴을 피했습니다.
클로드 vs ChatGPT: 이미지 인식 능력
이미지 인식 능력을 테스트하기 위해, ChatGPT와 클로드에게 전 세계적으로 유명한 고층 건물의 여러 이미지를 제공했습니다. ChatGPT는 20개의 모든 건물을 정확하게 식별했지만, 클로드 3는 두바이의 마리나 101, 서울의 롯데월드 타워, 쿠알라룸푸르의 메르데카 118 빌딩을 포함하여 몇몇 건물을 식별하지 못했습니다.
ChatGPT와 달리, 클로드는 특히 미국이나 중국에 없는 건물을 식별하는 데 어려움을 겪는 경향을 보였습니다. 그러나 에펠탑이나 엠파이어 스테이트 빌딩과 같이 널리 알려진 건물을 식별하는 데는 문제가 없었습니다.
이 부분에서는 ChatGPT가 확실히 더 뛰어났지만, 클로드 3가 앤트로픽의 첫 번째 멀티모달 AI 모델이라는 점을 고려하면 결과는 나쁘지 않다고 볼 수 있습니다.
구글의 팜 2와 후속 모델인 제미니는 항상 GPT-4를 능가할 잠재력이 있는 모델로 여겨져 왔지만, 필자는 2023년 3월 첫 출시 이후 클로드 AI가 그럴 가능성이 높다고 지속적으로 주장해 왔습니다. 수개월에 걸친 여러 번의 반복 끝에 클로드 3는 필자가 예상했던 것처럼 GPT-4의 강력한 경쟁자로 자리매김했습니다. 챗봇을 자주 사용하지만 클로드 AI 챗봇을 아직 사용해 본 적이 없다면, 생산성을 크게 향상시킬 수 있는 아주 유용한 AI 도구를 놓치고 있는 것입니다.