클로드 3은 무엇이고, 그걸로 무엇을 할 수 있나요?

빠른 링크

주요 시사점

  • Anthropic의 Claude 3은 Claude 2에서 상당한 도약을 제공하며 다양한 작업에서 GPT-4보다 성능이 뛰어납니다.
  • Claude 3를 사용하면 구독료 없이 다양한 분야의 다양한 쿼리에 대한 응답을 생성할 수 있습니다.
  • Claude 3는 ChatGPT의 GPT-4와 잘 경쟁하며 프로그래밍 작업, 창의적인 글쓰기, 컨텍스트 창 크기와 같은 영역에서 탁월합니다.

Anthropic은 GPT-4를 뒤흔들 가능성이 있는 AI 모델 제품군인 Claude 3의 출시를 발표했습니다. 뛰어난 잠재력을 가지고 있지만 ChatGPT의 왕좌를 차지할 준비가 되셨나요?

클로드 3은 무엇입니까?

Claude 3는 Anthropic이 Claude 2 AI 모델 시리즈를 대체하기 위해 개발한 세 가지 다중 모드 AI 모델 제품군입니다. Claude 3는 Google의 Gemini와 OpenAI의 GPT-4에 대한 Anthropic의 답변이라고 말할 수 있습니다. 지능이 증가하는 순서에 따라 Haiku, Sonnet 및 Opus의 세 가지 버전으로 출시된 Claude 3는 Anthropic의 첫 번째 다중 모드 AI 모델이며 Claude 2 시리즈에서 상당한 도약을 나타냅니다.

이제 Claude AI 챗봇에 대해 들어본 적이 없다면 이해할 수 있습니다. Claude와 그 기본 모델은 ChatGPT의 슈퍼스타 지위나 Google Gemini의 브랜드 매력을 누리지 못합니다. 그러나 Claude는 의심할 여지 없이 세계에서 가장 발전된 AI 챗봇 중 하나이며 여러 주요 영역에서 널리 알려진 ChatGPT를 능가합니다.

Claude 3를 제대로 감상하려면 이전 모델의 실패를 되돌아보는 것이 중요합니다.

  • Claude의 초기 버전은 AI 안전에 대한 지나치게 열성적인 접근 방식으로 유명했습니다. 예를 들어 클로드 2(Claude 2)의 안전 기능은 너무 엄격해서 챗봇이 너무 많은 주제를 피할 수 있었고, 심지어 명확한 안전 문제가 없는 주제도 피할 수 있었습니다.
  • 모델의 컨텍스트 창에도 문제가 있었습니다. AI 모델에 무언가 설명을 요청하거나 긴 기사를 요약하라고 요청할 때 한 번에 기사의 몇 단락만 읽을 수 있다고 상상해 보세요. 한 번에 고려할 수 있는 텍스트 양의 제한을 “컨텍스트 창”이라고 합니다. 이전 버전의 Claude에는 200,000개의 토큰(150,000단어에 해당) 컨텍스트 창이 함께 제공되었습니다. 그러나 모델은 그 많은 텍스트를 한 번에 잊어버리지 않고 실제로 처리할 수 없었습니다.
  • 다형성 문제도 있었다. 거의 모든 주요 AI 모델은 다중 모드로 전환되었습니다. 즉, 이미지와 같은 다른 형태의 데이터를 처리하고 (단순한 텍스트 입력이 아닌) 해당 데이터에 응답할 수 있습니다. 클로드는 그렇게 할 수 없었습니다.
  • 이제 Claude 3의 출시로 세 가지 문제가 모두 완전히 또는 적어도 부분적으로 해결되었습니다.

    클로드 3으로 무엇을 할 수 있나요?

    대부분의 최첨단 생성 AI 모델과 마찬가지로 Claude 3는 다양한 분야의 다양한 쿼리에 대해 최고의 응답을 생성할 수 있습니다. 빠른 대수학 문제 해결, 새로운 노래 작성, 심층 기사 초안 작성, 소프트웨어용 코드 작성 또는 대규모 데이터 세트 분석이 필요한 경우 Claude 3가 적합합니다.

    하지만 대부분의 AI 모델은 이미 이러한 작업에 능숙한데 Claude 3를 사용하는 이유는 무엇입니까?

    대답은 간단합니다. Claude 3는 이러한 작업에 능숙한 또 다른 AI 모델이 아니라, 인터넷 어디에서나 얻을 수 있는 가장 진보되고 무료로 제공되는 다중 모드 AI 모델입니다. 예, 벤치마크 테스트에서 인상적인 성능을 발휘하는 Google의 GPT-4 킬러로 추정되는 Gemini가 있습니다. 그러나 Anthropic은 Claude 3가 여러 작업에서 인상적인 차이로 이를 능가한다고 주장합니다. 벤치마크 결과는 우리가 종종 가볍게 받아들여야 하는 것이지만, 저는 두 AI 모델을 모두 테스트해 보았는데, 몇 가지 중요한 사용 사례에서 Claude 3 모델의 우월성은 매우 분명했습니다.

    따라서 Claude 3를 사용하면 ChatGPT 프리미엄 구독료 $20를 지불하지 않고도 Gemini 및 GPT-4(마이너스 이미지 생성)로 할 수 있는 대부분의 작업을 수행할 수 있습니다.

    클로드 3 대 ChatGPT

    AI 모델의 성능을 테스트하는 빠른 방법은 해당 모델이 시장 최고인 GPT-4와 얼마나 잘 비교되는지 확인하는 것입니다. 물론 저는 두 모델을 모두 테스트했습니다. Anthropic의 Claude 3는 거대한 GPT-4에 비해 얼마나 좋은가요?

    Claude 대 ChatGPT: 코딩 기술

    일련의 프로그래밍 작업으로 시작하여 Claude 3은 제시된 모든 기본 프로그래밍 작업에서 GPT -4의 능력과 일치했으며 일부에서는 이를 능가했습니다. 기본 사항만 테스트했지만, 2023년 9월 ChatGPT와 Claude 비교에서 테스트했을 때 이전 버전의 Claude는 동일한 작업에서 눈에 띄게 능숙하지 않았습니다. 예를 들어 두 모델 모두 간단한 할 일을 구축하도록 요청했을 때 List 앱의 Claude는 모든 경우에 실패했지만 ChatGPT는 당시 우리가 별 5개짜리 성능이라고 부르는 성능을 내놓았습니다.

    최신 릴리스에서 Claude 3는 우리가 테스트한 세 가지 인스턴스 모두에서 더 나은 성능의 할 일 목록 앱을 생성했습니다. 할 일 목록 앱을 만들라는 메시지가 표시될 때 GPT-4의 결과는 다음과 같습니다.

    그리고 Claude 3이 동일한 작업을 수행하도록 요청했을 때의 결과는 다음과 같습니다.

    두 앱 모두 어느 정도 기능적이었지만 Claude 3가 이 앱에서 더 나은 작업을 수행한 것은 분명합니다.

    더 복잡한 프로그래밍 테스트를 시도한 후 여러 경우에 Claude가 더 나은 모델이었으며 GPT-4도 승리했습니다. Claude 3가 프로그래밍 논리에 더 뛰어나다고 결론적으로 말할 수는 없지만, 두 모델 사이에 큰 격차가 있었다면 그 격차는 거의 확실히 줄어들었을 것입니다.

    Claude 대 ChatGPT: 상식 추론

    나는 상식 추론에 대해 두 모델을 모두 테스트했습니다. AI 챗봇으로 작업하는 것은 흥미로운 역설입니다. AI 챗봇은 복잡한 작업을 쉽게 처리할 수 있지만 상식이나 논리가 필요한 기본적인 문제로 어려움을 겪는 경우가 많습니다. 그래서 우리는 두 모델 모두에 올바르게 대답하기 위해 상식이 필요한 일련의 간단해 보이는 질문을 제시했습니다.

    이러한 5가지 질문 중 두 모델 모두 5가지 모두 논리적으로 답변했습니다. 우리는 두 챗봇 모두에게 다음과 같은 질문을 했습니다. 화성에서 온 우주선이 두 개로 나뉘어 한 부분은 브라질 근처 대서양에, 다른 부분은 일본 근처 태평양에 충돌한다면 생존자를 어디에 묻겠습니까?

    ChatGPT는 GPT-4 없이도 올바르게 응답했습니다. 질문을 선택한 이유가 궁금하다면 역사적으로 챗봇은 이런 종류의 질문 라인에서 비참하게 실패했습니다. 다음은 Claude가 대답할 차례였습니다.

    클로드의 답변이 꼭 정답은 아니었지만, 핵심 정보는 확인할 수 있었다. 생존자를 묻어주지 마세요. 지난번에 Claude 2에게 같은 질문을 했을 때 상식의 함정을 간파할 수 없었다는 점을 기억하는 것이 중요합니다.

    Claude 대 ChatGPT: 문예 창작

    현실 세계에서 AI 챗봇의 가장 인기 있는 사용 사례 중 하나는 기사, 편지, 노래 가사 등 모든 형태의 창의적인 텍스트를 생성하는 것입니다. 그래서 저는 두 모델을 모두 테스트하여 어느 모델이 사람처럼 들리는 텍스트를 더 잘 생성하는지 결정했습니다.

    그 아이디어는 결과가 단지 “정확”하거나 창의적(로봇 방식으로)이 아니라 마치 인간이 쓴 것처럼 들려야 한다는 것입니다. 나는 오이 재배와 그들로부터 백만장자가 되는 것에 관한 랩 노래의 가사를 작곡하는 일을 두 모델 모두에게 맡겼습니다. 오이에 관한 랩송을 쓰는 사람은 누구인가요? 그게 바로 아이디어입니다. 뭔가 도전적인 일이죠!

    ChatGPT의 내용은 다음과 같습니다.

    그리고 여기에 동일한 프롬프트를 사용한 Claude의 응답이 있습니다.

    주관적일 수도 있지만 여기서는 Claude가 더 나은 선택인 것 같습니다. 두 도구 모두 서로 다른 주제에 관한 세 가지 기사 초안을 작성하는 작업을 맡았을 때 Claude는 세 가지 경우 모두에서 더 나은 옵션을 제공했습니다. 이는 보다 인간과 유사한 결과를 생성했으며 과장, 복잡한 단어 사용, 연결 단어의 산발적인 사용과 같이 AI 생성 텍스트와 일반적으로 관련된 패턴을 피했습니다.

    Claude 대 ChatGPT: 이미지 인식 능력

    이미지 인식 능력을 테스트하기 위해 우리는 ChatGPT와 Claude에게 전 세계적으로 인기 있는 고층 빌딩의 여러 이미지를 제공했습니다. ChatGPT는 20개 건물을 모두 정확하게 식별했지만 Claude 3는 상당히 인기 있는 두바이의 마리나 101, 서울의 롯데월드타워, 말레이시아 쿠알라룸푸르의 메르데카 118 빌딩을 포함하여 일부를 식별하지 못했습니다.

    ChatGPT와 달리 Claude는 다른 건물 중에서 건물을 식별하는 데 어려움을 겪었고 건물이 미국이나 중국에 있지 않으면 실패율이 높아졌습니다. 그러나 에펠탑이나 엠파이어 스테이트 빌딩의 난독화된 버전을 식별하는 데는 문제가 없었습니다.

    이 부분에서는 ChatGPT가 분명히 더 나았지만 Claude 3가 Anthropic의 다중 모드 AI 모델 구축에 대한 첫 번째 시도라는 점을 고려하면 나쁘지 않은 결과였습니다.

    Google의 Palm 2 및 후속 Gemini와 같은 유명 모델은 항상 잠재적인 GPT-4 킬러로 선전되어 왔지만, 우리는 잘 알려지지 않은 Claude AI가 2023년 3월 최초 출시 이후 그러한 영예를 누릴 가능성이 높다고 일관되게 유지해 왔습니다. 몇 달에 걸친 여러 번의 반복 끝에 Claude 3는 우리가 예상했던 GPT-4 킬러와 똑같은 모습을 보였습니다. 챗봇을 많이 사용하지만 Claude AI 챗봇을 사용해 본 적이 없다면 생산성을 극대화할 수 있는 매우 영향력 있는 AI 도구를 놓치고 있는 것입니다.