Chatbot Arena를 사용하여 최고의 LLM을 비교하는 방법

온라인에서 수많은 챗봇을 접할 수 있기 때문에, 자신의 목적에 부합하는 최적의 챗봇을 고르는 것은 결코 쉽지 않습니다. 여러 챗봇을 일일이 비교하는 방법도 있지만, 이는 상당한 시간과 노력을 요구합니다.

더욱 효율적이고 간편한 방법은 ‘챗봇 아레나’를 활용하는 것입니다. 이 플랫폼은 인기 있는 챗봇을 구동하는 다양한 대규모 언어 모델(LLM)을 비교 분석할 수 있는 환경을 제공합니다. 여러 모델을 비교하는 다양한 방식을 지원하며, 이에 대한 자세한 내용은 아래에서 설명하겠습니다.

챗봇 아레나란 무엇인가?

LMSYS Org에서 개발한 챗봇 아레나는 다양한 LLM의 성능을 평가하는 벤치마킹 플랫폼입니다. Elo 레이팅 시스템을 사용하여 각 모델의 순위를 매깁니다.

챗봇 아레나는 사용자가 다양한 방식으로 LLM을 비교하고 평가할 수 있도록 지원합니다. 사용자 피드백을 기반으로, 플랫폼은 공개 리더보드에 다양한 LLM의 순위를 업데이트합니다. 이 프로젝트는 ChatGPT의 오픈 소스 대안을 제공하는 HuggingFace의 지원을 받고 있습니다.

챗봇 아레나를 활용한 익명 LLM 비교 방법

챗봇 아레나의 ‘대결 모드’를 사용하면 LLM을 익명으로 비교할 수 있습니다. 예를 들어, ChatGPT(GPT 3.5)와 Claude를 비교할 수 있습니다. 이 기능은 챗봇 아레나가 두 가지 언어 모델을 선택하고, 모델 이름을 공개하지 않은 채로 비교할 수 있게 해줍니다.

사용자가 첫 번째 프롬프트를 입력하면, 챗봇 아레나는 두 모델로부터 각각 응답을 받아 나란히 표시합니다. 사용자는 응답을 재생성하거나, 대화 기록을 삭제하고 새로운 대화를 시작할 수 있습니다. 확실한 승자가 결정될 때까지 질문을 계속할 수 있습니다.

그런 다음, 사용자는 모델 A가 더 나은지, 아니면 모델 B가 더 나은지 선택할 수 있습니다. 승자를 선택하면, 챗봇 아레나는 비로소 두 챗봇의 이름을 모두 공개합니다. 이 모드는 사용자의 결정이 모델에 대한 선입견이나 인기에 영향을 받지 않도록 해주기 때문에 매우 효과적입니다. 챗봇 아레나에서는 온도, Top P, 최대 출력 토큰과 같은 매개변수를 조정하는 것도 가능합니다.

챗봇 아레나를 활용한 특정 LLM 비교 방법

특정 LLM 두 가지를 비교하고 싶다면, 챗봇 아레나의 ‘병렬 모드’로 전환할 수 있습니다. 이 모드는 사용자가 직접 LLM을 선택할 수 있다는 점을 제외하면, 대결 모드와 거의 동일하게 작동합니다. 여기에서도 매개변수를 조정하고, 응답을 재생성하고, 대화 기록을 삭제하며, 최종적으로 승자를 선택할 수 있습니다.

다만, 이 모드에서 선택할 수 있는 LLM의 종류는 제한적입니다. Llama 2, Vicuna 및 ChatGLM의 다양한 버전을 선택할 수 있습니다. GPT-4, GPT-3.5, Claude 1, Claude 2와 같은 인기 있는 LLM은 현재 이 모드에서 이용할 수 없지만, 챗봇 아레나 측에서는 추가할 계획을 가지고 있습니다.

챗봇 아레나를 이용한 LLM 비교 요약

만약 귀하의 필요에 적합한 챗봇을 찾고 있거나, 다양한 LLM을 테스트하고 싶다면, 챗봇 아레나는 매우 유용한 플랫폼입니다.

여러 언어 모델을 한눈에 비교할 수 있는 간편한 방법을 제공하며, 사용자 피드백에 기반하여 리더보드를 유지하기 때문에, 직접 테스트하지 않고도 다양한 모델의 순위를 쉽게 확인할 수 있습니다.