저는 앞서 "AI가 가야할 길을 제시한다. 'Anthropic' 누적 투자액 $1.5B(약 2조 원) 달성" 이라는 글을 연재했습니다. 이 글에서 저는 'Anthropic'이라는 기업이 대형 언어 모델(Large Language Model, 이하 LLM)을 활용한 챗봇 'Claude'를 출시하고, 이를 통해 '안전하고 윤리적인 AI를 개발하는 것'을 궁극적인 목표로 세웠다는 내용을 다루었습니다.
Claude가 ChatGPT보다 뛰어나다?
관련하여 해당 내용에 지속적으로 관심을 가지고 동향을 살피던 중 흥미로운 기사를 발견했습니다.

미국의 Search Engine Journal(SEJ) 에서 나온 "Claude Instant With 100k Tokens Outperforms Leading Generative AI Chatbots" 이라는 기사입니다. 해석하자면, "토큰 10만 개의 클로드가 생성형 AI 챗봇 중 가장 뛰어나다" 정도로 해석할 수 있을 것 같습니다.
실험결과
이 기사에서는 Claude와 다른 주요 챗봇에 대한 테스트 결과를 제공하고 있는데, 요약하자면 아래와 같습니다.
1. 테스트 대상 (기업 - 제품)
1) Anthropic - Claude
2) OpenAI - ChatGPT
3) Microsoft - BingAI
4) Google - Bard
2. 실험 항목 및 방법
1) 단어 목록 편집
26개 항목(약 1,850단어/12,500자)의 목록이 각 AI에게 입력으로 제공되었고, 목록에 대한 설명을 바꾸고 편집하라는 메시지가 표시되었습니다. 그런 다음 각 AI는 환각 없이 작업을 완료하는 능력(즉, 원래 입력에 없는 정보를 생성하는 능력)과 완료 속도를 기준으로 평가되었습니다.
2) 긴 텍스트 요약하기
의회가 소셜 플랫폼으로부터 미국 시민을 보호할 수 있는 방법에 대한 청문회에 대한 틱톡의 답변을 기록한 PDF에서 복사한 긴 텍스트(23,508단어/125,104자)를 각 AI에게 제공했습니다. AI에게 텍스트를 요약하라는 메시지가 표시되었습니다. 요약의 완전성과 정확성을 기준으로 각 AI의 성능을 평가했습니다.
3) PHP 코드 디버그
14,787자로 구성된 PHP 파일이 각 AI에게 주어졌고 코드를 디버그 하라는 메시지가 표시되었습니다. 각 AI의 성능은 코드의 잠재적 오류를 식별하고 수정 사항을 제안하는 능력에 따라 평가되었습니다.
각 실험에 대한 결괏값을 정리하면 아래와 같습니다.
(정확한 결과를 확인하고 싶으면 해당 기사 링크를 참조해 주시기 바랍니다 : 기사링크)
이 기사에서는 Claude와 다른 주요 챗봇에 대한 테스트 결과를 제공하고 있는데, 요약하자면 아래와 같습니다.
1. 테스트 대상 (기업 - 제품)
1) Anthropic - Claude
2) OpenAI - ChatGPT
3) Microsoft - BingAI
4) Google - Bard
2. 실험 항목 및 방법
1) 단어 목록 편집
26개 항목(약 1,850단어/12,500자)의 목록이 각 AI에게 입력으로 제공되었고, 목록에 대한 설명을 바꾸고 편집하라는 메시지가 표시되었습니다. 그런 다음 각 AI는 환각 없이 작업을 완료하는 능력(즉, 원래 입력에 없는 정보를 생성하는 능력)과 완료 속도를 기준으로 평가되었습니다.
2) 긴 텍스트 요약하기
의회가 소셜 플랫폼으로부터 미국 시민을 보호할 수 있는 방법에 대한 청문회에 대한 틱톡의 답변을 기록한 PDF에서 복사한 긴 텍스트(23,508단어/125,104자)를 각 AI에게 제공했습니다. AI에게 텍스트를 요약하라는 메시지가 표시되었습니다. 요약의 완전성과 정확성을 기준으로 각 AI의 성능을 평가했습니다.
3) PHP 코드 디버그
14,787자로 구성된 PHP 파일이 각 AI에게 주어졌고 코드를 디버그 하라는 메시지가 표시되었습니다. 각 AI의 성능은 코드의 잠재적 오류를 식별하고 수정 사항을 제안하는 능력에 따라 평가되었습니다.
각 실험에 대한 결괏값을 정리하면 아래와 같습니다.
(정확한 결과를 확인하고 싶으면 해당 기사 링크를 참조해 주시기 바랍니다 : 기사링크)
결론
한눈에 보기에도 'Claude'가 전반적으로 높은 성능을 보여주고 있는 것을 확인할 수 있습니다.
특히, 'Claude'는 100,000개의 토큰, 즉 약 75,000단어의 입력을 받을 수 있어, 긴 내용의 책, 코드, 문서, 대본 등을 분석하고 작업 수행에 유리합니다. 이는 OpenAI의 GPT-4 모델이 제공하는 32,000 토큰(약 25,000 단어), Google Bard의 10,000 문자, Bing AI의 40,400 문자(약 6,000 단어)에 비해 압도적으로 많은 양입니다.

또한 기업이 지향하는 목적에 맞게 할루시네이션(환각) 증상도 가장 적은 모습을 보였으며, 처리 속도 또한 가장 빠른 모습입니다.
마지막으로 가격 또한 $19.99로 ChatGPT Plus와 비슷한 수준이기 때문에 향후 생성형 AI 챗봇 시장에서 충분한 경쟁력을 보여줄 수 있을 것으로 보입니다.
다만, 아직까지 ChatGPT처럼 대중이 쉽게 사용할 수 있는 구조는 아닙니다.
사용하기 위해서는 홈페이지에서 접근(Access) 신청을 한 후 승인이 나야 활용할 수 있습니다.
Slack에 Add하여 테스트해 볼 수도 있으나, 제가 직접 해보니 제대로 동작을 하지 않았습니다.
정리하자면,
Claude가 아직까지 대중화가 완벽하게 이루어지지는 않았지만, 이번 성능 비교 결과를 통해 기존 제품에 전혀 밀리지 않는 모습으로 보여주었고, 이를 통해 구글의 눈이 틀리지 않았음을 증명했습니다. (구글은 Anthropic의 주요 투자 기업입니다.)
Claude의 선전으로 LLM 시장의 건강한 경쟁이 이어지기를 바라며, 그로 인해 저렴한 가격으로 각 사용자의 특성과 용도에 맞게 특화된 생성형 AI 챗봇을 자유롭게 선택하여 활용하는 때가 찾아올 것으로 기대해 보며 글을 마치겠습니다.
'Business' 카테고리의 다른 글
AI, 우리의 일상으로 : 한국 스타트업이 보여주는 B2C 시장의 가능성 (0) | 2023.06.28 |
---|---|
'ChatGPT' 숫자로 알아보는 6개월간의 여정 (0) | 2023.06.28 |
애플이 애플했다. (0) | 2023.06.14 |
AI가 가야 할 길을 제시한다. 'Anthropic' 누적 투자액 $1.5B(한화 약 2조 원) 달성 (0) | 2023.06.10 |
ChatGPT의 아버지 샘 알트만, 다음은 블록체인? (0) | 2023.06.10 |