혹시 최근에 GPT-4 버전의 ChatGPT를 사용하다가 성능이 이상하다고 느끼신 분들 계신가요?
저는 ChatGPT Plus 구독을 해놓고 평소에 자주 사용하고 있는데, 최근 답변의 성능이 떨어지는 듯한 느낌을 받음과 동시에 무료로 사용할 수 있는 다른 대형 언어 모델(LLM)이 많아 구독을 취소해야 하나 싶은 마음이 들고 있었습니다. 그런데, 저만 그렇게 생각한 것이 아니라, GPT-4 버전의 성능이 저하되었다는 주장과 연구가 지속적으로 제기되고 있습니다.
19일(현지시간) 논문 공유 사이트 '아카이브(arXiv)'에 실린 스탠퍼드대학과 UC버클리대학의 연구 논문에 따르면 GPT-4 버전의 답변 능력이 3개월 전보다 떨어졌다는 결론을 내렸습니다.
논문에는 4가지 영역으로 나누어 성능을 비교하였는데, 논문에 실린 성능 비교자료를 한글로 정리하면 아래와 같습니다.
표를 보시면, 한눈에 보더라도 성능의 저하가 있었음을 알 수 있습니다. 이에 대해 연구진은 "LLM 서비스의 결과물은 비교적 짧은 시간 내에 크게 달라질 수 있다. AI 모델 품질에 대한 지속적인 모니터링이 필요하다"라고 언급했습니다.
이와 같은 성능 저하의 주요 원인으로는 '전문가 믹스(MoE, Mixture of Expert)' 방식이 지목되고 있습니다. MoE 방식을 쉽게 풀어서 설명하자면, 거대한 하나의 모델에서 수학, 컴퓨터, 추론 등 각 분야를 담당하는 작은 전문 모델로 쪼개고, 질문에 따라 전문 모델을 연결시키거나 결합해서 답변을 생성하는 방식입니다. 이렇게 하면 거대한 모델을 모두 활용하여 답변을 생성하는 것보다 비용 및 시간 측면에서 리소스를 효율적으로 사용하게 됩니다.
실제로, OpenAI의 기술블로그의 내용 중 'Techniques for training large neural networks'라는 제목의 글을 살펴보면, MoE에 대한 내용도 포함되어 있기 때문에 이러한 내용에 더욱 힘이 실리는 모습입니다.
그렇다면, 이와 같은 성능 저하 논란에 대해서 OpenAI에서는 어떤 입장을 취하고 있을까요?
피터 웰린더 제품 부사장은 트위터를 통해 "GPT-4를 바보로 만들지 않았습니다. 정반대입니다. 새 버전보다 이전 버전보다 더 똑똑합니다."라고 주장했습니다. 또한, 제품의 사용량이 늘어 안 보이던 문제가 나타난 것도 있다며 성능에는 문제가 없다는 입장입니다. (물론 이는 위에서 언급한 논문이 나오기 전의 트윗이라는 점은 감안해야 할 것 같습니다.)
최근 ChatGPT 출시 이후 트래픽이 처음으로 감소했다는 내용도 발표되면서 불같이 타오르던 인기도 서서히 둔화되고 있는 시점에 성능 저하 이슈까지 맞물리면서 첫 위기를 맞고 있는 것 같습니다.
그럼에도 불구하고, 과연 OpenAI가 이 위기를 극복하며 다시 한번 혁신을 이어나갈 수 있을지 기대해 보며, 글을 마치도록 하겠습니다.
'Tech' 카테고리의 다른 글
지속되는 미중 반도체 전쟁, 한국은 문제없나? (0) | 2023.08.30 |
---|---|
AppleGPT, 애플이 하면 다를까? (0) | 2023.08.01 |
ChatGPT, 정말 검색 엔진 시장 판도를 바꿨을까? (0) | 2023.07.16 |
구글의 Anthropic vs MS의 Inflection, 다음 세대 AI 챗봇 대전의 승자는? (0) | 2023.07.05 |
AI 시대, AWS의 1위 자리마저 흔드나? (0) | 2023.06.28 |