본문 바로가기
Tech

ChatGPT가 촉발한 '더 크게' 전쟁, 이제는 '더 작게' 전쟁의 시작

by Lee Jaehoon 2023. 6. 10.
반응형
'더 크게' 전쟁의 서막

 

ChatGPT로 대표되는 LLM(Lagre Language Models), 이름에서 알 수 있듯이 대량의 언어 파라미터를 학습 시킨 모델을 말합니다. 지금까지는 파라미터 수가 많으면 많을수록 성능이 높아지는 모습을 보여주었기에 거대 빅테크 기업들은 '더 많이, 더 크게 경쟁'을 벌여왔습니다. 그 결과 모델의 크기가 굉장히 비대해져 갔습니다.

 

 

 

그러나 모델의 크기가 비대해질수록 개발 및 운용 비용도 같이 증가하였고, 딥러닝의 복잡성으로 인해 모델을 이해하는 것이 점점 더 어려워졌습니다. 기업들도 이에 대해 인지하고 있었으나 높은 성능이 시장 점유율을 확보하는 데 중요했으므로, 비용을 쏟아부을 수밖에 없었습니다.

 

아이러니하게도 이런 경쟁 속에서 이득을 보는 것은 NVIDIA 뿐이었습니다. 경쟁이 과열되자 조금 더 효율적인 학습을 위한 AI칩의 수요가 늘어났고, AI칩 시장을 독점하고 있는 NVIDIA가 특수를 누린 것입니다.

 

 

'더 크게 경쟁'은 끝, 이제는 '더 작게 경쟁'

 

과열되었던 '더 크게 경쟁'은 점차 사그라들고 있는 모습입니다. 대표적으로 구글은 'PaLM2'를 발표하면서 파라미터 수에 대해 정확하게 언급하진 않았지만, 이전 모델인 'PaLM' 모델에 비해 훨씬 적은 양의 파라미터를 학습하면서도 더 높은 성능을 구현한 것으로 알려졌습니다.1)

 

이런 움직임은 구글 외에도 다양한 곳에서 포착되고 있습니다.

 

우선, 앞선 글에서 언급했었던 메타의 '라마(LLaMA)'을 기반으로 추가 학습된 '알파카(Alpack)'와 '비쿠냐(Vicuna)'는 약간의 Fine-Tuning 작업을 통해 모델의 크기를 줄이면서도 성능 또한 개선한 모습을 확인할 수 있었습니다.2)

 

 

출처 : BabyLM

 

또한 13세 이하의 어린이가 평생 들었던 평균 단어의 양으로 최대한 높은 성능을 내는 'BabyLM Challenge'가 진행 중이기도 합니다. 이 챌린지는 CMCL과 CoNLL이 후원하며, 과제를 통해 단순히 많은 데이터를 학습시켜 성능을 높이는 것이 아닌, 적은 단어로도 학습을 최적화하는 방안을 찾고자 하는데 의의가 있습니다.3)

 

1) TechCrunch Report(https://techcrunch.com/2023/05/10/googles-palm-2-paper-shows-that-text-generating-ai-still-has-a-long-way-to-go/)

2) 글 보러 가기 : (https://contents.premium.naver.com/1080/tech1080/contents/230529210039838uw)

3) BabyLM Challenge (https://babylm.github.io/)

 

 

ChatGPT의 아버지 샘 알트만도 인정

 

LLM 전쟁의 서막을 열었던 OpenAI의 CEO 샘 알트만 역시 이 흐름에 동조했습니다.

 

2023년 4월 14일 MIT에서 열린 Imagination in Action 인터뷰 중 "I think we’re at the end of the era where it’s gonna be these giant models, and we’ll make them better in other ways,”라고 언급한 바 있습니다.

 

간단하게 해석하자면, "거대한 모델을 만드는 시대는 이제 끝났다고 생각하며, 다른 방식으로 더 나은 모델을 만들 것" 정도가 될 것 같습니다.

 

 
OpenAI CEO Sam Altman(출처 : Gettyimages)

 

이 인터뷰를 통해 공식적으로 LLM 전쟁의 새로운 패러다임을 선언한 것이며, 앞서 BabyML 챌린지를 통해 확산된 '더 작게 전쟁'의 패러다임이 비단 연구단에서만 이루어지는 것이 아닌 상업 기업에서도 이어진 모습입니다. 

 

 

다시 시작되는 전쟁

 

LLM 경쟁은 사실상 기업의 상징성과 영향력을 보여주기 위한 경쟁이었다고 볼 수 있습니다. 이렇게 개발된 LLM은 기업용으로 활용하기에는 많은 제약이 따르기 때문에 더 넓은 활용 범위를 위해서는 결국 모델의 경량화가 필수적입니다.

 

이를 위한 새로운 경쟁은 이미 시작되었으며, 이번 경쟁에서 승리하는 기업은 언어 모델 분야의 진정한 승자가 될 것으로 보입니다. 과연 이번 경쟁에서도 ChatGPT가 승자가 될지, 아니면 제3의 기업이 승자가 될지 지켜보는 재미가 있을 것 같습니다.

반응형