자, ChatGPT가 출시된 지 1년이 넘었습니다. 이 전환점 이전에 연구 커뮤니티와 업계 리더들은 이미 일련의 안정적인 확산 결과 및 응용 프로그램을 통해 생성 AI, 특히 컴퓨터 비전 영역에서 적극적으로 작업하고 있었습니다. 간략하게 정리하자면, 2022년은 안정적인 확산의 해, 2023년은 LLM(Large Language Models)의 해라고 할 수 있습니다.
2023년 초에는 ChatGPT가 광범위한 채택과 혁신을 주도하면서 LLM이 우세해졌습니다. 올해에는 LLM이 다양한 분야에 널리 보급되어 이론적 연구와 실제 산업 응용 사이의 격차를 효과적으로 메웠습니다. 2023년 LLM 환경을 형성한 주요 이정표와 추세를 살펴보고 이것이 기술과의 상호 작용에 어떻게 혁명을 일으켰는지에 대한 통찰력을 얻으십시오.
오픈소스 LLM의 해
2023년은 오픈소스 대형 언어 모델(LLM)에 있어 놀라운 해였습니다. 가장 중요한 릴리스는 Meta의 LLaMa 시리즈로, 이후 빈번한 릴리스의 선례를 세웠으며, 매달, 매주, 때로는 매일 새로운 모델이 등장했습니다. Meta, EleutherAI, mosaicML, TIIUAE 및 StabilityAI와 같은 주요 플레이어는 AI 커뮤니티 내의 다양한 요구 사항을 충족하기 위해 공개 데이터 세트에서 훈련된 다양한 모델을 도입했습니다. 이러한 모델의 대부분은 디코더 전용 Transformer였으며 ChatGPT가 확립한 추세를 이어갔습니다. 올해 출시된 가장 주목할만한 모델은 다음과 같습니다.
메타별 LLaMa: LLaMa 계열은 다양한 크기의 모델을 특징으로 하며, 가장 큰 모델은 1조 4천억 개의 토큰으로 훈련된 650억 개의 매개변수를 자랑합니다. 특히, 작은 모델, 특히 1조 개의 토큰으로 훈련된 130억 개의 매개변수를 가진 모델은 더 많은 데이터에 대해 연장된 훈련 기간을 활용하여 일부 벤치마크에서 더 큰 모델을 능가하는 뛰어난 성능을 보여주었습니다. 13B LLaMa 모델은 대부분의 벤치마크에서 GPT-3를 능가했으며, 가장 큰 모델은 출시와 동시에 새로운 최첨단 성능 벤치마크를 설정했습니다.Eleuther AI의 Pythia: Pythia는 공개적으로 접근 가능하고 투명하게 훈련된 LLM에 대한 통제된 과학 연구를 용이하게 하도록 설계된 부분적으로 훈련된 154개의 체크포인트가 있는 16개 모델 제품군으로 구성됩니다. 이 시리즈는 LLM 교육을 위한 자세한 논문과 포괄적인 코드베이스를 제공하여 연구자에게 큰 도움이 됩니다.모자이크ML의 MPT 그리고TIIUAE의 Falcon 시리즈: 둘 다 1T에서 1.5T 토큰까지 다양한 데이터 소스에 대해 교육을 받았으며 7B 및 30B 매개변수를 사용하여 버전을 생성했습니다. 특히, 올해 말 TIIUAE는 현재까지 가장 큰 오픈 소스 모델인 180B 모델을 출시했습니다.미스트랄 ,피 그리고범고래 : 이 모델은 2023년의 또 다른 추세를 강조합니다. 제한된 하드웨어 및 예산 제약에 적합한 더 작고 효율적인 모델을 훈련하는 데 중점을 두고 AI 모델 개발의 접근성과 실용성을 향한 중요한 변화를 의미합니다.
작고 효율적인 모델
2023년에도 우리는 작고 효율적인 모델들이 많이 출시되는 것을 목격했습니다. 이러한 추세의 주된 이유는 대부분의 연구 그룹에서 대규모 모델을 훈련하는 데 드는 비용이 엄청나게 높기 때문입니다. 또한 대형 모델은 값비싼 교육 및 배포 비용과 상당한 메모리 및 컴퓨팅 성능 요구 사항으로 인해 많은 실제 응용 프로그램에 적합하지 않은 경우가 많습니다. 따라서 작고 효율적인 모델이 올해의 주요 트렌드 중 하나로 등장했습니다. 앞서 언급했듯이 Mistral과 Orca 시리즈는 이러한 추세의 핵심 플레이어였습니다. Mistral은 대부분의 벤치마크에서 대형 모델보다 성능이 뛰어난 7B 모델로 커뮤니티를 놀라게 했습니다. 반면 Phi 시리즈는 매개변수가 1.3B~2.7B에 불과하여 훨씬 작지만 인상적인 성능을 제공합니다.
또 다른 혁신적인 접근 방식은
작고 효율적인 모델의 성공은 주로 데이터 품질과 빠른 주의 요령에 달려 있습니다. Mistral은 훈련 데이터의 구체적인 내용을 공개하지 않았지만, 다양한 연구와 모델을 통해 효과적인 모델을 훈련하려면 데이터 품질이 중요하다는 사실이 밝혀졌습니다. 올해 가장 주목할만한 결과 중 하나는
낮은 순위 적응 조정
알았어, 얘기 좀 하자
LoRA는 기본적으로 사전 훈련된 모델 가중치를 동결하고 훈련 가능한 레이어( 순위 분해 행렬 )를 주입합니다. 이러한 행렬은 작지만 모델 동작에 필요한 적응을 근사화할 수 있으므로 원래 모델 지식의 무결성을 유지하면서 효율적인 미세 조정이 가능합니다. LoRA의 가장 자주 사용되는 변형 중 하나는 다음과 같습니다.
전문가의 혼합
그만큼
작년에 출시된 가장 주목할만한 MoE 모델 중 하나는
언어에서 일반 기초 모델까지
LLM은 일반 기초 모델로 발전하여 언어 처리 이상의 기능을 확장하고 있습니다. 이러한 전환은 텍스트뿐만 아니라 코드, 시각적 콘텐츠, 오디오 등을 이해하고 생성할 수 있는 모델로의 전환을 의미합니다. 작년에 우리는 다음과 같은 모델이 출시되는 것을 보았습니다.
도구를 갖춘 에이전트
다양한 도구 및 플랫폼과 LLM의 통합으로 일상적인 사용에서 AI에 대한 접근성이 높아지고 실용적이게 되었습니다. 이러한 도구를 갖춘 에이전트는 코딩 지원부터 창의적인 글쓰기에 이르기까지 특정 작업에 맞게 맞춤화되어 AI가 많은 전문 워크플로우에서 없어서는 안될 부분이 되었습니다. 이러한 발전은 LLM의 추론 및 실행 능력 덕분에 가능했습니다. 이러한 유형의 기능을 종종 함수 호출이라고 합니다.
OpenAI는 여전히 업계 환경을 지배하고 있습니다.
OpenAI는 연구 및 응용 측면에서 선두를 유지하면서 계속해서 업계 환경을 지배하고 있습니다. GPT-4와 새로운
결론
2023년은 LLM(대형 언어 모델) 분야에서 상당한 성장과 혁신이 이루어진 해였습니다. 오픈 소스 모델을 통한 AI의 민주화부터 보다 효율적이고 전문화된 시스템의 개발에 이르기까지 이러한 발전은 기술적 업적일 뿐만 아니라 AI를 다양한 영역에서 보다 쉽게 접근하고 적용할 수 있게 만드는 단계입니다. 앞으로도 이러한 기술이 산업을 변화시키고 인간의 능력을 향상시킬 수 있는 잠재력은 계속해서 흥미로운 전망이 될 것입니다. 2024년에는 Meta가 LLaMA-3 훈련 계획을 발표하고 이를 오픈 소스화할 계획을 세우는 등 훨씬 더 놀라운 이정표를 기대합니다. 업계에서도 구글 같은 거대 기업이나 앤트로픽 같은 스타트업이 오픈AI를 능가할 수 있을지 주목된다.
더 많은 기사를 보려면 내 개인 블로그를 방문하고 구독하세요.