마이크로소프트 연구팀은 코드를 위한 새로운 언어 모델인 Phi-1에 대해 기술한 논문을 발표했습니다. Phi-1는 현대 기준으로 매개변수와 훈련 데이터가 적음에도 불구하고 매우 강력한 결과를 보였습니다. 이 영상에서는 이 논문의 주요 결과를 설명하고, 이 연구가 어떻게 대형 언어 모델 훈련 비용의 혁신적인 변화를 가져올 수 있는지, 그리고 머신 러닝 생태계에 어떤 영향을 미칠 수 있는지에 대해 설명합니다.
이 연구에서는 인간이 작성한 문제로 구성된 OpenAI의 Codex 작업의 일부인 HumanEval 및 Google이 도입한 Python 프로그램 벤치마크인 Mostly Basic Python Programs Benchmark에서 보고된 결과가 눈에 띕니다. 첫 번째로, Phi-1은 HumanEval에서 가장 널리 보고된 벤치마크인 50.6%라는 높은 점수를 받았습니다. 두 번째로는 크기입니다. 16억 개의 매개변수와 1조 개의 훈련 데이터를 가진 Wizard Coder에 비해 Phi-1은 단지 13억 개의 매개변수를 가지고 70억 개의 토큰으로 훈련되었습니다.
Phi-1을 이해하려면 대형 언어 모델의 여정을 이해해야 합니다. 이 논문에서 저자들은 데이터의 품질이라는 새로운 축을 탐구하였으며, 이는 고품질 데이터가 대형 언어 모델의 최신 기술을 향상시키고, 데이터셋 크기와 훈련 연산을 크게 줄일 수 있음을 보여주는 결과를 제공합니다. 이는 언어 학습 모델의 환경 비용을 크게 줄일 수 있는 결과입니다. 저자들에 따르면 “우리는 교과서 수준의 데이터, 즉 GPT 3.5로 생성된 합성 데이터와 웹 소스로부터 추출된 데이터로 사전 훈련을 받았다”고 설명했습니다. 교육적 가치를 분류하기 위해 GPT4를 이용하여 작은 서브셋의 코드를 주석 처리하는 방식으로 데이터를 필터링하는 과정이 흥미롭습니다.