[마소캠퍼스 마켓트렌드] 마이크로소프트의 새 LLM 발표

Textbooks Are All You Need

마이크로소프트 연구팀은 코드를 위한 새로운 언어 모델인 Phi-1에 대해 기술한 논문을 발표했습니다. Phi-1는 현대 기준으로 매개변수와 훈련 데이터가 적음에도 불구하고 매우 강력한 결과를 보였습니다. 이 영상에서는 이 논문의 주요 결과를 설명하고, 이 연구가 어떻게 대형 언어 모델 훈련 비용의 혁신적인 변화를 가져올 수 있는지, 그리고 머신 러닝 생태계에 어떤 영향을 미칠 수 있는지에 대해 설명합니다.

이 연구에서는 인간이 작성한 문제로 구성된 OpenAI의 Codex 작업의 일부인 HumanEval 및 Google이 도입한 Python 프로그램 벤치마크인 Mostly Basic Python Programs Benchmark에서 보고된 결과가 눈에 띕니다. 첫 번째로, Phi-1은 HumanEval에서 가장 널리 보고된 벤치마크인 50.6%라는 높은 점수를 받았습니다. 두 번째로는 크기입니다. 16억 개의 매개변수와 1조 개의 훈련 데이터를 가진 Wizard Coder에 비해 Phi-1은 단지 13억 개의 매개변수를 가지고 70억 개의 토큰으로 훈련되었습니다.

Phi-1을 이해하려면 대형 언어 모델의 여정을 이해해야 합니다. 이 논문에서 저자들은 데이터의 품질이라는 새로운 축을 탐구하였으며, 이는 고품질 데이터가 대형 언어 모델의 최신 기술을 향상시키고, 데이터셋 크기와 훈련 연산을 크게 줄일 수 있음을 보여주는 결과를 제공합니다. 이는 언어 학습 모델의 환경 비용을 크게 줄일 수 있는 결과입니다. 저자들에 따르면 “우리는 교과서 수준의 데이터, 즉 GPT 3.5로 생성된 합성 데이터와 웹 소스로부터 추출된 데이터로 사전 훈련을 받았다”고 설명했습니다. 교육적 가치를 분류하기 위해 GPT4를 이용하여 작은 서브셋의 코드를 주석 처리하는 방식으로 데이터를 필터링하는 과정이 흥미롭습니다.

LLM이란 무엇인가?

마소캠퍼스 강의에서 확인하기

chatgpt 고급 활용법 강의 자세히 보기>>

[마소캠퍼스 마켓트렌드] 마이크로소프트의 새 LLM 발표

Textbooks Are All You Need

관련 영상 확인하기