언어 모델은 일련의 토큰을 연속적으로 생성하여 응답을 생성합니다. (K+1)번째 토큰은 레이어당 K개의 숨겨진 벡터를 조작한 결과이며, 이전 토큰당 하나의 벡터를 조작한 결과입니다. 대신 모델이 (K+1)번째 토큰을 출력하기 전에 K+10개의 숨겨진 벡터를 조작하도록 한다면 어떨까요?
이 아이디어는 (학습 가능한) 일시 정지 토큰을 입력 접두사에 추가하여 언어 모델에 대한 훈련과 추론을 수행함으로써 작동합니다. 그런 다음 마지막 일시 중지 토큰이 표시될 때까지 모델의 출력 추출을 지연시켜 모델이 응답을 하기 전에 추가 계산을 처리할 수 있도록 합니다. C4에서 인과적 사전 학습을 통해 1B 및 1억 3천만 개의 매개변수로 구성된 디코더 전용 모델과 추론, 질문 답변, 일반적인 이해 및 사실 회상을 포함하는 다운스트림 작업에서 일시 중지 학습을 경험적으로 평가했습니다.
주요 결과는 모델을 사전 학습하고 지연을 통해 미세 조정할 때 추론 시간 지연이 개선된다는 것입니다. 1B 모델의 경우, 9개 과제 중 8개 과제에서 개선이 있었으며, 가장 눈에 띄는 것은 SQuAD의 QA 과제에서 EM 점수가 18%, CommonSenseQA에서 8%, GSM8k의 추론 과제에서 1%의 정확도가 향상되었다는 점입니다. 이번 연구는 지연된 다음 토큰 예측을 광범위하게 적용할 수 있는 새로운 패러다임으로 만들기 위한 다양한 개념적, 실용적 미래 연구 질문을 제기합니다.