비전 트랜스포머는 자연어 처리와 컴퓨터 비전에서 새로운 가능성을 제시합니다. 트랜스포머 아키텍처는 ‘Attention is all you need’라는 논문에서 처음 소개되었습니다. 비전 트랜스포머는 이 트랜스포머 아키텍처의 본질을 그대로 가져와 이미지 분석에 적용합니다. 이미지를 픽셀의 연속으로 처리하고 각각의 픽셀을 트랜스포머 모델이 처리할 수 있는 벡터로 임베딩하여 이미지의 장거리 종속성을 이해하고, 각 단어의 상호작용에서 문장의 의미를 이해하는 것과 유사한 방식으로 이미지를 이해할 수 있습니다. 비전 트랜스포머의 성능은 기존의 합성곱 신경망의 성능을 능가하며, 오디오 분류 분야에서도 이러한 접근법이 혁신적인 결과를 가져옵니다. 그러나 이 기술은 대규모 데이터 세트가 필요하고, 이를 훈련시키기 위해 상당한 계산 리소스가 필요하다는 단점이 있습니다. 하지만 미래의 비전 트랜스포머는 이미 나타나고 있는 최적화 경향을 따라갈 것입니다.