관리자 패널에서 메뉴를 설정하세요

[마소캠퍼스 마켓트렌드] 최신 이미지 및 영상 인식 AI 모델 Phi-3 Vision | Microsoft Research

그림, 영상을 넘어 글씨, 표도 인식

마이크로소프트 리서치 포럼에서 J 갈은 비용 효율적이고 성능이 뛰어난 오픈 소스 비전-언어 모델인 Phi-3 Vision을 소개했습니다. 이 모델은 다른 대형 모델보다 작은 크기에도 불구하고 탁월한 이해 및 추론 능력을 발휘하며, 테이블이나 차트와 같은 비자연적 이미지 도메인에서도 뛰어난 성능을 보입니다. Phi-3 Vision은 복잡한 이미지-텍스트 추론이나 구조화된 보고서 생성과 같은 작업을 효율적으로 처리할 수 있습니다.

이 모델은 CLIP 기반의 비전 인코더와 트랜스포머 기반 언어 디코더를 통해 긴 텍스트 문맥을 처리하고, 깊이 있는 이해가 필요한 작업을 수행합니다. Phi-3 Vision은 특히 과학 및 다이어그램 관련 작업에서 GPT-4와 같은 더 큰 모델을 능가합니다. 마이크로소프트는 고성능과 비용 효율성을 균형있게 유지하여 AI를 전 세계적으로 확산시키는 것을 목표로 하고 있습니다. Phi-3 Vision의 모델 가중치는 오픈 소스로 공개되어 AI 커뮤니티가 더욱 효율적이고 저렴한 시스템을 구축할 수 있도록 돕고 있습니다.

#AIInnovation 인공지능혁신 #VisionLanguageModel 비전언어모델 #OpenSourceAI 오픈소스인공지능 #CostEffectiveAI 비용효율적AI #MicrosoftResearch 마이크로소프트리서치 #TransformerModel 트랜스포머모델 #AIforEveryone 모두를위한AI #Phi3Vision Phi3비전 #AIinRobotics 로봇공학에서의AI #FutureOfAI AI의미래

 

microsoft의 또다른 걸작 체험하기?

마소캠퍼스 강의에서 확인하기

m365 copilot 과정 보러가기>>

관련 영상 확인하기

 


원문 URL : https://www.youtube.com/watch?v=jhWAm5zKByU
원문 제목 : Huge AI NEWS : Keynote: Phi-3-Vision: A highly capable and “small” language vision model

2024/09/05

머니매그넷(주) Since 2013
마소캠퍼스 ICT 원격평생교육원
- 온라인|원격평생교육시설 등록번호
: 제 원-119호

마소캠퍼스 DT평생교육원
- 오프라인|지식·인력개발사업 평생교육시설 등록번호
: 제 지-137호

강남캠퍼스: 서울시 서초구 강남대로 53길 8, 10-31호(서초동, 스타크 강남빌딩) 10-31, Gangnamdae-ro 53Gil 8, Seocho-gu, Seoul (06621)
송도교육연구원: 인천광역시 연수구 송도과학로 32 송도테크노파크IT센터 S동 2003호, 20F, Technopark IT center, Songdogwahak-ro 32, Yeonsu-gu, Incheon (21984)

전화 02-6080-2022, 팩스 02-6455-2021, 이메일 문의 cs@masocampus.com

사업자정보 264-81-13054
통신판매업번호 2023-서울서초-1812, 대표(개인정보책임자): 김진, 서비스 이용약관, 개인정보 처리방침, 사업자정보확인

마소캠퍼스 웹사이트는 크롬 브라우저에 최적화 되어 있습니다.

©MasoCampus. All rights reserved.