생성형 AI에서의 멀티모달

생성형 AI를 더 풍부하게 해주는 멀티모달 개념을 알아두면 좋아 간단히 정리해보고자 한다.

멀티모달은 텍스트, 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 처리하고 이해하는 기술이다.

삼성의 '빅스비' 와 애플의 '쉬리' 도 오디오 기반의 멀티모달 AI의 한 예시로 보면 되며,

Chat GPT의 앱으로 만들어진 DALL.E 도 이미지 기반의 멀티모달이다.

현재도 사용자의 쿼리를 이해해 이미지 생성이 필요하면 만들어주고, 코드도 만들어주며 질문에 답변도 해주고 있는데,

이처럼 사용자의 의도를 파악해 필요한 멀티모달 AI가 실행되는거라 보면 된다.

최근에 LAMMA 3에 이어 Chat CPT-o도 연달아 발표되며 정말 빠른 발전속도를 보여주고 있는만큼

'개떡 같이 말해도 찰떡같이 알아듣는' 모델 완성도도 높아지고, AI 없이 어떻게 살았나 싶은 세상에 곧 다가올것만 같다.

#Generative AI#Multi Modal#Chat GPT