[기술보고서] 삼성 SDS 인사이트-인간처럼 사고하는 멀티모달(Multi Modal)AI란?
송보연
▶인사이트 리포트 요약
1) 언어 - 인간은 서로 텍스트로 소통하고 기록하면서 지식을 축적
2) 뇌의 처리능력 - 다양한 시각정보를 받아들이고 이를 뇌에서 이해
3) 지식 통합 능력 - 우리가 느낄 수 있는 다양한 감각과 기억을 융합해 사물을 이해
위와 같은 지구상의 여러 개체들과 차별화 되는 특징들은, 인간이 다른 포유류와 달리, 문명을 건설하고, 도구를 사용하며 과학이라는 성과를 내놓을수 있게 했다.
-> 인간은 어떤 한 개념을 이해하기 위해 시각 미각 촉각 텍스트 등 여러 개념을 통해 인식하지만 우리가 만드는 AI는?
인간이 학습했던 방법으로 배워야 인간과 원할한 소통이 가능한 AI가 될것이라고 생각
-> 그래서 등장한것이 '멀티 모달리티(Multi Modality)'
-> AI 등장 10년전의 멀티 모달리티 : 사용자에게 보이거나 입력하는 방식을 마우스와 키보드, 화면과 음성 등 여러 채널을 이용
-> 현재의 멀티 모달리티 : 시각, 청각을 비롯한 여러 인터페이스를 통해서 정보를 주고받는 것을 말하는 개념
===> 다양한 채널의 모달리티를 동시에 받아들여서 학습하고 사고하는 AI : 멀티모달 AI
- 멀티모달 AI는 기존 AI와는 어떻게 다를까?
기존의 AI는 텍스트나 자연어 이해에 중점을 둠 -> 사람이 주고받는 언어를 이해하는 자연어 분석(NLP)이 필요했음
---> 하지만 AI는 그 단어가 의미하는게 어떻게 생기고 어떤 형태로 세상에 존재하는지를 모름 -> 데이터 처리나 통계, 텍스트를 검색해서 보여주기는 가능하나 인간과 유사한 방식의 사고는 불가 -> 멀티 모달리티의 필요성 강조
ex) OpenAI에서 만든 '달리(DALL-E 2)' : 대표적인 멀티모달AI의 모델
DALL-E 2는 문장을 입력하면, 해당 문장이 어떤 형태의 그림과 사진으로 이해되는지를 보여줌 / DALL-E 2는 기존 이미지들을 개체별로 나누고 이름을 부여한 다음, 위치와 색상, 어떤 동작을 하고 있는지를 이해하고, 이미지를 설명하는데 이용된 텍스트 간의 관계를 학습.
- 멀티모달 AI의 시대가 오면 어떻게 바뀔까?
1) 멀티모달 AI가 활성화되면 텍스트나 이미지로만 가능했던 활용 영역을 엄청나게 변화시킬 거라고 전망됨. 정확한 상황 인지를 통해서 조금 더 명확한 판단을 내릴 수 있는 똑똑한 AI가 될것이라고 예상됨.
2) 사람과 동일한 방식으로 세상을 인지하지만, 더욱 날카롭고 정확하게 분석해 낼 수 있는 것이 멀티모달 AI가 될 것.
->첩보영화에서나 보던 테러범의 이미지를 분석해서 CCTV에서 실시간으로 찾아내는 이야기가 실제가 될 것이다. 자동차 업계에서는 자율주행에서 필수적인 속도, 차선 위반, 운전자의 상태, 날씨까지 여러 정보를 기반으로 하는 AI도 멀티모달 기반으로 구현되어야 될것. 의료계에서도 사람의 눈으로는 알아낼 수 없는 질병의 초기 진단이나 원격 진료에서도 크게 활약할 것으로 예상하고 있다.
- 멀티모달 AI에 대한 우려
- 모든 AI의 가장 큰 위험요소로 손꼽히는 '딥페이크'가 이용된 가짜가 범죄우려도 피해갈 수 없다.
위에서 얘기했던 DALL-2는 이런 우려때문에 개인의 얼굴을 보여주지 않고, 폭력과 혐오, 성인용 이미지는 학습되지 않는다.
- AI의 미래는 사람과 동일한 책임이 따르도록 규제하는 것이 필요한 시대가 되었다.
▶ 느낀점
AI는 아직도 어색한 느낌이 드는 개념인거같다. 인간을 따라하는 기계라는거 자체가 조금은 거부감이 들기도 하지만 이런 멀티모달 AI처럼 인간에게 도움이 되는것도 많기에 마냥 거부감을 가지고 볼 게 아니라, 우리 생활에 더욱 좋은 영향을 줄 수 있는 존재로 인식하고 긍정적으로 바라볼 수 있도록 해야겠다는 생각이 들었다
https://www.samsungsds.com/kr/insights/multi-modal-ai.html?moreCnt=0&backTypeId=&category=
인간처럼 사고하는 멀티모달(Multi Modal) AI란?
AI는 어떻게 사물의 개념을 받아들일까요? AI는 명령어만으로는 그 단어가 어떤 형태로 세상에 존재하는지 이해하지 못해요! 그래서 AI가 인간처럼 인식할 수 있도록 만들어진 것이 '멀티모달 AI'
www.samsungsds.com
http://www.aitimes.com/news/articleView.html?idxno=144483
[김동원의 Eye-T] 올해 AI 트렌드는 '멀티모달?' - AI타임스
올해 AI 트렌드는 \'멀티모달?\' (기획·제작=김동원 기자, 촬영=김미정 기자)AI가 칼럼을 쓰고 소설을 쓰는 시대가 됐습니다.그러면 AI가 새로운 이미지를 만드는 것도 가능할까요? 새로운 영상을
www.aitimes.com