본문 바로가기

KPMG Future Academy 6기

(삼정 KPMG future academy 6기 수업) - 17. 멀티모달

https://lmstudio.ai/

 

LM Studio - Local AI on your computer

Run local AI models like gpt-oss, Llama, Gemma, Qwen, and DeepSeek privately on your computer.

lmstudio.ai

 

1. 생성형 AI와 멀티모달 기술의 이해

생성형 AI는 기존 데이터를 바탕으로 새로운 콘텐츠를 창조하는 기술
ChatGPT처럼 텍스트를 쓰거나, DALL·E처럼 이미지를 만들거나, TTS 기술로 음성을 합성하기도 함.

 

- 모달리티(Modality) : AI가 다루는 데이터의 종류
- 멀티모달 AI : 텍스트·이미지·음성 등 각기 다른 모달리티를 하나의 모델이 동시에 처리할 수 있게 한 것

  • 텍스트 생성: 대규모 언어 데이터를 학습해 문맥에 맞는 다음 단어를 예측
  • 이미지 생성: 노이즈에서 출발해 점진적으로 이미지를 만들어내는 확산 모델을 사용
  • 음성 생성: 텍스트를 사람처럼 자연스러운 목소리로 읽어주는 TTS 기술을 활용

- 대표적인 멀티모달 AI :  GPT-4, Google Gemini, Anthropic Claude
(텍스트뿐 아니라 이미지와 음성까지 이해하고 생성할 수 있음)

- 활용 분야: 보고서 작성, 디자인, 가상비서, 오디오북 등. 

 

2. 멀티모달 AI의 구성 및 학습 방법

 

  • 정의: 이미지·음성·텍스트 등 여러 데이터를 동시에 이해하고 응답 생성.
  • 구성요소:
    • 인코더(각 모달 특성 추출)
    • 투영층(형태 통일)
    • 디코더(최종 출력 생성)
  • 연결 방식:
    • 투영층 직접연결 vs 교차 어텐션 방식.
  • 대표 모델: GPT-4o, Gemini, Claude 3 비교.
  • Instruction Tuning: 인간의 지시(Q&A 데이터)로 모델을 정교화.
  • 학습 과정: 데이터 수집 → 통합 학습 → 지시 튜닝 → RLHF.
  • 적용 예시: 스마트 비서, 시각장애인 지원, 고객상담 챗봇.

 

3. 멀티모달 AI의 발전과 주요 모델 소개 (CLIP, BLIP)

 

  • 발전 단계:
    • 2015~2019: ViLBERT, LXMERT 등 초기 멀티모달 구조
    • 2021: CLIP 등장 — 이미지·텍스트 대비학습, 제로샷 분류 가능
    • 2022: BLIP — 이해와 생성을 하나의 모델로 통합
    • 2023~2025: GPT-4, BLIP-2, Gemini, Claude 등 대형 모델 등장
  • CLIP:
    • 텍스트·이미지 각각 인코딩 → 같은 공간에 매핑
    • 제로샷 분류 가능, 프롬프트 민감성 존재
  • BLIP:
    • 인코더·디코더 혼합 구조로 이해+생성 모두 수행
    • 차세대 모델(Gemini, BLIP-2)에 영향.

 

 

4. 이미지 생성 모델의 발전: GAN → Diffusion → DALL·E

 

  • GAN(2014): 생성자와 판별자 경쟁으로 현실적인 이미지 생성.
  • Diffusion(2020~): 노이즈를 단계적으로 제거해 이미지 복원.
  • Stable Diffusion: 오픈소스 확산모델, 인페인팅/아웃페인팅 지원.
  • DALL·E: 텍스트 설명을 시각화, 창의적 합성 가능.
  • 비교:
    • GAN: 사실적, 속도 빠름
    • Diffusion: 안정적, 다양성 높음
    • DALL·E: 창의성 높지만 자원 소모 큼
  • 활용: Hugging Face·Bing Image Creator로 직접 체험 가능.

 

5. Vision-Language 모델과 이미지 추론 기술

 

  • 개념: 이미지와 텍스트를 함께 이해하여 의미를 연결짓는 모델.
  • 응용 사례: 이미지 캡셔닝, 텍스트→이미지 생성, 이미지 Q&A, 검색.
  • 대표 기술:
    • CLIP: 공통 임베딩 공간 생성
    • BLIP-2: 이미지 인코더 + LLM 결합
    • Flamingo: few-shot 학습 지원
    • LLaVA: 시각+언어 챗봇, GPT-4 기반 시각 지시 데이터 학습
  • 활용 예시:
    • 카탈로그 자동 생성, 보고서 이미지 요약, 마케팅 콘텐츠 생성.

 

 

6. 최신 멀티모달 AI 모델 동향

 

  • 주요 모델: GPT-4o, Gemini 2.5, Claude 3.7, Grok 3.
  • 특징 비교:
    • GPT-4o: 텍스트·이미지·음성·영상 통합, 실시간 응답
    • Gemini 2.5: 사고(thinking) 기능 내장, 100만 토큰 맥락
    • Claude 3.7: 통합 추론 모드, 도구 사용 강화
    • Grok 3: 검열 최소화, 직설적 답변
  • 활용 분야: 오피스 자동화, 코딩 보조, 고객지원, 미디어 창작.
  • 이슈: 환각, 편향, 프라이버시, 책임 문제.
  • 전망: GPT-5 등 차세대 모델, 실무 도입은 소규모 파일럿부터 단계적 확장 권장.

 

7. 오픈소스 멀티모달 AI 모델: MiniGPT-4, VisualGPT

  • MiniGPT-4:
    • ViT+Q-Former 인코더 + Vicuna LLM 연결
    • 이미지 설명, 시 창작, HTML 코드 생성 가능
  • Visual ChatGPT:
    • ChatGPT + 22개 시각모델 도구
    • 이미지 생성, 편집, 객체 인식 등 멀티모달 대화 지원
  • 비교:
    • MiniGPT-4: 빠르고 일관된 텍스트 출력
    • VisualGPT: 다양한 시각작업 지원, 다소 복잡
  • 활용 아이디어:
    • 마케팅 카피 생성, UI 스케치 코드 변환, 이미지 기반 데이터 분석, 교육/의료 응용

 

8. 멀티모달 RAG

8-1. RAG 개념

  • 정의: Retrieval-Augmented Generation
    → LLM이 단독으로 답변 생성하지 않고, 외부 문서 검색 결과를 기반으로 생성.
  • 역할: LLM이 모르는 최신 정보나 특정 도메인 지식을 보완.
  • 구조: 검색(Retrieval) → 생성(Generation) 단계로 분리.
  • 예시: GPT가 최신 뉴스를 모르더라도, RAG가 관련 문서를 찾아 제공.

8-2. 멀티모달 RAG란?

  • 확장 개념: 텍스트 중심 RAG에서 이미지·비디오·오디오 등 다양한 데이터로 확장.
  • 작동 원리:
    • 사용자의 질의 의도(“이 장면엔 뭐가 있지?” 등)를 멀티모달로 해석.
    • 다양한 모달리티(텍스트, 이미지 등)에서 관련 정보 검색.
    • LLM이 이를 종합해 자연어로 답변 생성.
  • 핵심 목표: AI가 사람처럼 여러 감각(시각·청각 등)을 통합적으로 이해하도록 구현.

8-3. 멀티모달 RAG의 어려움

  • 데이터 다양성: 텍스트, 표, 이미지, 차트, PDF 등 비정형 데이터가 혼재.
  • 모달 간 의미 정렬 어려움:
    • 텍스트, 이미지, 음성을 동일한 벡터 공간에 매핑하는 과정 복잡.
  • 교차 모달 추론:
    • 서로 다른 데이터 형태를 논리적으로 결합해야 함.
  • 비용 문제:
    • 대규모 GPU·메모리·시간이 필요, 처리비용 높음.
  • 환각(Hallucination):
    • 모달 간 관계를 잘못 해석하거나 존재하지 않는 정보를 생성할 위험 존재.

8-4. 멀티모달 RAG 구현 방식

(1) 모든 모달리티를 동일한 벡터 공간에 포함

  • 방법: CLIP 등 멀티모달 모델을 활용해 이미지·텍스트를 하나의 공간에 임베딩.
  • 특징: 통합된 벡터 공간에서 이미지·텍스트 모두 검색 가능.
  • 장점: 구현이 간단하고 빠름.
  • 단점: 복합 콘텐츠(표, 그래프 등) 표현이 부정확할 수 있음.

(2) 모든 모달리티를 하나의 기본 모달리티로 묶기

  • 방법: 하나의 기준(예: 텍스트)으로 모든 데이터를 변환·통합.
  • 예시: 이미지를 텍스트로 설명(캡션) 후 검색 및 답변 생성에 활용.
  • 장점: 데이터 구조 일관성, 단일 검색 구조 가능.
  • 단점: 시각적 세부 정보 손실 가능, 변환 비용 발생.

(3) 서로 다른 모달리티를 별도의 저장소에서 다루기

  • 방법:
    • 모달별로 별도 벡터DB에 저장 (예: 텍스트 DB, 이미지 DB).
    • 검색 결과를 리랭킹(Re-ranking) 후 LLM에 통합 전달.
  • 장점:
    • 각 모달리티의 강점을 살려 정확도 향상.
    • 가장 관련성 높은 정보를 기반으로 고품질 답변 생성.
  • 단점:
    • 처리시간 증가, 인프라 구축 및 운영 비용 큼.

(4) 세 가지 방식 비교 요약

구분 구현 방식 장점 단점
(1) 동일 벡터 공간 CLIP 기반 멀티모달 통합 간단, 빠름 복합 콘텐츠 처리 한계
(2) 기본 모달리티 통합 텍스트 중심 변환 방식 일관성, 관리 용이 정보 손실 가능
(3) 별도 저장소 관리 모달별 DB + 리랭킹 통합 고품질, 확장성 느림, 비용 높음

 

8-5. 앞으로의 전망

  • 의의: 멀티모달 RAG는 AI가 세상을 “텍스트만이 아닌 모든 형태로” 이해하게 만드는 기술.
  • 활용 분야:
    • 문서 자동 요약
    • 이미지 기반 보고서 분석
    • 고객지원 챗봇
    • 영상 요약 및 검색
  • 궁극적 목표:
    • AI가 사람처럼 복합적인 감각 데이터를 통합적으로 해석하고 설명하는 단계로 발전.

 

(사례) 산불감시 

yolo version : 많은 데이터를 학습시켜야 한다. 특정 탐지에 유리

멀티모달로 객체 탐지 가능:
학습이 많이 안되어 있어도 텍스트와 화재, 연기 이미지의 유사도 학습이 되어있어 결과 출력 잘함.

다양한 변화에 유연하게 적응 가능

 

(사례) Meow.camera - 길고양이 생중계 카메라 | GeekNews

  • Hello Street Cat은 중국의 길고양이 문제를 해결하기 위해 만들어진 기부 기반 스트리밍 플랫폼
  • Meow.camera는 위 플랫폼의 뷰어를 더 보기 편하게 개발한 별도의 웹사이트로 원 서비스와는 관계 없음
  • 스마트 고양이 집을 도시에 설치해 자동 급식기와 카메라를 연결하고, 기부 시 사료를 즉시 배출하는 방식으로 운영
  • 사용자가 앱을 통해 일정 금액을 기부하면, 해당 금액이 자동 급식기에 반영되어 사료가 투입되는 장면을 실시간 시청할 수 있음
  • 카메라는 여러 각도에서 고양이의 행동을 기록하며, 시스템이 각 고양이를 자동 인식해 디지털 프로필을 생성
  • 도심 곳곳에 설치된 스마트 고양이 집 내부에는 자동 사료 디스펜서, 다중 카메라, AI 인식 시스템이 탑재되어 있음
    • 고양이가 접근하면 시스템이 전·후·측면 이미지를 수집하고, 개체별 행동을 자동으로 기록함
    • 수집된 데이터는 디지털 고양이 프로필로 관리되어, TNR(포획·중성화·방사) 활동이나 입양 관리에 활용됨

 

(참고)

* 올인원 멀티모달 RAG 시스템

RAG-Anything은 기존 RAG 아키텍처를 확장하는 다단계 멀티모달 파이프라인을 갖춘 통합 프레임워크

(https://www.linkedin.com/posts/sumanth077_all-in-one-rag-system-rag-anything-is-a-activity-7384136237760200704-oMxq/?utm_source=share&utm_medium=member_android&rcm=ACoAAFSrnTABXnzUPBtilzt1Xyu_070LJkgdA0Y)

 

 https://github.com/HKUDS/RAG-Anything