본문 바로가기
온라인 멘토와 함께하는 공부/인공지능

Prompt Engineering Guide의 Multimodal CoT Prompting 페이지

by 열공노년 2025. 4. 18.
반응형

Prompt Engineering Guide의 Multimodal CoT Prompting 페이지

Prompt Engineering Guide의 Multimodal CoT Prompting 페이지입니다. 주요 내용은 멀티모달 체인 오브 사고(Multimodal Chain-of-Thought, Multimodal CoT) 기법에 대한 설명입니다.


프롬프트엔지니어링 페이지

📌 핵심 요약

개념: Multimodal CoT Prompting

  • 기존 CoT (Chain-of-Thought) 는 언어적 사고의 흐름을 단계적으로 표현해 정답을 유도하는 기법입니다.
  • Multimodal CoT 는 여기에 텍스트뿐만 아니라 이미지 등 비언어적 정보까지 포함하는 방식입니다.

구조

  1. 1단계: 근거 생성 (Rationale Generation)
    • 멀티모달 입력(예: 이미지, 텍스트)을 기반으로 근거를 생성
  2. 2단계: 답변 추론 (Answer Derivation)
    • 생성된 근거를 기반으로 최종 답변을 도출

적용 예시

  • ScienceQA 벤치마크에서 멀티모달 CoT 모델이 GPT-3.5보다 뛰어난 성능을 보였다고 설명합니다.

🧠 관련 기술 개념

 

개념 설명
CoT (Chain-of-Thought) 복잡한 문제를 해결하기 위해 중간 추론 과정을 생성하는 프롬프트 기법
멀티모달 (Multimodal) 텍스트 외에도 이미지, 오디오 등 다양한 형태의 입력을 사용하는 모델
Rationale 모델이 답을 도출하기 위해 생성한 중간 설명 또는 추론 근거

정리

 

항목  설명
주제 Multimodal CoT Prompting
목적 언어와 비언어(예: 이미지) 정보를 함께 사용하여 추론 품질 향상
구성 단계 ① 근거 생성 → ② 답변 추론
효과 ScienceQA 등에서 기존 언어모델 대비 우수한 성능 발휘

 

반응형