반응형
Prompt Engineering Guide의 Multimodal CoT Prompting 페이지
Prompt Engineering Guide의 Multimodal CoT Prompting 페이지입니다. 주요 내용은 멀티모달 체인 오브 사고(Multimodal Chain-of-Thought, Multimodal CoT) 기법에 대한 설명입니다.
📌 핵심 요약
개념: Multimodal CoT Prompting
- 기존 CoT (Chain-of-Thought) 는 언어적 사고의 흐름을 단계적으로 표현해 정답을 유도하는 기법입니다.
- Multimodal CoT 는 여기에 텍스트뿐만 아니라 이미지 등 비언어적 정보까지 포함하는 방식입니다.
구조
- 1단계: 근거 생성 (Rationale Generation)
- 멀티모달 입력(예: 이미지, 텍스트)을 기반으로 근거를 생성
- 2단계: 답변 추론 (Answer Derivation)
- 생성된 근거를 기반으로 최종 답변을 도출
적용 예시
- ScienceQA 벤치마크에서 멀티모달 CoT 모델이 GPT-3.5보다 뛰어난 성능을 보였다고 설명합니다.
🧠 관련 기술 개념
개념 | 설명 |
CoT (Chain-of-Thought) | 복잡한 문제를 해결하기 위해 중간 추론 과정을 생성하는 프롬프트 기법 |
멀티모달 (Multimodal) | 텍스트 외에도 이미지, 오디오 등 다양한 형태의 입력을 사용하는 모델 |
Rationale | 모델이 답을 도출하기 위해 생성한 중간 설명 또는 추론 근거 |
정리
항목 | 설명 |
주제 | Multimodal CoT Prompting |
목적 | 언어와 비언어(예: 이미지) 정보를 함께 사용하여 추론 품질 향상 |
구성 단계 | ① 근거 생성 → ② 답변 추론 |
효과 | ScienceQA 등에서 기존 언어모델 대비 우수한 성능 발휘 |
반응형
'온라인 멘토와 함께하는 공부 > 인공지능' 카테고리의 다른 글
인공지능 파라미터 ‘Temperature’와 ‘Top P’의 차이 (2) | 2025.04.20 |
---|---|
OpenAI 상태 페이지 (0) | 2025.04.19 |
역할의 실제 사용 사례와 페르소나 설정(system role) (1) | 2025.04.17 |
인공지능의 "role" 구분 (0) | 2025.04.16 |
‘인공지능’과 ‘자동화’ (1) | 2025.04.15 |