📌 논문 정보
- 제목: A Survey of Large Language Models
- 저자: Zhao, Wayne Xin et al.
- 출처: arXiv (📄 논문 PDF)
- 게재일: 2023년 3월 31일
- 인용 횟수: 2,165회 (2025년 기준)
- 선정 이유: LLM을 처음 공부하는 사람들에게 좋은 입문서라 생각되어 선정
https://arxiv.org/pdf/2303.18223
📖 1. 논문의 개요 (Abstract)
- SLM → NLM → PLM → LLM 순으로 발전
- 모델 크기가 커질수록 성능이 향상됨 (LLM 등장)
- LLM의 주요 연구 주제: 발전 과정, 핵심 기술, 응용, 성능 평가, 미래 방향
🏗️ 2. 언어 모델의 발전 과정 (Introduction)
🟠 1) 통계적 언어 모델 (SLM, Statistical Language Models)
- 튜링 테스트 이후 AI의 언어 능력 연구가 지속됨.
- 1990년대 등장, 마르코프 가정 기반으로 단어 예측
- 대표 기법: n-그램 모델 (바이그램, 트라이그램)
- 문제점: 데이터 희소성(Curse of Dimensionality)
- 해결책: 백오프(Back-off), 굿-튜링(Good-Turing) 추정법
🔵 2) 신경망 언어 모델 (NLM, Neural Language Models)
- 다층 퍼셉트론(MLP), 순환신경망(RNN) 도입
- 단어를 벡터 공간(Distributed Representation)으로 변환
🟢 3) 사전 학습된 언어 모델 (PLM, Pre-trained Language Models)
- 트랜스포머(Transformer) 모델 도입 → 문맥 이해 능력 강화
🔴 4) 대규모 언어 모델 (LLM, Large Language Models)
- 주요 특징: 파라미터 수가 증가할수록 성능 향상
- 대표 사례: GPT-3 (1750억 개), PaLM (5400억 개)
대규모 언어 모델(LLM)의 발전과 영향
1. LLM의 확장과 새로운 능력
연구자들은 초대형 모델을 훈련하며 언어 모델의 성능 한계를 실험하고 있습니다.
- 대표적인 모델: GPT-3 (1750억 개 파라미터), PaLM (5400억 개 파라미터)
- Emergent Abilities (새로운 능력): 모델 크기가 커질수록 기존보다 뛰어난 능력이 나타남
- 예: GPT-3는 Few-shot 학습(소량의 예제로 학습 가능)이 가능하지만, GPT-2(15억 개 파라미터)는 불가능
- 이러한 대형 모델들을 **LLM (Large Language Models)**으로 정의함
2. LLM의 역사적 변화
💡 언어 모델은 단순한 텍스트 예측에서 복잡한 문제 해결로 진화해 왔습니다.
LLM 발전 과정
- 초기 통계적 언어 모델(SLM) → 특정 작업(정보 검색, 음성 인식) 보조
- 신경망 기반 언어 모델(NLM) → 기계가 직접 의미를 학습
- 사전 학습된 언어 모델(PLM) → 문맥을 인식하고 자연스러운 대화 지원
- 대규모 언어 모델(LLM) → 범용 문제 해결이 가능한 AI로 발전
📌 결론: 모델이 발전할수록 해결 가능한 문제의 범위가 확장되고, 성능이 비약적으로 향상됨
3. LLM과 기존 PLM의 차이점
1) Emergent Abilities (새로운 능력)
- 기존 PLM에서는 없던 놀라운 능력들이 대규모 모델에서 나타남
- 복잡한 문제 해결에서 기존 AI보다 뛰어난 성능을 보임
2) AI 사용 방식의 변화
- 기존에는 직접 모델을 훈련했지만, LLM은 프롬프트(prompt) 기반으로 사용됨
- 예: GPT-4 API를 활용한 작업 수행
3) 연구와 엔지니어링의 경계가 사라짐
- 방대한 데이터 처리와 분산 병렬 학습 기술이 필요
- 연구자들이 단순한 이론 연구뿐만 아니라 실제 엔지니어링 문제도 해결해야 함
4. LLM이 AI 분야에 미친 영향
📌 LLM 기술 발전과 AGI(Artificial General Intelligence, 범용 인공지능)
- OpenAI는 "AGI와 그 이후를 위한 계획"이라는 기술 문서 발표
- 일부 연구자들은 GPT-4가 초기 AGI 형태일 가능성을 제기
📌 기존 기술과의 변화
- 자연어 처리(NLP): LLM이 범용 언어 작업 해결 도구로 자리 잡음
- 정보 검색(IR): 검색 엔진이 AI 챗봇(예: ChatGPT, New Bing)으로 대체될 가능성 증가
- 컴퓨터 비전(CV): LLM을 활용한 멀티모달 AI(예: GPT-4의 이미지+텍스트 처리 기능) 연구 진행 중
5. LLM 연구의 도전 과제
1) Emergent Abilities의 원리 이해 부족
- 왜 대규모 모델에서만 새로운 능력이 나타나는지 명확한 설명이 부족
- 초기 논의가 시작되었지만, 핵심 요인은 여전히 불분명
2) LLM 훈련의 어려움
- 방대한 데이터와 컴퓨팅 자원이 필요하여 일반 연구자가 직접 훈련하기 어려움
- 대기업 중심의 연구로 진행되며, 훈련 과정(데이터 수집, 정제 등)은 공개되지 않음
3) 인간 가치 정렬(Alignment) 문제
- LLM은 유해하거나 거짓된 정보를 생성할 위험이 있음
- AI의 책임감 있는 사용을 위한 새로운 제어 방법이 필요함
✅ 정리하자면
- LLM은 크기가 커질수록 Emergent Abilities가 등장하며, 자연어 처리 및 문제 해결 능력이 비약적으로 향상됨
- 기존 모델과 달리, 프롬프트 기반 사용 방식이 일반화되었으며, AI 연구와 엔지니어링의 경계가 사라지고 있음
- 정보 검색, NLP, 컴퓨터 비전 등 다양한 분야에서 큰 변화를 이끌고 있으며, AGI 가능성도 논의되고 있음
- 그러나, 훈련 과정의 불투명성, 높은 자원 요구, 윤리적 문제 등 해결해야 할 도전 과제가 존재함
1. 스케일링 법칙(Scaling Laws)과 모델 성능
LLM의 성능 향상을 위해 KM 스케일링 법칙(OpenAI)과 Chinchilla 스케일링 법칙(DeepMind)이 연구되었음.
- KM 스케일링: 모델 크기 증가에 초점을 맞춤.
- Chinchilla 스케일링: 모델 크기와 데이터 크기를 균형 있게 증가시키는 것이 중요하다고 주장.
📌 스케일링 법칙의 실제 적용
- 예측 가능한 확장(Predictable Scaling)
- 작은 모델의 훈련 경험을 활용하여 대형 모델의 성능을 예측할 수 있음.
- 예: 소규모 모델을 사용해 최적의 데이터 학습 전략을 먼저 찾고, 이를 대형 모델에 적용.
- 모델 훈련 중 이상 현상(예: 손실 급증) 감지 가능.
- 작업(Task) 성능 예측
- 일반적으로, 언어 모델 손실(Language Modeling Loss)이 낮을수록 LLM의 성능이 높아진다고 가정.
- 예: GPT-4의 코딩 능력은 스케일링 법칙으로 비교적 정확하게 예측됨.
- 그러나 일부 작업에서는 모델 손실이 낮아져도 성능이 하락하는 역스케일링(Inverse Scaling) 현상이 발생하기도 함.
- 특정 기능(예: 문맥 학습(In-context Learning))은 단순한 손실 감소로 예측할 수 없으며, 모델 크기가 특정 임계점을 넘어야만 나타남.
2. LLM의 새로운 능력(Emergent Abilities)
💡 Emergent Abilities: 작은 모델에서는 존재하지 않다가, 모델 크기가 특정 임계값을 넘어서면 갑자기 나타나는 능력.
- 이는 물리학에서의 상전이(Phase Transition)와 유사한 패턴을 보임.
- 대표적인 능력 3가지:
📌 (1) 문맥 학습 (In-context Learning, ICL)
- GPT-3 (175B 파라미터)에서 처음 발견됨.
- 모델이 추가 훈련 없이도, 자연어로 주어진 지시문(prompt)만 보고 작업을 수행할 수 있음.
- 예: 3자리 숫자 덧셈/뺄셈(13B 모델 수준에서 가능) vs. 페르시아어 QA(175B 모델에서도 어려움).
📌 (2) 지시문 학습 (Instruction Following)
- 자연어 기반의 다양한 작업을 수행하도록 미세 조정(Instruction Tuning) 가능.
- LaMDA-PT (68B 모델 이상)부터 새로운 작업에서 뛰어난 성능을 보이기 시작.
- PaLM (62B 모델 이상)에서 주요 벤치마크 성능 개선됨.
📌 (3) 단계별 추론 (Step-by-step Reasoning)
- 작은 모델은 복잡한 다단계 논리 문제를 해결하기 어려움.
- 대형 LLM(예: GPT-4, PaLM)은 단계적으로 사고하여 더 정교한 문제 해결 가능.
📌 요약:
- 스케일링 법칙을 활용하면 LLM 성능을 예측할 수 있지만, 모든 작업에서 예측이 정확한 것은 아님.
- Emergent Abilities는 모델 크기가 특정 수준을 넘어야 나타나는 특성.
- 대표적인 능력: 문맥 학습(ICL), 지시문 학습, 단계별 추론.
1. 단계별 추론 (Step-by-step Reasoning)
- 기존의 작은 모델들은 여러 단계의 논리적 추론이 필요한 문제(예: 수학 문제)를 해결하기 어려움.
- CoT(Chain-of-Thought) 프롬프팅 기법을 활용하면, 중간 과정(reasoning steps)을 명시적으로 포함하여 문제를 풀 수 있음.
- 연구 결과에 따르면, 모델 크기가 60B 이상일 때 CoT 프롬프팅의 성능 향상이 뚜렷하게 나타남.
- 100B 이상이 되면, 일반적인 프롬프팅보다 CoT 프롬프팅이 확연히 우수함.
2. Emergent Abilities와 스케일링 법칙의 관계
- 스케일링 법칙(Scaling Laws)
- 모델의 성능 향상을 예측 가능한 방식으로 설명.
- 일반적으로 크기가 커질수록 성능이 점진적으로 증가하지만, 수익 체감 효과(Diminishing Returns) 발생.
- Emergent Abilities(갑작스러운 능력 향상)
- 특정 모델 크기를 넘어서면, 예상할 수 없는 새로운 능력이 갑자기 등장.
- 단순한 손실 감소(Loss Reduction)와는 다른 개념이며, 일부 연구자들은 평가 방식의 차이 때문이라고 주장.
- 예: 언어 모델의 코딩 능력은 스케일링 법칙을 통해 예측할 수 있지만, 특정 모델 크기에서 갑자기 도약하는 경우도 있음.
💡 인간의 언어 습득 과정과 유사한 점
- 어린아이가 말을 배우는 과정에서도 단계적으로 자연스럽게 배우는 것이 아니라, 어느 순간 갑자기 문장을 말하기 시작하는 현상이 나타남.
- LLM도 마찬가지로, 특정 크기 이상이 되면 갑작스러운 능력 향상이 발생할 가능성이 있음.
3. LLM의 핵심 기술 (Key Techniques)
📌 LLM이 현재 수준까지 발전하는 데 중요한 기술적 요소들
(1) 스케일링 (Scaling)
- 더 큰 모델 + 더 많은 데이터 + 더 강한 연산력 → 더 강력한 성능.
- 예: GPT-3 (175B 파라미터), PaLM (540B 파라미터) 등은 스케일링 한계를 실험.
- 제한된 연산 자원에서 최적의 성능을 내기 위해 Chinchilla 스케일링 법칙을 적용하면 데이터와 모델 크기를 균형 있게 조정 가능.
(2) 훈련 기법 (Training)
- 거대한 모델을 훈련하는 것은 매우 어렵고, 분산 학습이 필수적.
- Megatron-LM, DeepSpeed 같은 최적화 프레임워크를 활용하여 분산 학습 수행.
- **혼합 정밀도 학습(Mixed Precision Training)**을 통해 연산 속도 향상 및 메모리 절약.
(3) 능력 유도 (Ability Eliciting)
- LLM이 가진 잠재적 능력을 끌어내기 위한 기법들
- CoT(Chain-of-Thought) 프롬프팅 → 복잡한 문제 해결.
- 프롬프트 엔지니어링 → LLM이 최적의 성능을 발휘할 수 있도록 설계.
- 인스트럭션 튜닝(Instruction Tuning) → 자연어 기반 지시문을 통해 일반화 성능 향상.
(4) 정렬 튜닝 (Alignment Tuning)
- LLM은 훈련 데이터의 특성을 그대로 반영하므로, 편향된 데이터나 유해한 콘텐츠 생성 가능성이 있음.
- 이를 해결하기 위해, 인간의 가치(Human Alignment)를 반영한 조정 과정이 필요.
- InstructGPT 같은 모델은 도움이 되고(Harmless), 정직하며(Honest), 유용한(Helpful) 응답을 생성하도록 훈련됨.
📌 요약:
- CoT 프롬프팅을 활용하면 복잡한 문제 해결 능력이 향상되며, 60B 모델 이상에서 효과가 두드러짐.
- Emergent Abilities는 인간의 언어 습득과 비슷하게, 특정 크기 이상에서 갑자기 등장할 수 있음.
- 스케일링, 훈련 최적화, 능력 유도, 인간 가치 정렬 같은 기술이 LLM 발전에 중요한 역할을 함.
1. LLM의 인간 정렬(Human Alignment) 및 도구 활용
📌 (1) 인간 정렬 (Alignment with Human Values)
- LLM이 유해하거나 편향된 출력을 방지하기 위해 **인간의 피드백을 활용한 강화 학습(RLHF, Reinforcement Learning with Human Feedback)**이 적용됨.
- InstructGPT는 RLHF를 통해 인간의 기대에 맞게 조정되었으며, 이후 ChatGPT도 동일한 기법을 사용하여 대화 성능을 최적화함.
- 예시:
- ChatGPT는 모욕적인 질문을 거부하는 등 윤리적 기준을 따름.
📌 (2) 도구 활용 (Tools Manipulation)
- LLM은 기본적으로 텍스트 기반 모델이므로, 숫자 계산이나 최신 정보 검색 같은 작업에서 한계를 가짐.
- 이를 해결하기 위해, 외부 도구(external tools)를 활용하는 방식이 등장:
- 계산기 연동 → 정확한 수치 계산 지원.
- 검색 엔진 연동 → 최신 정보 검색 가능.
- ChatGPT 플러그인 → 외부 앱과 연동하여 기능 확장.
- 예: 여행 정보 제공, 코딩 지원, 데이터 분석 등.
- 결론: 플러그인을 활용하면 LLM의 기능을 확장하여, 더 강력한 AI 시스템을 구축할 수 있음.
2. GPT 모델의 기술적 발전 (Technical Evolution of GPT-series)
📌 GPT 모델의 발전 과정
GPT 모델은 디코더 기반 트랜스포머(Decoder-only Transformer) 구조를 바탕으로 발전해왔으며, 핵심 원리는 언어 모델링을 통해 세계 지식을壓縮하는 것.
- 기본 개념: 다음 단어를 예측하는 능력을 키우는 것이 LLM의 핵심.
📌 GPT 발전 단계
1️⃣ 초기 연구 (Early Explorations)
- **OpenAI 공동 창립자 일리야 서츠케버(Ilya Sutskever)**는 초기부터 언어 모델을 통한 AI 개발을 연구.
- 초기에는 RNN(순환신경망) 기반 언어 모델을 시도했으나, 트랜스포머 등장 후 GPT 개발이 본격화됨.
2️⃣ GPT-1 (2018)
- 첫 번째 GPT 모델 출시 → Generative Pre-Training (GPT) 개념 도입.
- 트랜스포머 기반의 디코더 구조(Decoder-only Transformer) 사용.
- 비지도 학습(Pre-training) + 지도 학습(Fine-tuning) 혼합 방식 적용.
3️⃣ GPT-2 (2019)
- 모델 크기 1.5B 파라미터로 확장.
- 웹에서 수집한 데이터(WebText)를 기반으로 학습.
- 멀티태스킹 능력 강화 → 특정 태스크를 위한 별도 학습 없이 자연어 처리 가능.
- 주요 아이디어:
- 모든 NLP 작업을 단순한 단어 예측 문제로 변환 가능.
- 충분한 데이터를 학습하면, 지도 학습 없이도 다양한 작업 수행 가능.
- 한계:
- 지도 학습된 최신 모델들에 비해 성능이 떨어짐.
- 특히 대화(Task-specific fine-tuning)를 거치지 않으면 성능이 낮음.
📌 요약:
- RLHF 기법(InstructGPT, ChatGPT)은 인간 피드백을 활용해 AI를 더 유용하고 안전하게 개선함.
- LLM의 기능 확장을 위해 외부 도구(검색, 계산, 플러그인)를 활용하는 방식이 등장.
- GPT 발전 과정:
- GPT-1: 트랜스포머 기반 언어 모델 최초 도입.
- GPT-2: 데이터 크기 증가, 멀티태스킹 학습 가능.
- 그러나 지도 학습된 최신 모델보다 성능이 낮아, 추가 발전이 필요했음.
1. 대규모 언어 모델(LLM) 비교 테이블
📌 논문에서는 최근 몇 년간 개발된 10B(100억) 이상의 파라미터를 가진 주요 LLM을 비교하는 표를 제공.
- 모델의 출시 시기, 크기, 사전 훈련 데이터 양, 하드웨어 요구 사항, 평가 방식(IT, RLHF, ICL, CoT) 등이 포함됨.
- 일부 모델은 공개(Open Source) 되었고, 일부는 비공개(Closed Source) 상태.
2. 주요 LLM 모델 개요
📌 공개된 모델 (Publicly Available LLMs)
- T5 (2019, 11B)
- 구글에서 개발한 Transformer 기반 모델.
- 지도 학습(Instruction Tuning, IT) 적용됨.
- GPT-NeoX-20B (2022, 20B)
- EleutherAI에서 공개한 오픈소스 GPT-3 대안 모델.
- OPT (2022, 175B)
- 메타(Meta)에서 공개한 GPT-3과 유사한 구조의 모델.
- LLaMA (2023, 65B)
- 메타에서 공개한 고성능 LLM으로 연구용으로 사용 가능.
📌 비공개 모델 (Closed Source LLMs)
- GPT-3 (2020, 175B)
- OpenAI가 개발한 GPT 시리즈 중 핵심 모델.
- 공개되지 않은 사전 훈련 데이터 사용.
- GPT-4 (2023, 비공개 크기)
- OpenAI에서 GPT-3 이후 발전된 모델이지만, 정확한 파라미터 크기 비공개.
- PaLM (2022, 540B)
- 구글에서 개발한 초대형 모델, 5400억 개의 파라미터 보유.
- Chinchilla (2022, 70B)
- DeepMind에서 연구한 모델로, 최적의 데이터와 파라미터 균형을 강조.
3. 주요 기술 요소
📌 각 모델별로 사용된 기술 평가 방법:
- IT (Instruction Tuning): 자연어 지시문을 기반으로 모델을 조정하는 방식.
- RLHF (Reinforcement Learning with Human Feedback): 인간 피드백을 반영하여 모델이 윤리적으로 학습.
- ICL (In-context Learning): 추가 학습 없이 프롬프트만으로 작업 수행 가능.
- CoT (Chain-of-Thought): 단계별 추론 기법을 활용한 문제 해결 능력 강화.
📌 요약:
- 대규모 언어 모델(LLM)의 다양한 발전 상황을 한눈에 볼 수 있는 비교표 제공.
- 공개 모델(T5, OPT, LLaMA)과 비공개 모델(GPT-3, GPT-4, PaLM) 간의 차이점 정리.
- IT, RLHF, ICL, CoT 등의 주요 평가 기준이 모델 성능 비교에 활용됨.
1. 주요 LLM 모델의 발전 타임라인
📌 Fig. 3: 10B 이상의 파라미터를 가진 대규모 언어 모델(LLM)의 발전 흐름
- 2019~2024년까지 출시된 주요 LLM 모델을 정리.
- 공개 모델(예: GPT-NeoX, LLaMA, BLOOM)은 노란색으로 표시됨.
- GPT 시리즈는 지속적으로 발전하면서 기능이 강화됨.
2. GPT 시리즈의 기술적 발전
📌 Fig. 4: GPT 시리즈 모델의 주요 기술 변화
- GPT-1 (2018):
- 최초의 GPT 모델, 디코더 기반 트랜스포머(Decoder-only Transformer) 구조.
- 비지도 사전 훈련(Unsupervised Pre-training) 도입.
- GPT-2 (2019):
- 파라미터 수 증가 (1.5B).
- 지도 학습 없이 NLP 작업 수행 가능(Multi-task Learning).
- GPT-3 (2020):
- 175B 파라미터로 확장, In-context Learning(ICL) 개념 도입.
- 모델이 추가 훈련 없이도 지시문(prompt)만 보고 작업을 수행 가능.
- Codex (2021):
- GitHub 코드 데이터로 추가 훈련하여 코딩 능력 강화.
- 코드 자동 완성 및 수학 문제 해결 능력 향상.
- GPT-3.5 (2022):
- 코드 학습 모델(Code-Davinci-002) 기반으로 개선.
- 강화 학습을 통한 인간 정렬(RLHF, Reinforcement Learning with Human Feedback) 도입.
- GPT-4 (2023):
- 멀티모달(Multimodal) 기능 추가 → 이미지 입력 가능(GPT-4V).
- 더 복잡한 작업을 수행할 수 있도록 최적화.
- 안전성 강화 → 유해한 콘텐츠 생성 방지를 위한 조치 적용.
3. GPT 모델의 성능 향상 전략
📌 (1) 코드 데이터 학습 (Training on Code Data)
- GPT-3의 한계:
- 일반적인 텍스트 학습으로는 복잡한 논리적 추론(코딩, 수학 문제 해결)에 약점이 있음.
- 해결 방법:
- Codex (2021) 출시 → GPT 모델을 GitHub 코드 데이터로 미세 조정하여 코딩 능력 향상.
- 이후 GPT-3.5 모델 (Code-Davinci-002 기반)로 발전.
- 코드 학습이 LLM의 Chain-of-Thought (CoT) 프롬프팅 능력 향상에도 기여할 가능성이 제기됨.
📌 (2) 인간 정렬 (Human Alignment)
- 강화 학습을 통한 인간 피드백(RLHF) 적용
- 초기 연구(2017)에서 시작, GPT-2부터 적용됨.
- **InstructGPT (2022)**에서 본격적으로 3단계 RLHF 알고리즘 정립.
- 효과:
- 모델이 인간의 기대에 맞춘 답변을 생성하도록 최적화됨.
- 유해 콘텐츠 생성 방지 및 윤리적 AI 구현에 기여.
4. GPT-4 및 최신 모델 발전
📌 ChatGPT (2022)
- GPT-3.5 및 GPT-4 기반 대화형 AI 모델.
- 기본적인 GPT 모델에서 "대화(Dialogue)" 최적화 적용.
- 이전 GPT 모델보다 더 자연스러운 문맥 추적 및 응답 생성 가능.
📌 GPT-4 (2023)
- GPT-3.5보다 더 강력한 추론 및 복잡한 문제 해결 능력.
- 멀티모달 지원(GPT-4V) → 이미지와 텍스트 입력 가능.
- 6개월간의 강화 학습을 거쳐, 유해한 응답을 최소화하도록 설계됨.
- OpenAI는 "Predictable Scaling" 기법을 통해 모델 성능을 미리 예측하는 방식 개발.
📌 GPT-4V 및 GPT-4 Turbo (2023)
- GPT-4V:
- GPT-4에 비전(Visual) 기능 추가 → 이미지 분석 가능.
- 강화된 안전 조치 적용(Red Teaming 기법).
- GPT-4 Turbo:
- GPT-4보다 더 빠르고, 더 저렴한 모델.
- 멀티모달 처리 능력 강화 및 긴 문맥 윈도우 지원.
📌 요약:
- GPT 시리즈는 2018년부터 지속적인 발전을 거듭하며 성능 향상.
- GPT-3에서 In-context Learning(ICL)이 도입되어 모델의 범용성이 증가.
- Codex를 통해 코딩 능력이 강화되었으며, GPT-3.5 및 GPT-4는 RLHF를 적용하여 인간 정렬이 최적화됨.
- GPT-4V는 멀티모달 기능을 추가하여 이미지 분석까지 가능해짐.
1. 최신 GPT 모델 발전: GPT-4 Turbo & 멀티모달 AI
📌 GPT-4 Turbo (2023년 11월 발표, OpenAI DevDay)
- GPT-4보다 더 강력한 성능 제공 (모델 최적화).
- 지식 업데이트 (최대 2023년 4월까지 반영).
- 긴 컨텍스트 윈도우 지원 (128K 토큰).
- 비용 절감 및 실행 속도 향상.
- 새로운 API 도입: 개발자들이 AI 기반 에이전트(Agent) 시스템을 쉽게 구축 가능.
- 멀티모달 기능 확장:
- GPT-4 Turbo Vision(GPT-4V) → 이미지 이해 가능.
- DALL·E 3 통합 → 이미지 생성 가능.
- TTS(Text-to-Speech) → 음성 생성 지원.
- 음성 인식 기능 추가.
💡 결론: GPT-4 Turbo는 OpenAI의 최신 모델로, AI 생태계를 확장하고 사용자 편의성을 강화함.
2. 대규모 언어 모델(LLM) 개발을 위한 공개 리소스
📌 LLM 개발의 난제:
- 훈련 비용이 매우 높음.
- 고성능 하드웨어(GPU/TPU)가 필요.
- 대용량 데이터 세트 필요.
💡 대안: 연구자들은 기존 모델을 활용하여 공개된 체크포인트(model checkpoints)나 API를 사용해 개발할 수 있음.
📌 공개된 주요 모델 체크포인트
- LLaMA 시리즈 (Meta)
- **LLaMA-3.1 (405B 파라미터)**까지 발전.
- 훈련 데이터: 15조 개 토큰 사용.
- 128K 컨텍스트 윈도우 지원.
- GPT-4 및 Claude 3.5 Sonnet과 경쟁 가능한 성능.
- 훈련 시 16,000개 이상의 H100 GPU 사용.
- Mistral 시리즈
- Mistral 7B, Mistral NeMo (12B), Mistral Large 2 (123B).
- Mixtral 모델(8×7B, 8×22B) → 일부 파라미터만 활성화하는 SMoE(Sparse Mixture of Experts) 방식으로 효율성 강화.
- Gemma 시리즈
- Gemma-2 (2B, 9B, 27B) → TPUv5p 사용하여 학습.
- 다양한 벤치마크에서 우수한 성능 기록 (ARC-c, MMLU, GSM8K).
- Qwen 시리즈 (Alibaba Cloud)
- 최신 모델 Qwen2.5 (0.5B~72B) → 18T 토큰으로 사전 학습됨.
- 코딩, 수학, 장문 생성 능력 강화.
- GLM 시리즈
- GLM-4 (최대 9B) → 영어 및 중국어에 최적화된 모델.
- GLM-4-9B-Chat (대화 최적화 모델).
- Baichuan 시리즈
- 중국어 및 영어 지원 (Baichuan-2: 7B & 13B 모델).
- 의료 및 법률 분야에서 활용 가능 (MedQA, JEC-QA).
3. LLaMA 모델의 발전 과정
📌 Fig. 5: LLaMA 모델의 진화 그래프
- LLaMA 모델은 Meta에서 2023년 공개한 오픈소스 LLM.
- 연구자들이 LLaMA를 기반으로 다양한 버전(Alpaca, Vicuna 등)을 개발.
- Alpaca (Stanford, 2023): ChatGPT 데이터로 미세 조정한 최초의 LLaMA 기반 대화 모델.
- Vicuna (2023): 사용자 공유 대화 데이터(ShareGPT)로 훈련한 LLaMA 모델.
- LLaVA, MiniGPT-4, PandaGPT 등 멀티모달 기능 추가 모델 등장.
📌 요약:
- GPT-4 Turbo는 성능 향상, 비용 절감, 멀티모달 기능 추가.
- 연구자들은 공개된 LLM 체크포인트(LLaMA, Mistral, Qwen, GLM 등)를 활용하여 AI 개발 가능.
- LLaMA 기반의 다양한 모델(Alpaca, Vicuna 등)이 연구되고 있음.
1. 대규모 언어 모델(LLM) API 및 데이터 소스
📌 LLM 사용 방식:
- 연구자들은 로컬에서 직접 모델을 실행하는 대신 API를 활용하여 LLM을 사용할 수 있음.
- OpenAI의 GPT-3, GPT-4 API는 연구 및 산업에서 가장 널리 사용됨.
📌 GPT 모델의 API 인터페이스
- GPT-3 API (2020)
- 모델별 인터페이스: ada, babbage, curie, davinci (가장 강력한 버전).
- Codex API: 코드 자동 완성을 위한 code-cushman-001, code-davinci-002.
- GPT-3.5 API (2022)
- 기반 모델: code-davinci-002.
- 고급 모델: text-davinci-002, text-davinci-003, gpt-3.5-turbo.
- GPT-4 API (2023)
- GPT-4 시리즈: gpt-4, gpt-4-32k.
- GPT-4 Turbo: gpt-4-1106-preview.
- 멀티모달 AI: gpt-4-vision-preview (GPT-4 Turbo + 비전).
💡 결론: OpenAI는 지속적으로 API를 개선하며, 최신 모델을 제공하기 위해 API 이름을 유지하면서 내부 모델을 업데이트함.
2. 대규모 언어 모델 훈련을 위한 주요 데이터 소스
📌 LLM은 방대한 데이터를 활용하여 훈련됨.
- 기존 PLM(Pre-trained Language Models)보다 훨씬 더 많은 데이터를 요구함.
- LLM 연구자들은 다양한 공개된 데이터셋을 조합하여 모델을 훈련함.
📌 주요 훈련 데이터 카테고리
1️⃣ 웹 페이지 데이터
- CommonCrawl (최대 규모의 웹 크롤링 데이터, 페타바이트 단위).
- C4 (Colossal Clean Crawled Corpus) → Google T5 및 LaMDA 훈련에 사용.
- RedPajama-Data → 30T 토큰 규모의 다국어 데이터.
- RefinedWeb → CommonCrawl에서 정제된 5T 토큰 데이터.
2️⃣ 책 및 학술 데이터
- BookCorpus (5GB, 11,000권의 책 포함) → GPT-2 훈련 데이터.
- Gutenberg 프로젝트 (70,000권 이상의 문학작품 포함) → MT-NLG 및 LLaMA 훈련에 사용.
- arXiv 논문 데이터 (1.7M 논문 포함) → 과학 논문을 기반으로 한 훈련.
- S2ORC (136M 논문 포함) → Semantic Scholar에서 수집한 학술 데이터.
3️⃣ 코드 데이터
- GitHub 코드 저장소 및 StackOverflow 데이터 활용.
- Google BigQuery → 다중 프로그래밍 언어 코드 포함.
- The Stack (Hugging Face 제공, 358개 언어 포함).
- StarCoder (BigCode에서 처리한 코드 데이터).
4️⃣ 혼합 데이터 (Mixed Data)
- The Pile (800GB) → 책, 웹, 코드, 과학 논문, 소셜 미디어 포함.
- ROOTS (1.6TB, 59개 언어 포함) → BLOOM 훈련에 사용.
- Dolma (200TB 텍스트 데이터, 3T 토큰 규모) → OLMo 훈련에 사용.
💡 결론:
- LLM은 단일 데이터셋이 아니라 여러 데이터 소스를 혼합하여 훈련됨.
- 최신 연구에서는 특정 애플리케이션에 적합한 데이터를 추가하여 세밀한 모델 훈련을 진행함.
3. LLM 미세 조정을 위한 데이터셋
📌 LLM은 사전 훈련 후, 특정 작업에 맞게 미세 조정이 필요함.
- Instruction Tuning (지도 학습 기반 조정).
- Alignment Tuning (인간 가치에 맞춘 조정).
📌 Instruction Tuning 데이터셋 (지도 학습)
- FLAN (4.4M 샘플) → OpenAI의 Supervised Fine-Tuning (SFT)에 사용.
- Alpaca (52K 샘플) → GPT-3 기반으로 생성된 학습 데이터.
- BELLE (1.5M 샘플) → 다국어 지시문 학습에 사용됨.
- OpenAssistant (161K 샘플) → AI 도우미 역할 학습 데이터.
📌 Alignment Tuning 데이터셋 (인간 가치 조정)
- HH-RLHF (169K 샘플) → 강화 학습 기반으로 인간 가치 정렬.
- WebGPT Comparisons (19K 샘플) → 모델이 생성한 응답 비교 학습.
- PKU-SafeRLHF (330K 샘플) → 안전한 AI 모델 학습을 위한 강화 학습 데이터.
💡 결론:
- Instruction Tuning을 통해 LLM이 특정 작업을 더 잘 수행하도록 학습됨.
- Alignment Tuning은 AI가 인간의 가치에 맞게 동작하도록 조정하는 과정임.
📌 요약:
- OpenAI API는 최신 GPT 모델을 활용할 수 있도록 지속적으로 업데이트됨.
- LLM 훈련에는 웹, 책, 코드, 학술 논문 등 방대한 데이터가 사용됨.
- 미세 조정(Instruction & Alignment Tuning)을 통해 모델 성능이 향상됨.
1. LLM 미세 조정을 위한 데이터셋 (Instruction & Alignment Tuning)
📌 LLM은 사전 훈련 이후, 특정 작업에 맞게 미세 조정이 필요함.
- Instruction Tuning → 특정 작업 수행 능력 강화.
- Alignment Tuning → AI가 인간의 가치(안전성, 유용성 등)에 맞게 동작하도록 조정.
📌 (1) Instruction Tuning 데이터셋
👉 3가지 주요 유형으로 분류됨
1️⃣ NLP 작업 기반 데이터셋 (예: 텍스트 분류, 요약 등)
- P3 → 170개 NLP 데이터셋 기반, 2,052개 프롬프트 템플릿 제공.
- FLAN → 62개 NLP 벤치마크 포함, 최신 FLAN-v2는 CoT, Muffin, T0-SF 추가.
2️⃣ 대화형 데이터셋 (사용자와 AI 간 대화 기반)
- ShareGPT → ChatGPT 및 GPT-4와의 실제 대화 데이터 (90K 개 대화).
- OpenAssistant → 66,497개 다국어 대화 데이터, 35개 언어 지원.
- Dolly → 15K 개의 인간 생성 데이터 (Databricks 제공).
3️⃣ 합성 데이터셋 (LLM을 이용해 생성된 데이터)
- Self-Instruct-52K → 52K 개의 합성 지시문 데이터, GPT-3 기반 생성.
- Alpaca → Self-Instruct 방식으로 생성된 데이터셋 (Stanford 연구).
- Baize → ChatGPT를 활용한 111.5K 개 다중턴 대화 데이터.
📌 (2) Alignment Tuning 데이터셋
👉 AI가 인간의 가치(안전성, 정직성, 유용성 등)를 따르도록 조정하는 데이터셋
- HH-RLHF → 169K 개 데이터, AI 응답의 도움 여부 & 안전성 평가.
- SHP → 385K 개 질문-응답 데이터, Reddit 기반.
- PKU-SafeRLHF → 330K 개 안전성 평가 데이터, 14개 위험 카테고리 포함.
- Stack Exchange Preferences → Stack Overflow의 10M 개 질문-응답 데이터.
- Sandbox Alignment Data → LLM이 자체 평가를 수행하는 데이터 (169K 개).
💡 결론:
- Instruction Tuning을 통해 AI가 특정 작업을 더 잘 수행하도록 조정.
- Alignment Tuning은 AI가 윤리적이고 안전한 방식으로 동작하도록 훈련.
2. 대규모 언어 모델(LLM) 개발을 위한 주요 라이브러리
📌 LLM 개발을 지원하는 다양한 오픈소스 툴 제공됨.
📌 (1) Transformer 기반 모델 라이브러리
- Transformers (Hugging Face) → 트랜스포머 모델 구축 및 활용을 위한 핵심 라이브러리.
- Megatron-LM (NVIDIA) → 대규모 모델 훈련 최적화, 병렬 연산 지원.
📌 (2) 훈련 최적화 라이브러리
- DeepSpeed (Microsoft) → 대규모 모델 학습을 위한 메모리 최적화, 병렬 처리 지원.
- JAX (Google) → GPU/TPU 가속 지원, 고성능 계산 가능.
- Colossal-AI → LLaMA 기반 대규모 AI 훈련 최적화.
📌 (3) Mixture-of-Experts (MoE) 모델 지원
- FastMoE → MoE 모델을 쉽게 구현하고 훈련 가능.
📌 (4) LLM 추론(Serving) 라이브러리
- vLLM → 빠르고 메모리 효율적인 LLM 추론 라이브러리, OpenAI API와 호환 가능.
- DeepSpeed-MII → 저비용, 고속 텍스트 생성 최적화.
💡 결론:
- 연구자들은 Hugging Face, NVIDIA, Google 등의 오픈소스 라이브러리를 활용하여 LLM을 개발할 수 있음.
3. LLM의 사전 훈련 (Pre-training)
📌 사전 훈련(Pre-training)은 LLM의 성능을 결정하는 핵심 과정.
- 대규모 코퍼스를 활용하여 언어 이해 및 생성 능력을 학습.
- 훈련 데이터의 규모와 품질이 모델 성능에 큰 영향을 미침.
- 모델 구조, 가속화 기법, 최적화 기술이 함께 고려되어야 함.
👉 다음 섹션에서는 데이터 수집 및 처리 기법을 더 자세히 다룰 예정.
📌 요약:
- Instruction Tuning & Alignment Tuning을 통해 LLM의 성능과 안전성을 최적화함.
- Hugging Face, NVIDIA, Microsoft 등의 오픈소스 라이브러리를 활용하여 LLM을 구축 가능.
- LLM의 성능을 높이기 위해 사전 훈련이 필수적이며, 데이터 수집 및 최적화 기법이 중요.
1. LLM 사전 훈련을 위한 데이터 수집 및 처리
📌 대규모 언어 모델(LLM)의 성능은 훈련 데이터의 품질과 양에 의해 크게 좌우됨.
- 기존 소형 언어 모델보다 훨씬 더 많은 양의 고품질 데이터가 필요함.
- 데이터 출처, 전처리 방법, 품질 평가 방식이 모델 성능에 영향을 미침.
2. LLM 사전 훈련 데이터의 주요 출처
👉 일반 데이터(General Data)와 특수 데이터(Specialized Data)로 분류됨.
📌 (1) 일반 데이터 (General Data)
일반적인 자연어 처리 능력을 학습하는 데 사용됨.
- 웹 데이터 (Webpages) → 다양한 언어 및 주제 포함, CommonCrawl 사용.
- 대화 데이터 (Conversation Texts) → 소셜 미디어, Reddit, OpenWebText 등 활용.
- 책 데이터 (Books) → 장문의 문맥 학습을 위해 사용됨 (BookCorpus, Gutenberg).
📌 (2) 특수 데이터 (Specialized Data)
특정 작업 수행 능력을 강화하기 위한 데이터.
- 다국어 텍스트 (Multilingual Texts) → 번역, 다국어 요약, QA 성능 향상.
- BLOOM (46개 언어), PaLM (122개 언어) 포함.
- 과학 데이터 (Scientific Texts) → 연구 논문, 수학 교재, 논문 초록 데이터 활용.
- arXiv, PubMed Abstracts, 수학 공식 데이터 포함.
- 코드 데이터 (Code Data) → 프로그램 코드 학습을 통한 논리적 추론 능력 향상.
- GitHub, Stack Exchange, CodeGen 데이터 사용.
- LLM이 코드를 학습하면 Chain-of-Thought(논리적 추론) 능력이 증가할 가능성 있음.
💡 결론:
- 일반 데이터는 언어 모델의 기본 능력을 키우는 역할을 함.
- 특수 데이터는 다국어 처리, 과학적 추론, 코드 생성 등 특정 능력을 강화하는 데 사용됨.
3. 데이터 전처리 및 품질 개선 기법
📌 데이터 전처리는 모델 훈련의 필수 단계로, 노이즈를 제거하고 데이터 품질을 향상시킴.
- Data-Juicer → 50개 이상의 데이터 처리 도구 제공.
- 데이터 품질이 낮으면 모델의 성능도 저하됨.
📌 (1) 데이터 필터링 및 선택
👉 두 가지 방법이 주로 사용됨.
1️⃣ 분류 기반 필터링 (Classifier-based Filtering)
- 고품질 데이터로 훈련된 분류기를 사용하여 저품질 데이터를 자동으로 제거.
- 예: Wikipedia 같은 데이터는 유지, 스팸이나 광고성 데이터는 제거.
- 단점: 일부 방언, 구어체 문장이 의도치 않게 삭제될 수 있음.
2️⃣ 규칙 기반 필터링 (Heuristic-based Filtering)
- 특정 규칙을 적용하여 데이터 품질을 향상시킴.
- 예:
- 언어 기반 필터링 → LLM이 특정 언어만 학습하도록 다른 언어 제거.
- 문법적 품질 필터링 → 문장이 부자연스럽거나 의미 없는 경우 삭제.
- 통계 기반 필터링 → 문장 길이, 구두점 사용 비율 등을 평가하여 품질 낮은 데이터 제외.
- 키워드 기반 필터링 → HTML 태그, 광고 문구, 욕설 등을 감지하여 제거.
💡 결론:
- Classifier-based Filtering은 자동화되어 있지만, 방언 및 구어체를 삭제할 가능성이 있음.
- Heuristic-based Filtering은 수동 조정이 필요하지만, 보다 정밀한 품질 관리를 가능하게 함.
📌 (2) 데이터 중복 제거 (De-duplication)
👉 반복된 데이터를 제거하면 모델 훈련의 효율성이 증가함.
- 중복 데이터가 많으면 모델이 불필요한 반복 학습을 하게 되어 성능이 저하될 수 있음.
- 중복 제거는 문장 수준, 문서 수준, 데이터셋 수준에서 수행됨.
💡 결론:
- 불필요한 데이터 중복을 줄이면 모델 학습 속도가 향상되고 성능이 최적화됨.
📌 요약:
- LLM 훈련 데이터는 일반 데이터(웹, 책, 대화)와 특수 데이터(다국어, 과학, 코드)로 나뉨.
- 필터링 기법(분류 기반, 규칙 기반)을 활용해 데이터 품질을 최적화함.
- 중복 데이터를 제거하면 모델의 성능과 학습 속도가 향상됨.
1. LLM 데이터 전처리 및 사전 훈련 데이터 관리
📌 데이터 전처리 과정
- 데이터 필터링 & 선택: 저품질 데이터를 제거하여 모델 성능 향상.
- 중복 제거 (De-duplication): 동일한 데이터를 반복 학습하는 것을 방지하여 효율적인 학습 진행.
- 개인정보 보호 (Privacy Reduction): 훈련 데이터에서 개인 정보를 자동 제거(예: 이름, 주소, 전화번호).
- 토큰화(Tokenization): 텍스트를 모델이 이해할 수 있는 작은 단위(토큰)로 변환.
📌 주요 토큰화 기법
1️⃣ Byte-Pair Encoding (BPE) → GPT-2, BART, LLaMA에서 사용됨.
2️⃣ WordPiece → BERT에서 사용됨.
3️⃣ Unigram Tokenization → T5, mBART에서 사용됨.
💡 결론: 데이터 품질이 모델 성능에 직접적인 영향을 미치므로 노이즈 필터링, 개인정보 보호, 중복 제거, 토큰화 과정이 필수적임.
2. LLM의 데이터 스케줄링 및 학습 전략
📌 데이터 스케줄링 (Data Scheduling)
- 사전 훈련을 위한 데이터셋을 어떻게 배치할지 결정하는 과정.
- LLaMA, PaLM 등의 모델들은 웹 데이터 80%, 코드 데이터 6.5%, 책 4.5%, 학술 논문 2.5% 비율로 데이터 혼합.
📌 데이터 커리큘럼 학습 (Data Curriculum Learning)
- 처음에는 일반적인 데이터로 학습하고, 이후에 특정 작업을 위한 특수 데이터로 학습 전환.
- 예제:
- CodeLLaMA → 기본 텍스트 학습 후 코드 학습 (2T 일반 토큰 → 500B 코드 데이터).
- Llemma → 수학 능력 강화를 위해 수학 논문과 코드 포함 (2T 일반 토큰 → 500B 코드 → 50~200B 수학 데이터).
- LongLLaMA → 긴 문맥 모델링 개선 (2K 컨텍스트 → 8K 컨텍스트 확장).
💡 결론: 특정 능력(코딩, 수학, 긴 문맥 이해)을 향상시키려면 단계적으로 학습 데이터 순서를 조정하는 것이 중요함.
3. LLM의 주요 아키텍처 (Architecture)
📌 LLM의 아키텍처는 크게 3가지로 구분됨.
1️⃣ 인코더-디코더 (Encoder-Decoder) 구조
- T5, BART와 같은 모델에서 사용됨.
- 입력 시퀀스를 인코더가 압축하고, 디코더가 이를 바탕으로 출력을 생성.
- 장점: 자연어 이해 및 생성 모두 가능.
- 단점: 계산량이 많고 속도가 느림.
2️⃣ 인과적 디코더 (Causal Decoder) 구조
- GPT-3, LLaMA 같은 모델에서 사용됨.
- 입력된 단어를 기반으로 다음 단어를 하나씩 예측.
- 장점: 자연어 생성에 최적화됨.
- 단점: 문맥 이해가 제한적일 수 있음.
3️⃣ 프리픽스 디코더 (Prefix Decoder) 구조
- GLM-130B, U-PaLM에서 사용됨.
- 입력 시퀀스(프리픽스)는 양방향으로 처리하고, 이후는 한 방향으로 처리.
- 장점: GPT처럼 생성 가능하면서도, BERT처럼 강력한 문맥 이해 가능.
💡 결론:
- GPT-3 계열 모델은 인과적 디코더 구조를 사용하여 자연어 생성을 최적화.
- T5, BART 계열 모델은 인코더-디코더 구조를 사용하여 자연어 이해 및 생성을 동시에 수행.
4. Mixture-of-Experts (MoE) 모델
📌 MoE 모델이란?
- 여러 개의 전문가 네트워크(Experts) 중 일부만 활성화하여 학습하는 구조.
- 장점: 계산량을 줄이면서도 성능을 높일 수 있음.
- 예제: Switch Transformer, GLaM, 그리고 GPT-4가 MoE 구조일 가능성이 있음(공식 발표 없음).
📌 Emergent Architectures (신흥 아키텍처)
- 기존 Transformer의 연산량이 커서 새로운 아키텍처가 등장.
1️⃣ Mamba → RNN과 CNN을 결합하여 정보 처리 최적화.
2️⃣ RWKV → Transformer와 RNN의 장점을 결합한 하이브리드 모델.
3️⃣ RetNet → Multi-Scale Retention 기법을 활용한 새로운 아키텍처.
4️⃣ Hyena → Attention을 대체할 수 있는 Long Convolution 기법 사용.
💡 결론: Transformer 기반 모델은 강력하지만 계산량이 많아 새로운 아키텍처(RWKV, Mamba 등)가 연구되고 있음.
5. Transformer 기반 LLM의 핵심 구성 요소
📌 LLM의 성능을 최적화하는 주요 요소
1️⃣ 정규화 기법 (Normalization Methods)
- LayerNorm: Transformer 기본 정규화 기법.
- RMSNorm: 계산량 절약 가능 (Gopher, Chinchilla 사용).
- DeepNorm: 초대형 모델 안정화 (GLM-130B에서 사용).
2️⃣ 위치 임베딩 (Position Embeddings)
- 절대적 임베딩 (Absolute PE): Transformer 기본 방식.
- 상대적 임베딩 (Relative PE): Transformer-XL에서 개선됨.
- 로터리 임베딩 (RoPE): GPT-4, LLaMA에서 사용됨.
3️⃣ 활성화 함수 (Activation Functions)
- GeLU: GPT-3, T5 등 대부분의 LLM이 사용.
- SwiGLU, GeGLU: PaLM, LaMDA에서 사용됨.
💡 결론:
- 최신 LLM은 LayerNorm 대신 RMSNorm을 사용하여 안정성을 강화하고,
- 로터리 임베딩(RoPE)과 새로운 활성화 함수(SwiGLU, GeGLU)를 적용하여 성능을 최적화함.
📌 최종 요약:
1️⃣ LLM의 성능은 데이터 품질과 전처리 방식에 의해 크게 좌우됨.
2️⃣ 특정 능력을 강화하려면 "데이터 커리큘럼 학습"을 활용하는 것이 효과적임.
3️⃣ GPT-3 계열 모델은 인과적 디코더(Causal Decoder) 구조를 사용하여 자연어 생성 성능을 극대화함.
4️⃣ Mixture-of-Experts(MoE)와 새로운 신흥 아키텍처(RWKV, Mamba, RetNet)가 연구되고 있음.
5️⃣ 정규화, 위치 임베딩, 활성화 함수 등의 세부 기술이 LLM 성능 최적화에 중요한 역할을 함.
1. LLM 아키텍처 최적화 기법
📌 LLM 모델의 성능을 높이기 위해 다양한 최적화 기법이 사용됨.
📌 (1) 정규화 방법 (Normalization Methods)
- Post Norm → LayerNorm을 출력에 적용.
- Pre Norm → 입력 데이터에 정규화를 적용하여 학습 안정성을 높임.
- Sandwich Norm → 입력과 출력 양쪽에 정규화를 적용하여 더 깊은 네트워크 학습 가능.
- RMSNorm → 메모리 사용량을 줄이면서도 안정적인 학습 제공.
- DeepNorm → 초대형 모델의 학습 안정성을 강화.
💡 결론: 최신 모델들은 일반 LayerNorm보다 RMSNorm 또는 DeepNorm을 활용하여 학습 안정성을 개선함.
📌 (2) 활성화 함수 (Activation Functions)
- ReLU → 단순하지만, 정보 손실이 있을 수 있음.
- GeLU (GPT-3, BERT 사용) → 성능이 향상된 활성화 함수.
- Swish (Google PaLM 사용) → 더 부드러운 활성화로 학습 최적화.
- SwiGLU, GeGLU (PaLM, GPT-4 사용) → GeLU 및 Swish를 결합하여 성능 개선.
💡 결론: 최신 LLM들은 SwiGLU 또는 GeGLU를 사용하여 더 강력한 학습 능력을 확보함.
📌 (3) 위치 임베딩 (Position Embeddings)
- Absolute PE → 기존 Transformer 방식 (위치 정보를 절대적 값으로 설정).
- Relative PE (T5, Transformer-XL 사용) → 문맥을 고려한 상대적 위치 적용.
- RoPE (GPT-4, LLaMA 사용) → 회전 기반의 상대적 위치 정보 적용.
- ALiBi (BLOOM 사용) → 사전 정의된 거리 기반 패널티 방식으로 긴 문맥 모델링 최적화.
💡 결론: RoPE와 ALiBi가 최신 LLM에서 가장 많이 활용되며, 긴 문맥 이해 능력이 뛰어남.
2. Transformer 모델의 주의(attention) 기법
📌 Transformer의 핵심 요소인 Attention 기법을 최적화하여 성능을 높임.
📌 (1) Sparse Attention
- GPT-3에서 Factorized Attention 적용 → 일부 토큰만 주의(attention)하여 연산량 감소.
- Longformer, BigBird → 긴 문서 처리를 위한 sparse attention 기법 사용.
📌 (2) Multi-query & Grouped-query Attention
- Multi-query Attention (PaLM, StarCoder 사용) → 속도 최적화.
- Grouped-query Attention (LLaMA 2 사용) → 여러 개의 attention head를 그룹화하여 효율성을 증가.
📌 (3) FlashAttention & PagedAttention
- FlashAttention (CUDA 최적화 적용) → GPU 성능 극대화.
- PagedAttention → 메모리 사용량 최적화, 대형 모델을 실행할 때 활용.
💡 결론: 최신 LLM들은 FlashAttention과 PagedAttention을 사용하여 속도를 최적화하고 있음.
3. LLM 사전 훈련(Pre-training) 방식
📌 LLM의 성능을 높이기 위해 다양한 사전 훈련 기법이 사용됨.
📌 (1) 언어 모델링(Language Modeling)
- Decoder-only 모델 (GPT-3, PaLM 사용) → 다음 단어를 예측하는 방식.
- Prefix Language Modeling (GLM 사용) → 일부 입력 토큰을 감춰서 학습.
💡 결론: GPT 계열 모델은 autoregressive 방식으로 학습하여 강력한 텍스트 생성 능력을 가짐.
📌 (2) 디노이징 오토인코딩(Denoising Autoencoding)
- T5, GLM-130B에서 사용 → 입력 문장의 일부를 랜덤하게 변형한 후 원래 문장을 복원하도록 학습.
- UL2 Loss (PaLM 2 적용) → 언어 모델링과 DAE를 결합한 새로운 손실 함수.
💡 결론: GPT 계열 모델은 언어 모델링을, T5 계열 모델은 DAE를 활용하여 강력한 텍스트 이해 능력을 갖춤.
4. LLM 디코딩(Decoding) 전략
📌 LLM이 응답을 생성하는 방식 최적화
📌 (1) Greedy Search & Beam Search
- Greedy Search → 가장 확률이 높은 단어를 선택 (빠르지만 다양성이 부족함).
- Beam Search → 여러 개의 후보 문장을 생성하여 최적 문장을 선택.
📌 (2) 확률적 샘플링(Probabilistic Sampling)
- Top-k Sampling (GPT-3 사용) → 상위 k개 단어에서 랜덤 샘플링.
- Top-p Sampling (GPT-3, LLaMA 사용) → 누적 확률이 p 이상인 단어 중에서 샘플링.
💡 결론: 최신 LLM은 Top-k 및 Top-p 샘플링을 사용하여 자연스럽고 창의적인 텍스트를 생성함.
5. LLM 모델 훈련 최적화 기법
📌 LLM을 효과적으로 훈련하기 위한 최적화 기법
📌 (1) 배치 크기(Batch Size) & 학습률(Learning Rate) 조정
- GPT-3: 32K → 3.2M 토큰까지 점진적으로 증가
- PaLM: 4M 토큰까지 확장 가능
📌 (2) 3D 병렬 학습(Parallel Training)
- Data Parallelism → 여러 GPU에 데이터를 분산하여 학습 속도 증가.
- Pipeline Parallelism → 모델을 여러 층으로 나누어 각 GPU가 연산 분담.
- Tensor Parallelism → 모델의 행렬 연산을 여러 GPU에 분산.
💡 결론: 최신 LLM들은 3D 병렬 학습을 사용하여 수백 개의 GPU에서 빠르게 학습함.
📌 (3) 혼합 정밀도 학습(Mixed Precision Training)
- FP16 (GPT-3 사용) → 부동소수점 16비트 연산으로 메모리 절약.
- BF16 (PaLM 사용) → 학습 정확도를 유지하면서도 연산 최적화.
💡 결론: 최신 LLM들은 BF16을 사용하여 학습 정확도를 유지하면서도 성능을 최적화함.
6. LLM 사후 훈련(Post-training)
📌 훈련 후 성능을 향상시키는 기법
📌 (1) Instruction Tuning (지시문 학습)
- InstructGPT, GPT-4에서 사용.
- AI 모델이 사람이 이해할 수 있는 지시문을 따르는 능력을 강화.
📌 (2) Alignment Tuning (인간 가치 정렬)
- RLHF (강화 학습 기반 인간 피드백) 적용.
- AI가 윤리적이고 안전한 응답을 생성하도록 조정.
💡 결론: 최신 LLM들은 Instruction Tuning과 RLHF를 활용하여 인간 친화적인 AI를 개발함.
📌 최종 요약:
- 최신 LLM들은 RoPE, SwiGLU, FlashAttention, 3D 병렬 학습을 활용하여 성능을 극대화함.
- Top-p Sampling과 Instruction Tuning을 통해 자연스러운 대화를 생성할 수 있도록 최적화됨.
- GPT-4, PaLM 2 같은 최신 모델은 BF16을 활용하여 더 효율적으로 학습 가능.
1. LLM의 Instruction Tuning (지시문 학습)
📌 Instruction Tuning이란?
- 모델이 자연어 지시문을 이해하고 특정 작업을 수행하도록 미세 조정하는 과정.
- 사전 훈련된 LLM이 새로운 작업을 일반화하는 능력을 향상시키는 중요한 기술.
📌 주요 지시문 학습 방식
1️⃣ Human-Written Data → 사람이 작성한 고품질 지시문 및 응답.
2️⃣ Real-world Chat Data → OpenAI API에서 실제 사용자 질문을 활용.
3️⃣ Synthetic Data (Self-Instruct, WizardLM) → LLM이 스스로 데이터를 생성하여 학습.
💡 결론: 다양한 지시문 데이터를 학습하는 것이 LLM의 성능을 향상시키는 핵심 요소.
2. Instruction Dataset 구축 방법
📌 지시문 데이터셋의 주요 특징
- Scale (규모): 다양한 작업을 포함할수록 모델의 일반화 능력이 향상됨.
- Diversity (다양성): 지시문의 길이, 구조, 창의성이 중요한 역할.
- Quality (품질): 잘 설계된 프롬프트가 모델 성능을 크게 향상시킴.
📌 데이터셋 생성 방법
1️⃣ Crowd-sourcing (예: PromptSource) → 사람이 직접 작성한 고품질 데이터.
2️⃣ Self-Instruct (자체 생성) → 모델이 기존 데이터에서 학습하여 새로운 데이터 생성.
3️⃣ Filtered Synthetic Data (WizardLM, Self-Align) → 품질이 낮은 데이터를 걸러내고 강화된 데이터 사용.
💡 결론: 사람이 작성한 데이터 + 모델이 생성한 데이터의 조합이 가장 효과적.
3. Instruction Tuning의 효과
📌 Instruction Tuning을 하면 LLM이 더 강력해짐.
📌 (1) 성능 향상 (Performance Improvement)
- 다양한 모델에서 Instruction Tuning이 일관되게 성능을 향상시킴.
- 작은 모델도 지시문 학습을 하면 큰 모델과 유사한 성능을 낼 수 있음.
- LLaMA 7B가 Instruction Tuning 후 LLaMA 13B 모델과 비슷한 성능을 보이기도 함.
📌 (2) 작업 일반화 능력 향상 (Task Generalization)
- Instruction Tuning이 모델의 "Emergent Abilities"를 향상시킴.
- 새로운 작업도 추가 학습 없이 수행 가능 → 영어 학습 후 다국어 능력이 자연스럽게 증가.
- BLOOMZ-P3 모델은 영어 데이터로 학습했지만 50% 이상의 다국어 성능 향상을 기록.
📌 (3) 특정 도메인 전문성 강화 (Domain Specialization)
- 의료, 법률, 금융 등 전문 분야 모델을 만들기 위해 Instruction Tuning이 필수적.
- 예제:
- Med-PaLM → 의료 데이터 학습 후 의사 수준의 성능 달성.
- 법률 AI (LegalBench) → 판례 및 법률 문서 기반 학습.
- 금융 AI (FinGPT) → 주식 및 경제 데이터를 활용한 모델 튜닝.
💡 결론: Instruction Tuning은 LLM의 성능을 극대화하며, 전문 도메인에도 적용 가능.
4. Instruction Tuning 실험 결과
📌 LLaMA 모델을 Instruction Tuning하여 성능 비교
- FLAN-T5, ShareGPT, Self-Instruct-52K 등의 데이터셋을 활용.
- 다양한 지시문을 조합하면 성능이 향상됨.
📌 Instruction 개선 전략
1️⃣ Complexity 증가 → 논리적으로 더 복잡한 질문을 학습하면 성능이 향상됨.
2️⃣ Diversity 증가 → 다양한 주제의 지시문을 학습하면 일반화 능력이 증가함.
3️⃣ Scaling (데이터 양 증가) → 단순히 데이터 양만 늘리면 성능이 떨어질 수도 있음.
4️⃣ Difficulty Balance (난이도 조정) → 너무 쉬운/어려운 질문을 제거하여 모델 안정성 향상.
💡 결론: Instruction Tuning은 모델의 성능을 높이지만, 데이터의 품질과 다양성이 핵심 요소.
5. LLM Alignment Tuning (정렬 튜닝)
📌 LLM이 인간의 가치와 기대에 맞게 행동하도록 조정하는 과정.
- 문제점: LLM은 훈련 데이터에 기반하여 편향된 정보, 부적절한 응답을 생성할 수 있음.
- 해결책: RLHF (강화 학습 기반 인간 피드백)를 활용하여 윤리적이고 유용한 AI로 조정.
📌 Alignment 과정
1️⃣ Human Feedback Collection (사람의 피드백 수집)
- OpenAI, Anthropic 등의 연구에서 사람이 직접 AI 응답을 평가.
2️⃣ Reward Model Training (보상 모델 학습) - 인간 피드백을 바탕으로 모델이 선호하는 답변을 학습.
3️⃣ RLHF 적용 (Reinforcement Learning with Human Feedback) - 최종적으로 AI 모델이 보상 모델을 기반으로 학습 진행.
📌 GPT 모델과 RLHF 적용 사례
- InstructGPT (OpenAI) → RLHF를 적용하여 GPT-3 대비 훨씬 자연스럽고 유용한 응답 제공.
- Claude (Anthropic) → AI의 "안전성"을 극대화하는 RLHF 튜닝 방식 도입.
- ChatGPT & GPT-4 → RLHF 기반으로 인간 친화적인 응답 생성.
💡 결론: Alignment Tuning은 AI의 윤리성과 안전성을 확보하는 핵심 기술.
📌 최종 요약:
1️⃣ Instruction Tuning을 통해 LLM의 성능을 극대화할 수 있음.
2️⃣ 다양한 지시문(Complexity, Diversity, Scaling, Difficulty Balance)이 성능 향상에 기여함.
3️⃣ LLM이 새로운 작업을 수행하는 능력(Task Generalization)이 향상됨.
4️⃣ RLHF를 활용한 Alignment Tuning이 AI의 윤리성과 신뢰성을 강화함.
1. LLM의 정렬 튜닝 (Alignment Tuning) - 인간 친화적인 AI 만들기
📌 LLM이 인간의 가치에 맞게 행동하도록 조정하는 과정
📌 (1) 정렬 기준 (Alignment Criteria)
LLM이 인간의 가치와 기대를 충족시키기 위해 따라야 하는 세 가지 핵심 기준:
1️⃣ 도움이 되는 AI (Helpfulness)
- 사용자의 질문에 명확하고 간결하게 답변해야 함.
- 추가 정보가 필요하면 적절한 질문을 통해 맥락을 파악해야 함.
- 모델이 지나치게 모호하거나 불확실한 답변을 제공하면 안 됨.
2️⃣ 정직한 AI (Honesty)
- 모델이 정확한 정보를 제공해야 하며, 허구적인 내용을 생성하면 안 됨.
- 정보가 부족한 경우, "잘 모르겠다"고 답변할 수 있어야 함.
- "알고 있는 것"과 "모르는 것"을 구분하는 능력이 중요.
3️⃣ 해를 끼치지 않는 AI (Harmlessness)
- 차별적이거나 공격적인 언어를 사용하지 않도록 설계되어야 함.
- 사용자 요청이 유해하거나 불법적인 경우, 정중하게 거절해야 함.
- 하지만, "해롭다"는 개념이 주관적이므로 다양한 문화적 맥락을 고려해야 함.
💡 결론: AI가 도움이 되면서도 정직하고 해롭지 않도록 설계해야 함.
2. 인간 피드백 수집 방법 (Human Feedback Collection)
📌 사람들이 AI 응답을 평가하는 방식이 중요함.
📌 (1) 인간 평가자(Human Labeler) 선택
- 고품질 피드백을 제공하기 위해 전문 교육을 받은 평가자를 선별해야 함.
- 예: Sparrow AI는 영어가 유창한 영국 거주자를 평가자로 선정.
- OpenAI의 InstructGPT는 연구진과 인간 평가자의 의견이 일치하는지 테스트한 후 평가자를 선별함.
📌 (2) 피드백 수집 방법
1️⃣ 랭킹 기반 평가 (Ranking-based Approach)
- 여러 개의 AI 응답을 비교하여 가장 좋은 응답을 선택.
- 예: OpenAI는 Elo 점수 시스템을 사용하여 AI 응답을 랭킹화함.
2️⃣ 질문 기반 평가 (Question-based Approach)
- 평가자가 "이 응답이 유용한가?" 등의 질문을 통해 피드백 제공.
- WebGPT에서는 문서 검색 AI가 적절한 정보를 선택했는지 평가.
3️⃣ 규칙 기반 평가 (Rule-based Approach)
- Sparrow AI는 AI 응답이 "도움이 되는가, 정확한가, 해롭지 않은가"의 기준을 충족하는지 테스트함.
- GPT-4는 AI 자체가 규칙을 평가하도록 설정하여, 사람의 개입 없이 스스로 조정 가능.
💡 결론: AI 정렬을 위해서는 사람의 평가를 체계적으로 수집하고 반영하는 과정이 필수적.
3. RLHF (Reinforcement Learning from Human Feedback) - AI를 인간 친화적으로 만드는 법
📌 RLHF는 인간의 피드백을 활용하여 AI의 행동을 강화하는 방법.
📌 RLHF의 핵심 구성 요소
1️⃣ 사전 훈련된 LLM (Pre-trained LM)
- 기본적으로 학습된 AI 모델.
- 예: OpenAI는 **GPT-3 (175B 파라미터)**를 사용하여 RLHF 기반 InstructGPT 개발.
2️⃣ 보상 모델 (Reward Model, RM)
- AI 응답의 품질을 평가하는 모델.
- 일반적으로 인간 평가자가 제공한 데이터를 활용하여 학습됨.
- 예: OpenAI는 6B GPT-3 모델을 보상 모델로 사용.
3️⃣ 강화 학습 알고리즘 (RL Algorithm)
- LLM이 보상 모델을 기반으로 학습하도록 하는 알고리즘.
- **PPO(Proximal Policy Optimization)**가 가장 널리 사용됨.
💡 결론: RLHF는 AI가 인간 피드백을 학습하여 더 유용하고 안전한 응답을 제공하도록 조정하는 핵심 기술.
4. RLHF의 주요 단계
📌 RLHF는 3단계로 진행됨.
1️⃣ 지도 학습 (Supervised Fine-tuning, SFT)
- 초기 단계에서는 AI가 **"이런 질문에는 이런 답변을 해야 한다"**는 예제를 학습.
- 사람 평가자가 작성한 프롬프트 및 응답 데이터를 사용하여 AI를 튜닝함.
2️⃣ 보상 모델 훈련 (Reward Model Training)
- AI가 생성한 여러 개의 응답을 평가자들이 랭킹 매기고, 이를 학습하여 보상 모델을 개발.
- 예: InstructGPT는 사람이 직접 AI 응답을 순위 매기는 방식을 활용함.
3️⃣ 강화 학습 적용 (RL Fine-tuning)
- 보상 모델을 기반으로 AI가 반복 학습을 진행.
- 모델이 기존 응답과 보상 모델의 평가를 비교하여 더 나은 응답을 생성하도록 최적화됨.
- 예: GPT-4는 RLHF를 사용하여 AI의 "무해성(Harmlessness)"과 "도움됨(Helpfulness)"을 동시에 최적화.
💡 결론: RLHF는 AI가 인간 평가자의 피드백을 기반으로 점점 더 유용한 답변을 생성할 수 있도록 조정하는 과정.
5. RLHF의 한계점 & 대안
📌 RLHF는 강력하지만 한계도 존재함.
📌 (1) RLHF의 단점
- 훈련이 복잡함 → 보상 모델, AI 모델, 평가 모델을 동시에 학습해야 하므로 비용이 많이 듦.
- 과적합 문제 발생 가능 → 인간 피드백이 한정적이라 AI가 너무 특정한 방식으로만 학습될 수 있음.
- 보상 편향 문제 → AI가 "보상 점수를 높이는 방식"으로만 응답을 생성할 가능성이 있음.
📌 (2) RLHF 없이 정렬하는 방법 (Supervised Alignment Tuning)
- RLHF 대신 지도 학습(SFT)을 활용하여 AI를 정렬할 수 있음.
- 예제 데이터셋을 이용해 AI를 직접 튜닝하는 방식으로, AI가 자연스럽게 인간 친화적인 응답을 생성하도록 유도.
- Quark 모델은 보상 모델 없이 AI가 응답을 생성할 수 있도록 조정하는 기법을 활용.
💡 결론: RLHF는 강력하지만, 훈련 비용과 복잡성 때문에 지도 학습을 활용한 대안이 연구되고 있음.
📌 최종 요약:
1️⃣ RLHF는 인간 피드백을 기반으로 AI를 튜닝하는 강력한 방법.
2️⃣ 보상 모델을 학습하여 AI가 "도움이 되고, 정직하며, 해롭지 않은" 응답을 생성하도록 최적화.
3️⃣ RLHF의 비용과 복잡성을 해결하기 위해 지도 학습 기반 대안이 연구되고 있음.
1. RLHF(강화 학습 기반 인간 피드백)의 한계 및 대안
📌 RLHF는 GPT-4와 같은 최신 모델에서 환각(Hallucination)을 줄이는 중요한 방법으로 입증되었음.
- 하지만 RLHF는 기존 강화 학습(RL)의 단점(샘플 비효율성, 훈련 불안정성)을 그대로 가짐.
- RLHF를 적용하려면 강력한 지도 학습(SFT) 모델이 필요하며, 인간 평가자도 지속적으로 개입해야 함.
💡 결론: RLHF는 효과적이지만 훈련 비용이 높고, 세부 설정(보상 모델, PPO 훈련 등)에 따라 성능이 크게 달라짐.
→ 보다 효율적이고 신뢰할 수 있는 주석(annotation) 및 최적화 기법이 추가 연구 필요.
2. LLM을 효율적으로 튜닝하는 방법 (Parameter-Efficient Model Adaptation)
📌 대규모 모델(LLM)은 수십억 개의 파라미터를 포함하고 있어, 모든 파라미터를 조정하는 것은 비용이 많이 듦.
- 따라서, 소수의 파라미터만 조정하면서도 성능을 유지하는 방법(PEFT, Parameter-Efficient Fine-Tuning)이 연구되고 있음.
- 대표적인 방법: Adapter Tuning, Prefix Tuning, Prompt Tuning, LoRA(Low-Rank Adaptation)
📌 (1) Adapter Tuning (어댑터 튜닝)
- Transformer 모델의 각 레이어에 소형 신경망 모듈(어댑터)을 추가하는 방식.
- 기존 모델의 주요 파라미터를 변경하지 않고, 어댑터만 조정하여 효율적으로 튜닝 가능.
- 메모리 사용량 절감 + 튜닝 속도 향상
💡 결론: Transformer의 기본 구조를 변경하지 않고, 추가적인 작은 네트워크를 활용하여 효과적인 튜닝을 수행할 수 있음.
📌 (2) Prefix Tuning (접두어 튜닝)
- Transformer 각 레이어의 입력 부분에 학습 가능한 연속 벡터(prefix)를 추가하는 방식.
- 특정 작업에 맞춰 prefix를 학습하면, 모델 전체를 튜닝할 필요 없이 효율적인 조정이 가능.
💡 결론: Prefix Tuning은 특정 작업에 맞춘 학습이 필요하지만, 연산량이 크게 줄어들어 빠르고 경제적임.
📌 (3) Prompt Tuning (프롬프트 튜닝)
- 모델의 입력 레이어에 "학습 가능한 프롬프트"를 추가하는 방법.
- 프롬프트 자체를 최적화하여 모델을 조정하므로, 파라미터를 직접 수정할 필요 없음.
- 주로 자연어 이해(NLU) 및 생성(NLG) 작업에서 사용됨.
💡 결론: Prompt Tuning은 모델 전체를 변경하지 않고 특정 작업에 최적화할 수 있는 간단하고 효과적인 방법.
📌 (4) LoRA (Low-Rank Adaptation)
- 모델의 특정 레이어에서 저차원(low-rank) 행렬을 사용하여 가중치 업데이트를 최적화하는 방식.
- 기존 파라미터를 유지하면서도, 특정 작업에 필요한 최소한의 조정만 수행하여 성능을 개선.
- LLaMA, BLOOM 등 다양한 오픈소스 LLM에서 활용되고 있음.
💡 결론: LoRA는 기존 모델을 그대로 유지하면서도, 특정 작업을 위한 적응이 가능하다는 점에서 매우 효과적.
3. LLM의 활용 전략 (Utilization of LLMs)
📌 LLM을 효과적으로 활용하기 위해 다양한 프롬프트 기법이 연구됨.
- 프롬프트 엔지니어링(Prompt Engineering)
- In-Context Learning(ICL, 맥락 내 학습)
- Chain-of-Thought Prompting(CoT, 논리적 추론 유도)
- Planning (복잡한 작업 계획 수립)
📌 (1) 프롬프트 엔지니어링 (Prompt Engineering)
- 프롬프트의 품질이 LLM의 성능을 크게 좌우함.
- 좋은 프롬프트를 생성하기 위한 핵심 요소:
1️⃣ 명확한 지시(Task Description) → "기사 내용을 50 단어로 요약하세요."
2️⃣ 입력 데이터(Input Data) → 사용자가 제공한 문서, 표, 코드 등.
3️⃣ 맥락 정보(Contextual Information) → 이전 대화 내용, 참조 문서 등.
4️⃣ 프롬프트 스타일(Prompt Style) → "당신은 AI 전문가입니다. 이 질문에 답해주세요."
💡 결론: 명확한 지시와 적절한 맥락을 제공하면 LLM의 성능이 향상됨.
📌 (2) In-Context Learning (ICL, 맥락 내 학습)
- LLM이 추가 훈련 없이도 주어진 프롬프트에서 패턴을 학습하는 방식.
- 대표적인 연구: KATE, APE, Structured Prompting
- 유사한 예시를 제공하면 LLM이 더 정확한 답변을 생성할 가능성이 높아짐.
💡 결론: 맥락 내 학습을 활용하면 별도의 모델 훈련 없이도 성능을 향상시킬 수 있음.
📌 (3) Chain-of-Thought Prompting (CoT, 논리적 추론 유도)
- LLM이 복잡한 문제를 단계별로 해결하도록 유도하는 기법.
- 대표적인 연구: Auto-CoT, Self-Consistency, Diverse Paths
- **"단계별로 생각해보자."**라는 프롬프트를 추가하면 복잡한 문제 해결 능력이 향상됨.
💡 결론: 수학 문제, 논리적 추론 등 복잡한 문제 해결 시 유용함.
📌 (4) Planning (계획 수립)
- 복잡한 문제를 해결하기 위해 LLM이 작업을 세분화하여 처리하도록 유도.
- 대표적인 연구: Least-to-Most Prompting, Tree of Thoughts
- 단순한 단계부터 시작하여 점진적으로 문제를 해결하는 방식.
💡 결론: AI가 복잡한 문제를 해결할 때, 계획을 세우도록 유도하면 성능이 향상됨.
최종 요약
1️⃣ RLHF는 효과적이지만 비용이 높고 복잡함. 보다 효율적인 최적화 기법이 필요함.
2️⃣ LLM 튜닝을 위해 Adapter, Prefix, Prompt, LoRA 같은 효율적인 방법이 사용됨.
3️⃣ LLM 활용을 위해 프롬프트 엔지니어링, 맥락 내 학습(ICL), 논리적 추론(CoT), 계획 수립(Planning) 기법이 연구됨.
4️⃣ 프롬프트를 잘 설계하면, 모델을 추가로 학습하지 않고도 성능을 크게 향상시킬 수 있음.
1. 프롬프트 최적화 (Prompt Optimization)
📌 프롬프트 최적화란?
- LLM의 출력을 개선하기 위해 프롬프트를 수정하는 과정.
- 여러 방법이 연구되고 있으며, 대표적으로 수정 기반(Edit-based), LLM 기반, 연속적 프롬프트(Continuous Prompting) 방법이 있음.
📌 (1) 수정 기반 프롬프트 최적화 (Edit-based Prompt Optimization)
- 수동 또는 알고리즘을 활용하여 기존 프롬프트를 수정하는 방법.
- 예: GPS(Genetic Prompt Search) 알고리즘 → 유전 알고리즘을 활용하여 최적의 프롬프트를 탐색.
- 수정 방식: 삭제(Delete), 교체(Swap), 동의어 변환(Paraphrase), 추가(Addition).
💡 결론: 프롬프트를 수정하는 방식은 간단하지만, 효율적인 탐색을 위해 체계적인 방법이 필요함.
📌 (2) LLM 기반 프롬프트 최적화 (LLM-based Prompt Optimization)
- LLM 자체를 활용하여 프롬프트를 생성 및 최적화하는 방법.
- APE (Automatic Prompt Engineering): LLM이 여러 개의 초기 프롬프트를 생성 → 가장 정확한 프롬프트를 선택 후 점진적 개선.
- APO (Adversarial Prompt Optimization): LLM이 기존 프롬프트를 평가하고 개선 방향을 제시.
- Monte Carlo 탐색 기법을 활용하여 최적 프롬프트를 탐색.
💡 결론: LLM을 활용하여 자동으로 프롬프트를 최적화할 수 있지만, 검색 공간이 너무 크면 비효율적일 수 있음.
📌 (3) 연속적 프롬프트 최적화 (Continuous Prompt Optimization)
- 프롬프트를 연속적인 벡터(embedding)로 변환하여 최적화하는 방법.
- Prefix Tuning & Prompt Tuning 기법이 대표적이며, 주어진 작업에 맞게 연속적 프롬프트를 조정 가능.
- 데이터가 부족한 상황에서는 전이 학습(Transfer Learning) 방식으로 프롬프트를 학습 가능.
💡 결론: 프롬프트를 벡터로 변환하면 효율적인 최적화가 가능하지만, 학습 데이터가 부족하면 성능이 저하될 수 있음.
2. In-Context Learning (맥락 내 학습, ICL)
📌 ICL이란?
- GPT-3에서 처음 도입된 개념으로, 모델이 프롬프트 내에서 제공된 예제를 기반으로 학습하는 방식.
- 별도의 파라미터 업데이트 없이도 프롬프트만으로 새로운 작업을 수행 가능.
📌 (1) ICL의 구조
1️⃣ 작업 설명(Task Description): 어떤 작업을 수행할지 설명.
2️⃣ 예제(Demonstrations): 모델이 참고할 수 있는 예제 데이터 제공.
3️⃣ 입력 데이터(Test Query): 모델이 예제를 기반으로 새로운 입력을 처리.
💡 결론: ICL은 추가 학습 없이도 모델이 새로운 작업을 수행할 수 있도록 하는 강력한 방법.
📌 (2) ICL의 성능을 높이는 방법
1️⃣ 예제 선택 (Demonstration Selection)
- 가장 중요한 요소 중 하나 → 적절한 예제를 제공하면 성능이 향상됨.
- k-NN 기반 선택 방식 → 입력과 유사한 예제를 선택.
- LLM 기반 선택 방식 → 모델이 직접 유용한 예제를 판단하여 선택.
2️⃣ 프롬프트 형식화 (Demonstration Formatting)
- 예제를 적절한 형식으로 구성하면 성능이 향상됨.
- Zero-shot 학습을 위한 템플릿 활용 가능.
3️⃣ 예제 순서 조정 (Demonstration Ordering)
- 예제의 순서가 모델의 출력에 영향을 미칠 수 있음.
- 유사한 예제를 마지막에 배치하는 것이 일반적으로 더 효과적임.
💡 결론: ICL의 성능은 제공하는 예제의 선택, 형식, 순서에 따라 크게 좌우됨.
3. Chain-of-Thought Prompting (논리적 추론 유도, CoT)
📌 CoT이란?
- 단계별로 논리적 추론 과정을 거쳐 최종 답변을 생성하도록 유도하는 프롬프트 기법.
- 복잡한 수학 문제, 논리적 추론이 필요한 작업에서 성능을 향상시킴.
📌 (1) 기본적인 CoT 접근법
- 입력과 출력 간의 **중간 추론 단계(Intermediate Reasoning Steps)**를 포함.
- “Let's think step by step” 같은 프롬프트를 사용하면 LLM이 논리적 사고를 수행하도록 유도 가능.
💡 결론: CoT는 논리적 사고가 필요한 작업에서 강력한 성능을 발휘함.
📌 (2) CoT의 발전된 기법
1️⃣ Sampling 기반 방법
- 여러 개의 CoT 경로를 생성한 후, **다수결(majority voting)**로 최적의 답을 선택.
- Self-Consistency 기법: 다양한 논리 경로를 생성하여 가장 신뢰할 수 있는 결과를 선택.
2️⃣ Verification 기반 방법
- LLM이 스스로 생성한 논리적 추론을 검증하는 방식.
- DIVERSE 모델: 단계별 검증을 수행하여 논리적 오류를 최소화.
3️⃣ Tree of Thoughts (ToT)
- 단계별 논리 전개를 트리(Tree) 구조로 구성하여 더욱 정교한 추론 가능.
- ToT는 여러 가지 추론 경로를 고려하여 최적의 답을 선택하는 방식.
💡 결론: CoT를 확장하여 더 복잡한 문제를 해결할 수 있는 다양한 기법들이 연구되고 있음.
4. LLM 기반 계획 수립 (Planning)
📌 계획 수립이란?
- LLM이 복잡한 작업을 해결하기 위해 여러 단계를 거쳐 계획을 세우는 방식.
- 단순한 질의응답이 아니라, 목표 달성을 위한 여러 단계를 순차적으로 수행하도록 유도.
📌 (1) 계획 수립 프레임워크
1️⃣ 작업 계획(Task Planner): LLM이 문제를 이해하고 해결 계획을 생성.
2️⃣ 계획 실행(Plan Execution): LLM 또는 외부 도구(Code Interpreter 등)가 실행.
3️⃣ 피드백 반영(Feedback Mechanism): 실행 결과를 바탕으로 계획을 조정.
💡 결론: LLM이 단순한 응답을 넘어 복잡한 문제 해결을 위한 전략을 세울 수 있도록 하는 방법.
📌 최종 요약:
1️⃣ 프롬프트 최적화 기법(Edit-based, LLM-based, Continuous)이 연구되고 있으며, 효율적인 프롬프트 설계가 성능 향상에 필수적.
2️⃣ In-Context Learning(ICL)은 예제 선택, 프롬프트 형식, 순서 조정을 통해 성능을 극대화할 수 있음.
3️⃣ Chain-of-Thought(CoT) 기법을 사용하면 LLM이 논리적 추론을 단계적으로 수행할 수 있음.
4️⃣ LLM을 활용한 계획 수립(Planning)은 단순한 응답을 넘어 복잡한 문제 해결을 가능하게 함.
1. LLM을 활용한 계획 수립 (Planning with LLMs)
📌 LLM이 문제 해결을 위한 계획을 생성하고, 실행 후 피드백을 반영하여 계획을 수정하는 과정
📌 (1) 계획 생성 (Plan Generation)
1️⃣ 텍스트 기반 계획 수립 (Text-based Planning)
- 단순한 프롬프트로 LLM이 자체적으로 계획을 생성하도록 유도.
- 예: "계획을 세워보세요(Devise a plan)" 같은 지시문을 사용하여 모델이 논리적 계획을 자동으로 수립.
2️⃣ 코드 기반 계획 수립 (Code-based Planning)
- 실제 실행 가능한 코드(Python, PDDL 등)를 생성하여 계획을 수행.
- 예: Faithful CoT, PAL 등은 계획을 생성한 후 이를 실행하여 검증하는 방식 사용.
- 실제 환경에서 실행되므로 계획의 신뢰성이 높아짐.
💡 결론: 텍스트 기반 계획은 직관적이지만 실행의 정확성이 떨어질 수 있음. 코드 기반 계획은 더 신뢰성이 높음.
📌 (2) 피드백 수집 및 계획 수정 (Feedback & Plan Refinement)
- LLM 자체가 내부 피드백(Internal Feedback)을 제공하거나, 외부 도구(External Feedback)에서 피드백을 받을 수 있음.
- 내부 피드백 (LLM 자체 평가) → LLM이 자체적으로 계획을 평가하고 수정.
- 외부 피드백 (도구 활용) → 코드 실행 결과, 검색 엔진, 시뮬레이션 결과를 반영하여 계획 수정.
💡 결론: 피드백을 활용한 반복적 계획 수정이 가능하며, 이를 통해 계획 - 실행 - 수정 루프를 최적화할 수 있음.
2. LLM의 평가 방법 (LLM Evaluation Metrics)
📌 LLM의 성능을 평가하는 주요 기준
📌 (1) 기본 평가 기준 (Basic Abilities)
1️⃣ 언어 생성 (Language Generation)
- 언어 모델링 (Language Modeling): 다음 단어를 예측하는 능력 평가.
- 조건부 텍스트 생성 (Conditional Text Generation): 주어진 조건에서 자연스럽게 문장을 생성하는 능력 평가.
- 코드 생성 (Code Synthesis): Python, JavaScript 같은 프로그래밍 언어로 코드를 생성하는 능력 평가.
💡 대표적인 데이터셋:
- Penn Treebank, WikiText-103, The Pile (언어 모델링)
- CNN/DailyMail, XSum (텍스트 요약)
- HumanEval, APPS (코드 생성)
2️⃣ 지식 활용 (Knowledge Utilization)
- 폐쇄형 질의응답 (Closed-Book QA): 사전 학습된 지식을 기반으로 질문에 답변.
- 개방형 질의응답 (Open-Book QA): 외부 문서나 검색 결과를 활용하여 질문에 답변.
- 지식 보완 (Knowledge Completion): 기존 지식을 바탕으로 누락된 정보를 채우는 능력 평가.
💡 대표적인 데이터셋:
- Natural Questions, TriviaQA, SQuAD (QA 평가)
- Freebase, WikiFact, LAMA (지식 보완 평가)
3️⃣ 복잡한 추론 (Complex Reasoning)
- 일반 지식 추론 (Knowledge Reasoning): 과학, 상식 기반 추론.
- 수학적 추론 (Mathematical Reasoning): 수학 문제 해결 능력.
- 기호 추론 (Symbolic Reasoning): 논리적 규칙을 기반으로 복잡한 문제 해결.
💡 대표적인 데이터셋:
- GSM8k, MATH (수학적 추론)
- StrategyQA, ScienceQA (과학 및 논리적 추론)
📌 (2) LLM 평가에서의 주요 문제점
1️⃣ 언어 생성 평가의 신뢰성 문제
- 기존 자동 평가 지표(BLEU, ROUGE)가 인간 평가와 불일치하는 경우 많음.
- LLM을 평가하는 새로운 방법이 필요함.
2️⃣ 전문 분야 생성의 한계
- 일반적인 언어 생성은 잘하지만, 의학, 법률, 금융 등 전문 지식이 필요한 문서는 한계가 있음.
- 특정 도메인 지식을 학습하는 방법이 필요함.
3️⃣ 할루시네이션 (Hallucination) 문제
- LLM이 허위 정보를 생성하는 문제 발생.
- 예: GPT-4조차 잘못된 정보(RLHF를 "Rights, Limitations, Harms, and Freedoms"라고 오해하는 사례) 생성 가능.
- 신뢰성을 높이기 위한 추가 연구 필요.
💡 결론: LLM의 평가 방법이 자동 평가 지표 → 인간 평가 → LLM을 활용한 평가로 발전하고 있음.
3. 최신 LLM 연구에서 해결해야 할 문제
📌 LLM이 해결해야 할 3가지 주요 도전 과제
📌 (1) 신뢰성 있는 지식 생성 (Reliable Knowledge Generation)
- LLM이 허위 정보를 생성하는 문제(할루시네이션) 해결 필요.
- 외부 데이터 활용(search engine, knowledge graph 등)으로 신뢰성을 강화해야 함.
📌 (2) 최신 지식 반영 (Knowledge Recency)
- LLM은 훈련 데이터가 고정되어 있으므로, 최신 정보 반영이 어려움.
- 검색 기반 보완(예: ChatGPT의 플러그인) 또는 파라미터 수정 연구 진행 중.
📌 (3) 복잡한 추론 능력 향상 (Complex Reasoning)
- 논리적 사고(Chain-of-Thought), 기호 추론(Symbolic Reasoning), 수학적 문제 해결 능력 향상 필요.
- CoT, Tree of Thoughts, Auto-CoT 같은 최신 기술이 연구되고 있음.
💡 결론: LLM이 더 정교해지려면 신뢰성, 최신 정보 반영, 복잡한 추론 능력 향상이 필수적.
📌 최종 요약:
1️⃣ LLM이 계획을 세우고 실행한 후 피드백을 반영하여 개선하는 과정(Planning & Feedback)이 연구되고 있음.
2️⃣ LLM의 성능 평가 방법에는 언어 생성, 지식 활용, 복잡한 추론 능력 테스트가 포함됨.
3️⃣ 현재 LLM이 직면한 주요 문제는 신뢰성 있는 지식 생성, 최신 지식 반영, 복잡한 추론 수행 능력 부족.
1. LLM의 고급 기능 (Advanced Abilities)
📌 수학적 추론, 인간 정렬, 외부 환경과의 상호작용, 도구 활용 등의 고급 기능이 연구되고 있음.
📌 (1) 수학적 추론 (Mathematical Reasoning)
- LLM을 수학 문제 해결에 최적화하기 위해 대규모 수학 데이터로 사전 훈련 가능.
- **다국어 수학 문제 벤치마크(MGSM)**를 사용하여 다양한 언어에서도 동일한 수학 논리를 평가 가능.
- **자동 정리 증명(ATP, Automated Theorem Proving)**은 논리적 추론 및 수학 기술이 요구됨.
- PISA, miniF2F 같은 데이터셋을 활용하여 증명 성공률을 평가.
📌 한계점:
1️⃣ 추론 불일치(Reasoning Inconsistency) → LLM이 올바른 답을 도출하더라도 논리적 근거가 맞지 않을 수 있음.
- Tree of Thoughts(ToT) 기법을 활용해 다양한 추론 경로를 탐색하며 평가 가능.
- Self-Refine 기법을 적용하여 모델이 스스로 검토 및 수정하도록 유도.
2️⃣ 수치 연산 능력 부족(Numerical Computation)
- 큰 숫자 계산에서 LLM의 성능이 저하됨.
- 해결 방법: LLM이 수학 연산을 직접 수행하기보다는 계산기, Wolfram Alpha 같은 외부 도구를 활용하도록 유도.
💡 결론: 수학적 추론과 증명 문제를 해결하기 위해 Tree of Thoughts, Self-Refine, 외부 도구 활용 같은 기법이 연구됨.
📌 (2) 인간 정렬 (Human Alignment)
📌 LLM이 인간의 가치와 요구를 반영하도록 조정하는 과정.
- TruthfulQA → 모델이 거짓 정보를 감지하고 정확한 답변을 생성하는 능력 평가.
- CrowS-Pairs, WinoGender → 편향(Bias) 문제 평가.
- Real-Toxicity-Prompts → LLM이 생성하는 독성 언어 검출.
- OpenAI는 GPT-4의 안전성을 높이기 위해 AI 위험 관련 전문가들과 협력하여 평가 진행.
💡 결론: LLM이 신뢰할 수 있는 정보를 생성하고, 편향과 독성 언어를 최소화할 수 있도록 지속적인 조정이 필요함.
📌 (3) 외부 환경과의 상호작용 (Interaction with External Environment)
📌 LLM이 가상 및 현실 환경에서 행동을 계획하고 수행하는 능력 평가.
- VirtualHome → LLM이 집안일(청소, 요리 등)을 수행하도록 3D 시뮬레이터에서 평가.
- ALFRED, BEHAVIOR → 보다 복잡한 환경에서 목표를 달성하는 능력 테스트.
- Minecraft 및 인터넷 탐색 → LLM이 열린 환경에서 문제 해결 능력을 갖출 수 있도록 연구됨.
- Voyager, GITM → LLM이 지속적으로 새로운 기술을 습득하는 자동 교육 모듈 개발.
💡 결론: LLM은 가상 환경에서 작업을 수행할 수 있으며, 이를 통해 현실 세계에서 활용할 가능성이 높음.
📌 (4) 도구 활용 (Tool Manipulation)
📌 LLM이 계산기, 검색 엔진, 코드 실행기 같은 외부 도구를 활용하는 방법.
- OpenAI는 ChatGPT 플러그인을 통해 웹 브라우저, 코드 컴파일러 등의 기능을 추가.
- TruthfulQA, GSM8k 같은 데이터셋을 사용하여 LLM의 도구 활용 능력을 평가.
- LLM이 도구를 효과적으로 사용하도록 도구 사용 예제 추가 및 미세 조정 진행.
📌 한계점:
- 사용할 수 있는 도구가 많아질수록, LLM의 **컨텍스트 길이 제한(Context Length Issue)**이 문제될 수 있음.
- 해결 방법으로 필요한 도구만 선택적으로 불러오는 방식 연구됨.
💡 결론: LLM이 외부 도구를 활용하면 복잡한 문제 해결이 가능해지며, 효율적인 도구 선택이 핵심 연구 주제.
2. LLM 평가 벤치마크 및 방법 (Evaluation Benchmarks & Approaches)
📌 LLM 성능을 평가하는 주요 벤치마크
1️⃣ MMLU (Massive Multitask Language Understanding)
- 수학, 컴퓨터 과학, 인문학 등 다양한 분야의 지식을 테스트하는 벤치마크.
- GPT-4가 5-shot 설정에서 86.4%의 성능을 기록.
2️⃣ BIG-bench
- 언어학, 상식 추론, 생물학, 물리학 등 204개 과제로 구성.
- GPT-4는 인간 평균 성능을 초과하는 결과를 보였으나, 일부 어려운 문제에서는 여전히 인간보다 낮은 성능을 기록.
3️⃣ HELM (Holistic Evaluation of Language Models)
- 언어 모델의 정확성, 공정성, 강건성(robustness) 등을 종합 평가하는 벤치마크.
4️⃣ AGIEval, MMCU, C-Eval
- 실제 시험 문제를 기반으로 LLM의 전반적인 성능을 평가하는 벤치마크.
💡 결론: LLM은 여러 평가 벤치마크에서 뛰어난 성능을 보이고 있으며, 추론 능력과 최신 정보 반영이 주요 도전 과제.
📌 (1) LLM 평가 방법
📌 기존 평가 방법은 크게 세 가지로 분류됨.
1️⃣ 벤치마크 기반 평가 (Benchmark-based Evaluation)
- MMLU, BIG-bench 같은 기존 벤치마크를 활용하여 모델 성능을 평가.
- 문제점: 데이터 오염(Data Contamination) → 모델이 이미 학습한 데이터와 유사한 문제가 포함될 가능성이 있음.
2️⃣ 인간 평가 (Human-based Evaluation)
- 실제 사용자가 LLM의 응답을 평가하는 방식.
- 단점: 비용이 많이 들고 시간이 오래 걸리며, 주관적인 편향(Bias)이 개입될 가능성이 있음.
3️⃣ 모델 기반 평가 (Model-based Evaluation)
- GPT-4 같은 강력한 모델을 활용하여 다른 LLM의 성능을 평가하는 방식.
- 장점: 비용 절감, 대규모 평가 가능.
- 단점: 평가 모델 자체의 편향(Bias)이 반영될 수 있음.
💡 결론: 벤치마크 평가, 인간 평가, 모델 평가를 조합하여 더 정확한 평가 방법이 필요함.
📌 최종 요약:
1️⃣ LLM의 고급 기능에는 수학적 추론, 인간 정렬, 외부 환경과의 상호작용, 도구 활용이 포함됨.
2️⃣ Tree of Thoughts, Self-Refine, 외부 도구 활용 같은 기법이 연구되고 있으며, 특히 수학 및 논리적 추론 성능 향상이 중요.
3️⃣ LLM 성능을 평가하기 위한 다양한 벤치마크(MMLU, BIG-bench, HELM)가 있으며, 평가 방법으로 벤치마크 기반, 인간 평가, 모델 평가가 사용됨.
1. LLM 모델 비교 및 평가 (LLM Benchmark Comparison & Evaluation)
📌 대형 언어 모델(LLM)의 성능을 비교하기 위해 다양한 벤치마크 평가 진행.
📌 (1) 주요 평가 지표
LLM의 8가지 핵심 능력을 평가하는 실험이 진행됨.
1️⃣ 언어 생성 능력 (Language Generation)
- 대표 데이터셋: LAMBADA, WMT, XSum
- ChatGPT, Claude, LLaMA2 모델이 비교되었으며, ChatGPT가 가장 우수한 성능 기록.
2️⃣ 지식 활용 능력 (Knowledge Utilization)
- 대표 데이터셋: TriviaQA, Natural Questions, WikiFact
- 지식 기반 질문 응답 성능을 평가하며, Claude 2와 ChatGPT가 우수한 성능을 보임.
3️⃣ 복잡한 추론 (Complex Reasoning)
- 대표 데이터셋: ARC, SocialIQA, C-Objects
- GPT-4와 Claude 2가 뛰어난 논리적 추론 성능을 보임.
4️⃣ 수학적 추론 (Mathematical Reasoning)
- 대표 데이터셋: GSM8k, MATH
- GPT-4, ChatGPT가 높은 수학 문제 해결 능력 보유.
5️⃣ 도구 활용 능력 (Tool Manipulation)
- 대표 데이터셋: HotpotQA, Gorilla-TF
- 외부 도구와의 상호작용 평가, ChatGPT와 Claude 2가 뛰어난 성능 보유.
💡 결론: ChatGPT와 Claude 2가 대부분의 평가에서 높은 성능을 기록했으며, 특히 지식 활용, 도구 사용 능력이 강력함.
2. LLM의 주요 응용 분야 (Applications of LLMs)
📌 LLM은 다양한 연구 및 산업 분야에서 활용됨.
📌 (1) NLP 핵심 과제 해결 (LLM for Classic NLP Tasks)
1️⃣ 단어 및 문장 수준 이해 (Word & Sentence-Level Understanding)
- 의미 분석(Semantic Matching), 감성 분석(Sentiment Analysis)에 활용됨.
2️⃣ 정보 추출 (Information Extraction)
- 문장에서 개체명(NER), 관계 추출(Relation Extraction) 등을 자동으로 분석 가능.
3️⃣ 텍스트 생성 (Text Generation)
- 기계 번역, 자동 요약 등에 활용되며, LLM은 특히 다국어 번역에서 강력한 성능 발휘.
💡 결론: 기존 NLP 모델보다 더 광범위한 과제 해결이 가능하지만, 희귀 언어(low-resource languages) 지원이 제한적임.
📌 (2) 정보 검색 (LLM for Information Retrieval)
📌 LLM은 검색 시스템을 향상시키는 데 사용됨.
1️⃣ LLM 기반 정보 검색 모델 (LLM as IR Model)
- 기존 **검색 모델(BM25, BERT 기반 Dense Retrieval)**보다 더 강력한 의미 검색 수행 가능.
- 하지만 추론 비용이 크며, 모델이 학습된 지식만으로 검색할 경우 최신 정보 반영이 어려움.
2️⃣ LLM 강화 검색 모델 (LLM-Enhanced IR Models)
- LLM이 검색어 확장(Query Expansion), 문서 요약, 랭킹 보정 등에 활용됨.
- GPT-4는 문서 검색 후 요약하여 사용자에게 제공하는 방식으로 성능 향상.
💡 결론: LLM을 검색 시스템에 적용하면 검색 성능이 향상되지만, 비용 문제 해결이 필요함.
📌 (3) 추천 시스템 (LLM for Recommender Systems)
📌 LLM을 활용한 추천 모델 개발이 진행 중.
1️⃣ LLM을 직접 추천 모델로 활용 (LLM as Recommendation Model)
- 특정 프롬프트를 활용해 LLM이 추천을 수행하도록 유도 가능.
- 주어진 데이터 없이도 "제로샷(Zero-shot)" 방식으로 추천 가능.
2️⃣ 기존 추천 모델을 보완하는 LLM (LLM-Enhanced Recommender Models)
- 기존 협업 필터링(CF) 기반 추천 모델에 LLM을 결합하여 성능 향상.
- 사용자의 리뷰, 영화 설명 등을 분석하여 더 정교한 추천 가능.
💡 결론: LLM 기반 추천 시스템은 도메인 전이(Cold Start) 문제 해결에 도움을 주지만, 연산 비용 문제를 해결해야 함.
📌 최종 요약:
1️⃣ ChatGPT, Claude 2, GPT-4가 전반적으로 가장 높은 성능을 기록하며, 도구 활용 및 복잡한 추론 능력이 뛰어남.
2️⃣ LLM은 NLP, 검색, 추천 시스템 등 다양한 분야에서 활용되며, 기존 모델 대비 성능을 크게 향상시킴.
3️⃣ LLM 기반 검색 및 추천 시스템의 비용 문제 해결이 중요한 연구 과제임.
1. 추천 시스템에서 LLM 활용 (LLM for Recommender Systems)
📌 대형 언어 모델(LLM)이 추천 시스템을 향상시키는 방식과 한계
📌 (1) LLM 기반 추천 모델 (LLM-powered Recommenders)
- 기존 협업 필터링(CF) 및 콘텐츠 기반 추천 모델과 비교하여 LLM이 의미적 관계(semantic relations)를 더 잘 인식할 수 있음.
- 일부 연구에서는 LLM이 사용자의 행동 패턴을 더 정확히 모델링할 수 있도록 하는 새로운 기법(예: RecAgent)을 제안.
- 자율 AI 에이전트(AI Agents)를 활용한 추천 시스템 시뮬레이션 연구가 진행 중.
📌 한계점:
1️⃣ LLM이 기존 ID 기반 추천 모델보다 개인화 성능이 떨어지는 경우가 있음.
2️⃣ 추론 속도가 느리고, 메모리 사용량이 많아 실시간 추천 시스템에 적용하기 어려움.
3️⃣ 긴 문맥을 유지하는 능력이 부족하여 사용자-아이템 상호작용 데이터를 효과적으로 처리하기 어려움.
💡 결론: LLM을 추천 시스템에 적용하려면 튜닝 최적화, 양자화(quantization), 문맥 길이 확장 같은 기술이 필요함.
2. 멀티모달 LLM (Multimodal Large Language Models, MLLM)
📌 텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 입력을 처리하는 멀티모달 모델.
📌 (1) 멀티모달 LLM 구조
- 이미지 인코더 + LLM 조합
- 이미지 데이터를 패치 단위로 변환 후, LLM이 이를 해석하여 자연어 응답 생성.
- 대표적인 MLLM: GPT-4V, LLaVA, Flamingo.
📌 훈련 과정:
1️⃣ 비전-언어 정렬 사전 훈련 (Vision-Language Alignment Pre-training)
- 대규모 이미지-텍스트 데이터셋을 활용하여, 이미지 인코더와 LLM을 조정.
2️⃣ 비주얼 지시문 튜닝 (Visual Instruction Tuning) - 이미지와 작업 설명을 입력으로 받아, 정확한 텍스트 응답을 생성하도록 모델을 튜닝.
📌 (2) MLLM 평가 방법
📌 모델의 지각 능력(Perception)과 인지 능력(Cognition) 평가
- 지각(Perception) 평가: 이미지의 색상, 존재 여부, 스타일 분석
- 인지(Cognition) 평가: 이미지 속 공간 관계, 일반 지식, 시각적 추론 문제 해결
- 대표적인 벤치마크: LVLM-eHub, MMBench, SEED-Bench, MM-Vet
📌 한계점:
- MLLM은 여전히 객체 환각(Object Hallucination) 문제를 겪으며, 이미지 속 정보를 잘못 해석하는 경우가 많음.
- GPT-4V 등 최신 모델도 복잡한 시각적 질문에 대해 신뢰할 만한 답변을 제공하지 못하는 경우가 있음.
💡 결론: 이미지-언어 정렬을 개선하고, 보다 강력한 훈련 데이터 및 검증 기법이 필요함.
3. 지식 그래프 기반 LLM 강화 (KG-Enhanced LLMs)
📌 LLM의 지식 한계를 보완하기 위해 지식 그래프(KG)를 활용하는 방법
📌 (1) 검색 증강 LLM (Retrieval-Augmented LLM)
- 대규모 지식 그래프(KG)에서 관련 정보를 검색 후, 이를 프롬프트에 포함하여 LLM이 활용하도록 유도.
- 대표적인 기법:
1️⃣ RoBERTa 기반 검색 모델을 사용하여 질문과 관련된 지식 트리플을 선택.
2️⃣ 읽고-추론(Reading-then-Reasoning) 프레임워크를 적용해 단계적으로 지식을 조합.
3️⃣ 특정 지식 서브그래프를 LLM의 입력으로 제공하여 구조적 의미를 유지.
💡 결론: LLM의 일반 지식 부족 문제를 해결하는 데 유용하지만, 검색된 지식을 효과적으로 활용하는 최적화가 필요함.
📌 (2) 시너지 증강 LLM (Synergy-Augmented LLM)
- 복잡한 질의응답(Multi-hop QA) 작업을 수행하기 위해, LLM이 KG를 여러 번 조회하도록 설계.
- 대표적인 연구:
- StructGPT: 지식 그래프와 LLM 간의 인터페이스를 최적화하여 검색 성능 향상.
📌 한계점:
- KG에서 너무 많은 후보 데이터를 검색하면 연산 비용이 증가할 수 있음.
- KG 내 최신 정보 동기화가 어려운 문제가 있음.
💡 결론: LLM과 KG를 효과적으로 결합하기 위한 새로운 방법론 연구가 필요함.
4. LLM 평가 자동화 (LLM for Evaluation)
📌 기존의 수동 평가(인간 피드백)를 대체할 수 있는 자동 평가 기법 연구.
📌 (1) 평가 형식
- 점수 기반 평가 (Score-based Evaluation): 모델의 응답을 특정 기준에 따라 정량적 점수 부여.
- 언어 기반 평가 (Language-based Evaluation): 평가 모델이 응답에 대한 피드백을 제공하고 개선 방향을 제안.
📌 대표적인 평가 모델:
- GPT-4 기반 평가 (GPT-4 as Evaluator): LLM의 응답 품질을 평가하는 데 GPT-4를 활용.
- MMBench: ChatGPT를 활용하여 다중 선택 질문에 대한 모델 응답 평가.
💡 결론: LLM 기반 평가 모델이 인간 평가와 높은 일치도를 보이지만, 여전히 평가 편향(Bias)이 존재할 수 있음.
5. LLM의 도메인별 적용 사례 (Domain-Specific LLM Applications)
📌 LLM이 다양한 산업 및 연구 분야에서 어떻게 활용되는지 분석.
📌 (1) 의료 (Healthcare)
- Med-PaLM: 미국 의료 시험(USMLE)에서 전문가 수준 성능을 기록한 의료 특화 LLM.
- 활용 사례:
- 생물학 정보 추출, 의료 상담, 정신 건강 분석, 의료 보고서 요약.
- 한계점: 의료 정보를 잘못 해석하거나 부정확한 조언을 제공할 가능성이 있음.
📌 (2) 법률 (Law)
- GPT-4가 변호사 시험에서 상위 10% 성적을 기록.
- 법률 문서 분석, 판결 예측, 법률 문서 작성 등에 활용.
- 한계점: 저작권 문제, 개인정보 보호, AI의 편향 가능성 존재.
📌 (3) 금융 (Finance)
- BloombergGPT, FinGPT: 금융 뉴스 분석, 투자 위험 평가, 기업 보고서 요약 등에 활용.
- 한계점: 금융 시장 예측 시 오류 발생 가능, 신뢰성 문제 해결 필요.
💡 결론: 각 산업에 최적화된 LLM이 개발되고 있지만, 신뢰성과 데이터 보호 문제 해결이 필요함.
📌 최종 요약:
1️⃣ 추천 시스템에서 LLM을 활용하는 연구가 진행 중이지만, 개인화 및 연산 비용 문제가 해결되어야 함.
2️⃣ 멀티모달 LLM(MLLM)은 이미지와 텍스트를 함께 처리할 수 있으나, 이미지 해석 오류 문제가 존재.
3️⃣ 지식 그래프(KG)를 활용한 LLM이 연구되고 있으며, 지식 검색 및 활용 최적화가 필요.
4️⃣ LLM 자동 평가 기법이 발전하고 있으며, 인간 평가를 보완할 가능성이 높음.
5️⃣ 의료, 법률, 금융 등 특정 산업에 특화된 LLM이 개발되고 있지만, 신뢰성과 윤리적 문제 해결이 필요.
1. 장문 텍스트 처리를 위한 LLM 최적화 (Handling Long Texts in LLMs)
📌 LLM이 긴 문서를 효과적으로 처리하기 위한 기술들
📌 (1) 컨텍스트 윈도우 확장 기법 (Context Window Adaptation)
LLM은 한 번에 처리할 수 있는 컨텍스트 길이가 제한되어 있음. 이를 해결하기 위해 다양한 기법이 연구됨.
1️⃣ 기본적인 컨텍스트 윈도우 확장 방법
- 기저 조정(Base Modification): 컨텍스트 윈도우 길이를 늘리기 위해 모델의 내부 구조(예: positional encoding)를 변경.
- 기저 절단(Basis Truncation): 필요 없는 컨텍스트 데이터를 제거하여 모델이 중요한 정보만 학습하도록 유도.
2️⃣ 병렬 컨텍스트 윈도우 (Parallel Context Window)
- 긴 텍스트를 여러 개의 독립된 섹션으로 나누어 처리하는 방법.
- 하지만, 섹션 간 순서를 구별할 수 없는 문제가 발생할 수 있음.
3️⃣ Λ(람다)-형 컨텍스트 윈도우 (Λ-shaped Context Window)
- 모델이 처음과 마지막 부분에 높은 가중치를 부여하도록 유도하는 방법.
- 중간 내용이 잘려나가는 "Lost in the Middle" 문제를 완화할 수 있음.
4️⃣ 토큰 선택 최적화 (Token Selection)
- 문맥 전체를 저장하는 대신, 가장 중요한 토큰만 저장하여 모델이 참고하도록 함.
- KNN 기반 검색(K-Nearest Neighbors)을 활용하여 핵심 정보만 기억하도록 최적화 가능.
💡 결론: 컨텍스트 윈도우 한계를 극복하기 위해 병렬 처리, 토큰 선택, 특수한 Attention 메커니즘이 연구되고 있음.
2. LLM 기반 AI 에이전트 (LLM-powered AI Agents)
📌 LLM이 AI 에이전트로 활용될 수 있는 방법 연구
📌 (1) LLM 기반 에이전트의 핵심 구성 요소
1️⃣ 메모리 (Memory)
- 단기 기억(Short-term Memory): LLM의 입력 컨텍스트 윈도우 내에서 유지됨.
- 장기 기억(Long-term Memory): 벡터 데이터베이스(Vector DB) 같은 외부 저장소를 활용하여 기억 확장.
2️⃣ 계획 (Planning)
- 목표를 분석하고 실행 가능한 단계로 분해하는 과정.
- 텍스트 기반 지시문 또는 코드 실행을 통해 수행됨.
3️⃣ 실행 (Execution)
- 내부 LLM 모델 또는 외부 API, 도구(예: 웹 검색)를 사용하여 계획을 실행.
💡 결론: LLM 기반 AI 에이전트는 메모리, 계획, 실행 기능을 결합하여 자율적인 문제 해결이 가능함.
📌 (2) LLM 에이전트의 활용 사례
📌 LLM 기반 AI 에이전트는 다양한 영역에서 활용 가능.
1️⃣ 단일 에이전트 기반 응용 (Single-Agent Systems)
- AutoGPT, GPT-Engineer, XAgent 같은 프레임워크는 사용자의 요청을 분석하고 자체적으로 계획을 수립하여 실행.
- WebGPT: 웹 검색 및 정보 수집 자동화.
- Voyager: 마인크래프트 환경에서 지속적으로 학습하는 AI.
2️⃣ 다중 에이전트 기반 응용 (Multi-Agent Systems)
- 여러 개의 AI 에이전트가 협력하여 복잡한 작업을 수행.
- LangChain, AgentVerse, AutoGen 등의 프레임워크가 사용됨.
- 협력 기반(Cooperation)과 경쟁 기반(Competition) 모델로 나뉨.
💡 결론: LLM 기반 에이전트는 단일 모델뿐만 아니라 다중 모델 협력 시스템으로도 발전 가능.
📌 (3) LLM 에이전트의 한계점
📌 LLM 기반 에이전트가 해결해야 할 주요 문제들
1️⃣ 연산 비용 문제 (Computational Cost)
- 다중 에이전트 시스템에서는 통신 비용과 연산량이 급증하여 최적화 필요.
2️⃣ 인간 사회성 정렬 (Alignment with Human Sociality)
- LLM이 인간의 역할을 정확히 모방하는 능력이 부족함.
- 대화형 AI의 인지 심리학적 모델링 연구가 필요함.
3️⃣ 도구 활용 능력 (Capability Extension)
- LLM이 외부 도구(API, 데이터베이스)를 더 효과적으로 사용할 수 있도록 개선 필요.
4️⃣ 신뢰성 및 견고성 (Robustness & Trustworthiness)
- LLM 기반 에이전트는 여전히 환각(Hallucination) 문제를 겪고 있으며, 신뢰할 수 있는 정보 제공이 어려울 수 있음.
💡 결론: LLM 기반 에이전트가 실용적으로 사용되려면 연산 비용 최적화, 도구 활용 강화, 신뢰성 개선이 필수적.
3. LLM 훈련 및 최적화 기법 (LLM Training & Optimization)
📌 대규모 LLM을 효율적으로 훈련하기 위한 최신 기법들
📌 (1) 훈련 메모리 최적화 (Memory Optimization for Training)
1️⃣ Gradient Checkpointing
- 훈련 중 일부 중간 계산값을 저장하지 않고 필요할 때 재계산하여 메모리 절약.
2️⃣ ZeRO (Zero Redundancy Optimizer)
- 모델의 중복된 가중치를 제거하여 GPU 메모리 사용량을 최적화.
3️⃣ Offloading (오프로드 기법)
- 일부 연산을 GPU 대신 CPU 또는 NVMe SSD에서 처리하여 GPU 메모리 부담 감소.
💡 결론: 훈련 과정에서 GPU 메모리 최적화 기법이 필수적이며, ZeRO, Offloading 기법이 많이 사용됨.
📌 (2) 모델 추론 최적화 (Inference Optimization)
1️⃣ FlashAttention
- 메모리 읽기-쓰기 연산을 줄여 LLM 추론 속도를 높이는 기법.
2️⃣ PagedAttention
- 메모리 블록을 미리 할당하여 메모리 관리 최적화.
3️⃣ Batch Management Optimization
- 배치 크기를 동적으로 조정하여 GPU 성능을 최적화.
💡 결론: LLM 추론 속도를 높이기 위해 FlashAttention, PagedAttention 같은 최적화 기법이 연구되고 있음.
📌 최종 요약:
1️⃣ LLM이 장문 텍스트를 효과적으로 처리하기 위한 다양한 컨텍스트 윈도우 확장 기법이 연구됨.
2️⃣ LLM 기반 AI 에이전트는 단일/다중 에이전트 형태로 발전하며, 연산 비용, 신뢰성 문제 해결이 필요함.
3️⃣ 훈련 과정에서는 메모리 최적화(Gradient Checkpointing, ZeRO), 추론 과정에서는 FlashAttention, PagedAttention이 중요.
1. LLM 추론 최적화 기법 (Inference Optimization for LLMs)
📌 LLM의 추론 속도를 높이고 비용을 줄이기 위한 최신 기술
📌 (1) 스펙큘레이티브 디코딩 (Speculative Decoding)
- 텍스트 생성 과정에서 일부 토큰은 쉽게 예측할 수 있지만, 일부는 매우 어렵다.
- 작은 모델이 먼저 여러 개의 토큰을 예측하고, 큰 모델이 이를 검증하는 방식으로 속도를 향상.
- 기존 방식보다 2~3배 빠른 속도로 추론 가능.
💡 결론: 작은 모델을 활용한 사전 예측 기법을 적용하면 성능을 유지하면서도 추론 속도를 높일 수 있음.
📌 (2) 계단식 추론 (Cascade Inference)
- 요청의 난이도에 따라 다양한 크기의 모델을 계단식으로 배치하여 적절한 모델이 처리하도록 설계.
- FrugalGPT: 작은 모델이 먼저 답변을 시도하고, 결과가 신뢰할 수 없을 경우 더 큰 모델이 개입.
- 계산 비용을 절감하면서도 높은 품질을 유지할 수 있음.
💡 결론: 필요한 경우에만 대형 모델을 사용하여 연산 자원을 절약하는 방식.
📌 (3) 비자동 회귀 디코딩 (Non-autoregressive Decoding)
- 기존 LLM은 **한 번에 하나의 토큰을 생성(autoregressive)**하지만, 비자동 회귀 방식은 여러 개의 토큰을 한 번에 생성.
- 품질 문제로 인해 완전한 비자동 회귀 방식은 잘 사용되지 않으며, 하이브리드 방식(반자동 회귀)이 연구 중.
💡 결론: 완전한 비자동 회귀 방식은 품질 저하 문제로 실용화가 어렵지만, 반자동 회귀 방식이 대안이 될 수 있음.
📌 (4) 조기 종료 (Early Exit)
- 모든 레이어를 계산할 필요 없이, 일정 기준(예: 예측 신뢰도)에 도달하면 조기 종료 가능.
- Transformer 모델에서도 적용 가능하며, Mixture-of-Depths(MoD) 방식을 통해 일부 레이어만 활성화하는 방식도 연구됨.
💡 결론: 조기 종료 기법을 적용하면 계산량을 줄여 추론 속도를 최적화할 수 있음.
2. 모델 압축 기술 (Model Compression for LLMs)
📌 대형 언어 모델을 실제 환경에서 효율적으로 배포하기 위한 모델 크기 줄이기 연구
📌 (1) 양자화 (Quantization)
- 양자화(Quantization)는 모델의 가중치를 낮은 비트(bit) 정수로 변환하여 메모리 사용량을 줄이는 기법.
- 두 가지 방식이 있음:
1️⃣ 훈련 인식 양자화(QAT, Quantization-Aware Training): 모델 훈련 중 양자화를 적용.
2️⃣ 사후 양자화(PTQ, Post-Training Quantization): 사전 훈련된 모델을 변환.
📌 대표적인 PTQ 기법:
- LLM.int8() → 특정 아웃라이어(극단적 값) 처리를 통해 양자화 오류를 줄이는 방식.
- SmoothQuant → 가중치와 활성화 값의 균형을 조정하여 양자화 성능을 최적화.
- GPTQ → LLM을 4비트까지 압축하면서 성능을 유지하는 최신 양자화 기법.
💡 결론: LLM의 성능을 유지하면서도 메모리 사용량을 줄이기 위해 INT8, INT4 양자화 기술이 많이 활용됨.
📌 (2) 모델 가지치기 (Pruning)
- 모델의 중요하지 않은 가중치를 제거하여 크기를 줄이는 기법.
- Structured Pruning: 특정 뉴런, 채널, 레이어를 제거하여 모델 구조를 간소화.
- Unstructured Pruning: 개별 가중치를 제거하는 방식으로 더 높은 압축률 가능.
- SparseGPT → OPT-175B 모델에서 60%의 가중치를 제거하면서도 성능 유지.
💡 결론: 모델 가지치기를 통해 연산량을 줄이고 배포 비용을 절감할 수 있음.
📌 (3) 지식 증류 (Knowledge Distillation)
- 대형 모델(교사 모델)의 지식을 작은 모델(학생 모델)로 전이하는 방식.
- 화이트박스 방식: 교사 모델의 내부 가중치를 활용하여 훈련.
- 블랙박스 방식: 교사 모델의 출력값을 활용하여 작은 모델을 훈련.
- MINILLM → LLaMA 13B 모델을 7B 모델로 압축하면서도 성능 유지.
💡 결론: 지식 증류를 활용하면 작은 모델도 대형 모델의 성능을 일부 유지할 수 있음.
3. 검색 증강 생성 (Retrieval-Augmented Generation, RAG)
📌 LLM이 내부 지식만으로 응답하는 것이 아니라, 외부 정보를 검색하여 활용하는 기법.
📌 (1) RAG의 기본 구조
1️⃣ 문맥 검색(Context Retrieval)
- 문서 데이터베이스에서 관련 정보를 검색하여 활용.
- Lexical Retrieval: 단어 기반 검색 (BM25, TF-IDF)
- Semantic Retrieval: 임베딩 기반 의미 검색 (Dense Vector Search)
2️⃣ 프롬프트 구성(Prompt Construction)
- 검색된 정보를 프롬프트에 삽입하여 모델이 더 정확한 답변을 생성하도록 유도.
- 문서의 중요한 부분만 남기고 압축하는 기술 적용.
3️⃣ 응답 생성(Response Generation)
- 검색된 정보가 유용한지 확인하고, 필요하면 추가 검색을 수행.
- LLM이 자체적으로 출력 품질을 평가하고, 필요 시 검색을 반복하는 기능 추가 가능.
💡 결론: LLM이 검색 기능을 활용하면 최신 정보에 접근할 수 있으며, 정확도가 향상됨.
📌 (2) RAG 성능 향상 기법
📌 검색 정확도를 높이고 문맥 활용도를 극대화하기 위한 전략
1️⃣ 검색 성능 향상 (Retrieval Improvement)
- 문서 검색 범위를 최적화하여 불필요한 정보 포함을 방지.
- LLM이 자동으로 검색 쿼리를 개선(Query Expansion, Query Rewriting)하여 검색 성능 향상.
2️⃣ 검색 결과 필터링 (Retrieval Results Refinement)
- 검색된 문서 중 가장 중요한 내용을 선별하여 LLM이 활용할 수 있도록 구조화.
- 문서 요약, 정보 추출, 토큰 압축 같은 기술 적용 가능.
3️⃣ 반복 검색 (Iterative Retrieval)
- LLM이 스스로 검색 결과를 분석하고, 추가 검색이 필요한 경우 반복적으로 수행.
- Chain-of-Thought 방식과 결합하여 검색-추론-검색 반복 구조 구축 가능.
💡 결론: 검색 증강 생성(RAG)을 활용하면 최신 정보 반영이 가능하며, 응답 품질이 향상됨.
📌 최종 요약:
1️⃣ LLM의 추론 속도를 높이기 위해 스펙큘레이티브 디코딩, 계단식 추론, 조기 종료 같은 최적화 기법이 연구됨.
2️⃣ 양자화(Quantization), 모델 가지치기(Pruning), 지식 증류(Distillation)를 통해 모델을 압축하고 배포 비용을 절감할 수 있음.
3️⃣ 검색 증강 생성(RAG) 기법을 활용하면 LLM이 최신 정보에 접근하여 보다 신뢰성 높은 응답을 생성할 수 있음.
1. LLM의 환각(Hallucination) 문제 및 원인 분석
📌 LLM이 부정확한 정보를 생성하는 주요 원인
📌 (1) 훈련 데이터 품질 및 분포 영향
1️⃣ 데이터 품질(Data Quality)
- 훈련 데이터는 다양한 출처에서 수집되며, 양질의 데이터가 많을수록 모델 성능이 향상됨.
- 하지만 잘못된 정보가 포함된 경우, 모델이 이를 학습하여 **"모방적 허위(Imitative Falsehoods)"**를 생성할 가능성이 높음.
- 또한, 편향된 데이터를 학습하면 모델이 세계 지식을 왜곡되게 학습할 수 있음.
2️⃣ 데이터 분포(Data Distribution)
- 모델이 훈련된 데이터가 특정 기간에 집중되어 있으면, 시간이 지나면서 지식이 구식(Outdated)이 될 가능성이 큼.
- 특정 도메인(의료, 법률 등)의 데이터가 부족하면, 해당 분야에서 오류를 더 많이 생성할 위험이 있음.
- 드물게 등장하는 지식을 처리할 때 모델의 환각 현상이 더 많이 발생함.
💡 결론: 정확한 데이터와 다양한 도메인 데이터를 포함해야 모델의 환각을 줄일 수 있음.
📌 (2) 훈련 방식의 영향 (Training Methods)
📌 LLM 훈련 방식이 환각 문제를 유발하는 원인 분석
1️⃣ 사전 훈련(Pre-training) 문제
- 대부분의 LLM은 다음 토큰 예측(Next Token Prediction) 방식으로 훈련됨.
- 자동 회귀(Autoregressive) 방식에서는 시퀀스가 길어질수록 주의(attention) 분포가 감소하여 장거리 의존성을 효과적으로 모델링하지 못함.
- 또한, 훈련 중에는 **올바른 정답을 제공(Teacher Forcing)**하지만, 실제 사용 시에는 자체 생성된 데이터를 기반으로 예측해야 함.
- 이 차이로 인해 **"노출 편향(Exposure Bias)"**이 발생하여 환각 가능성이 높아짐.
2️⃣ 후처리 훈련(Post-training) 문제
- 지도 학습 튜닝(Supervised Fine-tuning) 과정에서 고성능 모델(GPT-4 등)이 생성한 데이터를 활용하여 모델을 훈련하지만, 이 데이터에도 환각이 포함될 수 있음.
- 인간 피드백 정렬(Human Alignment) 과정에서 사용자가 원하는 답을 맞추려는 경향이 강해지면서 사실과 다른 정보를 생성할 위험이 있음.
💡 결론: 훈련 방식이 모델의 환각 현상에 직접적인 영향을 미치며, 사전 훈련 및 후처리 과정에서 신중한 데이터 검토가 필요함.
📌 (3) 응답 생성 방식의 영향 (Response Generation)
📌 프롬프트 디자인과 디코딩 전략이 환각 발생에 미치는 영향
1️⃣ 프롬프트 설계(Prompt Design)
- LLM은 프롬프트 기반으로 작동하지만, 비효율적인 프롬프트는 중요한 정보를 누락하거나 잘못 해석할 가능성이 있음.
- **가독성(Readability), 문장 형식(Format), 구체성(Concreteness)**이 모델의 이해도에 영향을 줌.
- 복잡한 문장, 비표준 표현, 추상적인 개념이 포함되면 환각 가능성이 증가.
2️⃣ 디코딩 전략(Decoding Strategy)
- 다양한 확률 샘플링 기법(Top-k, Top-p)이 사용되며, 이는 환각을 유발할 수 있음.
- 예를 들어, 온도(Temperature) 값이 증가하면 낮은 확률의 단어가 선택될 가능성이 높아지며, 환각 발생 빈도가 증가.
💡 결론: 프롬프트 최적화와 디코딩 전략 조정이 환각을 줄이는 중요한 요소.
2. LLM의 환각 탐지 및 완화 기법 (Hallucination Detection & Mitigation)
📌 LLM이 생성한 환각된 정보를 감지하고 해결하는 방법 연구
📌 (1) 환각 탐지 기법 (Hallucination Detection Methods)
1️⃣ 모델 기반 탐지 (Model-Based Methods)
- 강력한 LLM을 활용하여 환각 여부를 감지하는 방식.
- HaluEval 데이터셋은 인간이 주석을 단 환각 샘플을 포함하며, Chain-of-Thought(CoT) 기법을 활용하면 탐지 정확도가 향상됨.
2️⃣ 불확실성 기반 탐지 (Uncertainty-Based Methods)
- 모델이 생성한 단어의 확률 값을 분석하여 확률이 낮은 경우 환각 가능성이 높다고 판단.
- SelfCheckGPT: 같은 질문을 여러 번 답변하도록 한 뒤 일관성을 비교하여 환각 여부를 판단.
3️⃣ 도구 기반 탐지 (Tool-Based Methods)
- 검색 엔진을 활용하여 모델이 생성한 정보를 검증.
- FactScore: 모델의 응답을 세부 사실 단위로 분리하고, 검색 엔진을 통해 정확성을 평가.
- HaluAgent: 오픈소스 모델과 검색 도구를 결합하여 7B 모델도 GPT-4 수준의 환각 탐지 성능을 제공.
💡 결론: 환각 탐지는 모델 자체적인 평가, 불확실성 분석, 외부 도구 활용 방식으로 수행됨.
📌 (2) 환각 완화 기법 (Hallucination Mitigation Methods)
📌 환각을 줄이기 위한 주요 해결 방법
1️⃣ 인간 정렬 (Human Alignment)
- RLHF(강화 학습 기반 인간 피드백)를 사용하여 환각을 줄일 수 있음.
- HaluEval 2.0: 환각된 응답과 정상 응답을 학습하여 보상 모델을 구축한 후, RLHF로 모델을 튜닝.
- 하지만, 인간 피드백이 모델을 **사실보다 인간의 기대에 맞추려는 경향(Sycophantic Behavior)**을 유발할 수도 있음.
2️⃣ 검색 증강 생성 (Retrieval-Augmented Generation, RAG)
- LLM이 신뢰할 수 있는 외부 정보를 검색하여 프롬프트에 포함하면 환각을 줄일 수 있음.
- RARR: 모델이 생성한 텍스트를 기반으로 검색 쿼리를 생성하고, 검색된 문서와 비교하여 환각을 수정.
- Verify-and-Edit: 응답을 생성한 후 검색된 정보를 기반으로 내용을 편집.
3️⃣ 디코딩 전략 개선 (Improved Decoding Strategy)
- DoLa(Contrastive Decoding): 하위 레이어의 신뢰도 낮은 단어를 제거하고, 최종 로짓 값을 보정하여 환각을 줄임.
- ITI(Truth-Correlated Attention): 특정 주의(attention) 패턴이 사실과 높은 상관관계를 갖도록 모델을 조정.
💡 결론: 환각을 줄이기 위해 RLHF, 검색 증강 생성, 디코딩 전략 최적화 등의 방법이 연구되고 있음.
3. 결론 및 미래 연구 방향 (Conclusion & Future Directions)
📌 LLM 연구의 핵심 내용 요약 및 향후 연구 과제
1️⃣ 대형 언어 모델은 인간의 자연어 처리 방식과 근본적으로 다르며, 신뢰성과 효율성을 개선하는 연구가 필요함.
2️⃣ Transformer 기반 모델의 한계를 극복하기 위해 새로운 아키텍처 개발이 필요함.
3️⃣ 환각 문제 해결을 위해 검색 증강, 인간 정렬, 디코딩 최적화 등의 연구가 진행 중이며, 향후 연구가 지속될 전망.
📌 전체 논문 요약:
1️⃣ LLM의 주요 개념과 원리: 사전 훈련, 적응, 활용 및 평가 방법 정리.
2️⃣ 환각 문제 및 해결책: 데이터 품질, 훈련 방식, 프롬프트 디자인, 디코딩 전략 등이 환각 발생에 영향을 줌.
3️⃣ 환각 탐지 및 완화 방법: 모델 기반 탐지, 검색 증강 생성(RAG), RLHF(강화 학습), 개선된 디코딩 기법이 연구되고 있음.
4️⃣ 미래 연구 방향: 모델 효율성 개선, 새로운 아키텍처 개발, 안전성과 신뢰성 향상을 위한 연구가 지속될 예정.
'LLM > LLM 논문 읽기' 카테고리의 다른 글
📝 LLM 논문 읽기 #3 - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (1) | 2025.03.25 |
---|---|
📝 LLM 논문 읽기 #2 - Attention Is All You Need (0) | 2025.03.19 |