본문 바로가기

LLM15

📝 LLM 논문 읽기 #4 - Language Models are Few-Shot Learners (GPT-3) 📌 논문 정보제목: Language Models are Few-Shot Learners저자: Tom B. Brown et al. (OpenAI)출처: arXiv (📄 논문 PDF)게재일: 2020년 5월 28일인용 횟수: 약 43,367회 (2025년 3월 기준)선정 이유: GPT-3 논문은 대규모 언어 모델의 성능이 모델 크기와 함께 급격히 향상된다는 것을 보여줬으며, 별도 학습 없이도 다양한 작업을 수행할 수 있는 few-shot learning 능력을 강조함으로써 이후 LLM 패러다임 전환을 이끈 핵심 연구로 평가받기 때문에Abstract최근 자연어 처리(NLP) 분야에서의 혁신적인 접근 방식이 주목받고 있습니다. 이 논문의 초록에서는 대규모 텍스트 코퍼스를 기반으로 한 사전 훈련과 특정 작업에.. 2025. 4. 7.

📝 LLM 논문 읽기 #3 - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 📌 논문 정보제목: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding저자: Jacob Devlin et al.출처: arXiv (📄 논문 PDF)게재일: 2018년 10월 11일, 최종 수정일 : 2019년 5월 24일인용 횟수: 126,945 회 (2025년 3월 기준)선정 이유: BERT 논문은 양방향 학습 개념을 명확히 설명하며 입문자에게 LLM의 기초를 이해하기 쉽게 제공하며, LLM 패러다임에 사전 학습과 미세 조정을 표준화해 이후 모델들의 성능과 활용성을 크게 높인 영향을 끼쳤기 때문에초록 (Abstract)BERT는 Bidirectional Encoder Representations from T.. 2025. 3. 25.

📝 LLM 논문 읽기 #2 - Attention Is All You Need 📌 논문 정보제목: Attention Is All You Need저자: Ashish Vaswani et al.출처: arXiv (📄 논문 PDF)게재일: 2017년 6월 12일, 최종 수정일 : 2023년 8월 2일 인용 횟수: 171,726회 (2025년 기준)선정 이유: 트랜스포머(Transformer) 모델을 소개한 것으로, 현대 LLM의 핵심 구조를 이해하는 데 필수적 생각되어 선정"Attention Is All You Need"는 2017년 Vaswani 외 여러 연구자가 발표한 논문으로, 자연어 처리(NLP) 분야에서 혁신적인 트랜스포머(Transformer) 모델을 처음 제안했습니다.이 논문은 기존 모델의 한계를 넘어서는 새로운 접근법을 제시하며, 이후 BERT, GPT 등 다양한 모델.. 2025. 3. 19.

Llama 3.1 8B 파인튜닝 하기(2) - 테스트(BLEU, 코사인 유사도) 전체 코드(Colab에서 GPU A100 40GB 할당 받아 수행) 수행시간 약 4시간더보기import torchimport pandas as pdfrom transformers import AutoTokenizer, AutoModelForCausalLMfrom datasets import load_datasetfrom sentence_transformers import SentenceTransformer, utilfrom nltk.translate.bleu_score import sentence_bleu, SmoothingFunctionimport nltkfrom tqdm import tqdmfrom multiprocessing import Poolnltk.download('punkt_tab', qui.. 2025. 3. 18.

이전 1 2 3 4 다음

티스토리툴바