본문 바로가기

전체 글41

📝 LLM 논문 읽기 #4 - Language Models are Few-Shot Learners (GPT-3) 📌 논문 정보제목: Language Models are Few-Shot Learners저자: Tom B. Brown et al. (OpenAI)출처: arXiv (📄 논문 PDF)게재일: 2020년 5월 28일인용 횟수: 약 43,367회 (2025년 3월 기준)선정 이유: GPT-3 논문은 대규모 언어 모델의 성능이 모델 크기와 함께 급격히 향상된다는 것을 보여줬으며, 별도 학습 없이도 다양한 작업을 수행할 수 있는 few-shot learning 능력을 강조함으로써 이후 LLM 패러다임 전환을 이끈 핵심 연구로 평가받기 때문에Abstract최근 자연어 처리(NLP) 분야에서의 혁신적인 접근 방식이 주목받고 있습니다. 이 논문의 초록에서는 대규모 텍스트 코퍼스를 기반으로 한 사전 훈련과 특정 작업에.. 2025. 4. 7.

📝 LLM 논문 읽기 #3 - BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 📌 논문 정보제목: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding저자: Jacob Devlin et al.출처: arXiv (📄 논문 PDF)게재일: 2018년 10월 11일, 최종 수정일 : 2019년 5월 24일인용 횟수: 126,945 회 (2025년 3월 기준)선정 이유: BERT 논문은 양방향 학습 개념을 명확히 설명하며 입문자에게 LLM의 기초를 이해하기 쉽게 제공하며, LLM 패러다임에 사전 학습과 미세 조정을 표준화해 이후 모델들의 성능과 활용성을 크게 높인 영향을 끼쳤기 때문에초록 (Abstract)BERT는 Bidirectional Encoder Representations from T.. 2025. 3. 25.

📝 LLM 논문 읽기 #2 - Attention Is All You Need 📌 논문 정보제목: Attention Is All You Need저자: Ashish Vaswani et al.출처: arXiv (📄 논문 PDF)게재일: 2017년 6월 12일, 최종 수정일 : 2023년 8월 2일 인용 횟수: 171,726회 (2025년 기준)선정 이유: 트랜스포머(Transformer) 모델을 소개한 것으로, 현대 LLM의 핵심 구조를 이해하는 데 필수적 생각되어 선정"Attention Is All You Need"는 2017년 Vaswani 외 여러 연구자가 발표한 논문으로, 자연어 처리(NLP) 분야에서 혁신적인 트랜스포머(Transformer) 모델을 처음 제안했습니다.이 논문은 기존 모델의 한계를 넘어서는 새로운 접근법을 제시하며, 이후 BERT, GPT 등 다양한 모델.. 2025. 3. 19.

Llama 3.1 8B 파인튜닝 하기(2) - 테스트(BLEU, 코사인 유사도) 전체 코드(Colab에서 GPU A100 40GB 할당 받아 수행) 수행시간 약 4시간더보기import torchimport pandas as pdfrom transformers import AutoTokenizer, AutoModelForCausalLMfrom datasets import load_datasetfrom sentence_transformers import SentenceTransformer, utilfrom nltk.translate.bleu_score import sentence_bleu, SmoothingFunctionimport nltkfrom tqdm import tqdmfrom multiprocessing import Poolnltk.download('punkt_tab', qui.. 2025. 3. 18.

Llama 3.1 8B 파인튜닝 하기(1) - 전처리, 파인튜닝 📌 Llama 3.1 8B, 한국어 대화에 약하다.최근 Llama 3.1 8B 모델을 테스트해본 결과, 한국어 대화에서 문맥이 맞지 않는 답변을 하는 경우가 많았다. 🤔특히, 감성적인 대화에서 어색한 표현이 종종 등장하여 자연스러운 대화를 이어가기 어려웠음.그래서 "감성대화 말뭉치" 데이터를 학습시켜, 보다 자연스럽고 문맥에 맞는 대화를 생성할 수 있도록 개선해보았다! 🚀📂 사용한 데이터셋📌 데이터셋 이름: 감성대화 말뭉치📌 출처: AI Hub 감성대화 말뭉치📌 설명:약 5만 건의 대화 데이터 포함 💬사람과 시스템의 응답이 기록되어 있음 📝🛠️ 전처리 과정1. 먼저 Data를 csv 파일로 변환하고 파일구조를 변경시킴.db/emotional_data/train/test.CSVdb/emo.. 2025. 3. 17.

Llama 3.1 8B 로컬에서 실행하기 로컬 세팅 환경- GPU : RTX 3060 Ti (VRAM 8GB)- NVIDIA-SMI (Driver Version) : 572.70- CUDA version : 12.8- Python 3.10.11 RTX 3060 Ti (8GB VRAM)에서 실행할 수 있는 최적의 LLM을 찾다가 Llama 3.1 8B를 설치했다.13B 이상 모델은 VRAM 한계로 부담스럽고, 7B보다는 성능이 좋아서 적당한 타협점이었다.CUDA 12.8과 최신 드라이버 환경에서 GPU 가속을 활용해 최적화할 수 있고, 로컬에서 LLM을 실험하며 성능을 테스트하기에도 적절하다.LLM 개발을 진행 중이라 다양한 모델을 직접 다뤄보는 게 중요했는데, 이 모델이 속도와 메모리 사용량 면에서 가장 균형 잡힌 선택이었다.모델 다운로드1... 2025. 3. 13.

이전 1 2 3 4 ··· 7 다음

티스토리툴바