본문 바로가기

Retrieval3

Retrieval-Text Embeddings Retrieval-Text Embeddings는 텍스트를 숫자로 변환하여 문장 간의 유사성을 비교할 수 있도록 합니다.대부분의 경우 대용량의 말뭉치를 통해 사전학습된 모델을 통해 쉽게 임베딩합니다. 사전학습 임베딩 모델에는 대표적으로 OpenAI에서 제공하는 ada모델과, HuggingFace의 모델들이 있습니다. 사용목적과 요구사항에 따라 적절한 임베딩을 고르는 것은 RAG의 가장 중요한 부분입니다.실습OpenAIEmbeddings - ada-002from langchain.embeddings import OpenAIEmbeddingsembeddings_model = OpenAIEmbeddings(openai_api_key=)embeddings = embeddings_model.embed_documen.. 2025. 3. 7.

Retrieval - Text Splitters Text Splitter는 토큰 제한이 있는 LLM이 여러 문장을 참고해 답변할 수 있도록 문서를 분할하는 역할 Text Splitter의 종류에는 2가지가 있음대부분의 경우 RecursiveCharacter TextSplitter를 통해 분할RecursiveCharacter TextSplitter줄바꿈, 마침표, 쉼표 순으로 재귀적으로 분할하므로, max_token을 지켜 분할Character TextSplitter구분자 1개 기준으로 분할하므로, max_token을 지키지 못하는 경우가 발생CharacterTextSplitter가장 간단한 텍스트 분할기로, 특정 구분자를 기준으로 텍스트를 여러 개로 분할합니다.# This is a long document we can split up.with open.. 2025. 3. 7.

Retrieval - Document Loaders Retrieval - Document LoadersRAG(Retrieval-Augmented Generation)란외부 데이터를 참조하여 LLM이 답변할 수 있도록 해주는 프레임 워크Document Loaders는 다양한 형태의 문서를 RAG 전용 객체로 불러들이는 모듈Page_content : 문서의 내용Metadata : 문서의 위치, 제목, 페이지 넘버 등URL Document Loader (WebBaseLoader, UnstructuredURLLoader)WebBaseLoader# !pip install langchain pypdf unstructured pdf2image docx2txt pdfminer# pip install -U langchain-communityfrom langchain.do.. 2025. 3. 7.

이전 1 다음

티스토리툴바