[LLM] 텍스트 분할(TextSplit)
·
🤖 AI/LLM
[LLM] 텍스트 분할(TextSplit) 문서 분할은 RAG 시스템의 두 번째 단계로, 로드된 문서들을 효율적으로 처리하고 시스템이 정보를 보다 잘 활용할 수 있도록 준비하는 과정이다.크고 복잡한 문서를 LLM이 받아들일 수 있는 효율적인 작은 규모의 조각으로 나누는 작업이다. 01. 문자 텍스트 분할(CharacterTextSplitter)기본적으로 \n\n을 기준으로 문자 단위로 텍스트를 분할하고 청크의 크기를 문자 수로 측정한다.텍스트 분할 방식 : 단일 문자 기준청크 크기 측정 방식 : 문자 수 기준 CharacterTextSplitter를 사용하여 텍스트를 청크(chunk)로 분할할 수 있다.# 패키지 설치pip install -qU langchain-text-splittersfrom la..