본문 바로가기
반응형

rag2

Unstructured - 다양한 문서 형식에서 텍스트 추출하는 Python 도구 Unstructured는 PDF, Word, HTML, 이미지 등 다양한 형식의 문서에서 텍스트를 구조화된 형태로 추출해주는 최신 Python 라이브러리입니다. LLM(RAG) 시스템이나 문서 요약, 검색 파이프라인을 구축할 때 매우 유용합니다.📌 Unstructured란?Unstructured는 표, 리스트, 텍스트 블록 등 문서 내 레이아웃을 인식하고 각 요소를 파싱해 Document Element 객체로 반환합니다. 이를 통해 단순 텍스트가 아닌 구조적 문서 추출이 가능해져 문서 검색 및 분석 품질이 향상됩니다.🧪 예시 프로젝트: PDF에서 텍스트 요소 추출하기📁 프로젝트 구조 pdf_parser/├── parse_pdf.py # PDF 처리 로직└── test_pars.. 2025. 8. 20.
Haystack - Python 기반 멀티모달 RAG 파이프라인 프레임워크 Haystack는 문서 기반 질문응답(QA), 검색 증강 생성(RAG), 챗봇 구축 등을 위한 오픈소스 Python 프레임워크입니다. 최신 LLM들과 통합되어 텍스트, PDF, 웹 등 다양한 소스의 데이터를 기반으로 질문에 답하는 시스템을 손쉽게 구축할 수 있습니다.📌 Haystack이란?Haystack은 OpenAI, Cohere, HuggingFace Transformers, LangChain 등과 통합되어, 단순한 질의응답 시스템부터 강력한 검색 기반 생성형 AI까지 다양한 워크플로우를 구성할 수 있는 모듈형 프레임워크입니다. 데이터 소스 연결, 파이프라인 구성, LLM 호출, 문서 검색 기능이 포함되어 있습니다.🧪 예시 프로젝트: CSV 문서 기반 Q&A API📁 프로젝트 구조 haystac.. 2025. 8. 18.
반응형