반응형 document2 Unstructured - 다양한 문서 형식에서 텍스트 추출하는 Python 도구 Unstructured는 PDF, Word, HTML, 이미지 등 다양한 형식의 문서에서 텍스트를 구조화된 형태로 추출해주는 최신 Python 라이브러리입니다. LLM(RAG) 시스템이나 문서 요약, 검색 파이프라인을 구축할 때 매우 유용합니다.📌 Unstructured란?Unstructured는 표, 리스트, 텍스트 블록 등 문서 내 레이아웃을 인식하고 각 요소를 파싱해 Document Element 객체로 반환합니다. 이를 통해 단순 텍스트가 아닌 구조적 문서 추출이 가능해져 문서 검색 및 분석 품질이 향상됩니다.🧪 예시 프로젝트: PDF에서 텍스트 요소 추출하기📁 프로젝트 구조 pdf_parser/├── parse_pdf.py # PDF 처리 로직└── test_pars.. 2025. 8. 20. Bunnet - MongoDB ODM for Beanie를 대체할 새로운 선택지 Bunnet은 최신 Python 개발자들을 위한 MongoDB 비동기 ODM (Object Document Mapper) 입니다. motor 기반의 비동기성, pydantic v2의 타입 안정성, 그리고 간결한 쿼리 API 덕분에 최근 빠르게 주목받고 있습니다.📌 Bunnet이란?Bunnet은 MongoDB용 ODM으로, Python의 타입 힌트와 pydantic 모델을 그대로 활용하여 문서 데이터를 정의하고 검증할 수 있습니다. motor 기반이므로 FastAPI, asyncio 프로젝트와 궁합이 좋습니다. Beanie의 철학을 계승하면서도 더 깔끔한 API와 테스트 편의성을 제공합니다.🧪 예시 프로젝트: 블로그 포스트 저장/조회 API📁 프로젝트 구조blog_api/├── models.py .. 2025. 8. 16. 이전 1 다음 반응형