조대협의 블로그

  • HOME
  • TAGS
  • MEDIA
  • GUESTBOOK
  • ADMIN
  • WRITE

2024/01/22 1

Langchain을 이용한 LLM 애플리케이션 개발 #12 - 큰문서를 나눠서 검색하기 (Parent-Child Chunking)

지금까지 살펴본 Retriever 들은, chunk 의 원본 문서 또는 문장을 저장할때 벡터 데이터 베이스에 text 필드에 저장하였다. 보통 한 문서 또는 한 문장은 여러개의 chunk로 분할되어 각각 저장되기 때문에 원본 Text가 중복되서 저장되는 문제점이 있고 이로 인하여 데이터 베이스 용량이 커지는 문제가 있다. 또는 원본 문서의 크기가 클때는 데이터 베이스 싱글 컬럼에 저장이 안될 수 도 있다. 이러한 문제를 해결하기 위한 구조를 parent-child chunking 이라고 하는데, langchain에서는 ParentDocumentRetriever 를 통해서 이 구조를 지원한다. 기본 원리는 chunk를 저장할때 chunk에 대한 원본 텍스트를 저장하지 않고, 원본 문서는 별도의 문서 저장소..

빅데이타 & 머신러닝/생성형 AI (ChatGPT etc) 2024.01.22
이전
1
다음
더보기
프로필사진

실리콘밸리에서 살고 있는 평범한 엔지니어 입니다 이메일-bwcho75골뱅이지메일 닷컴. 아키텍처 디자인, 머신러닝 시스템, 빅데이터 설계, DEVOPS/SRE, 애자일 방법론,쿠버네티스,마이크로서비스, ChatGPT 생성형 AI , CTO 등에 대한 기술 멘토링과 강의 진행합니다. 쓰레드 : https://www.threads.net/@byungwookcho

  • 분류 전체보기
    • 조대협의 소프트웨어 개발
    • IT 이야기
      • 트렌드
      • IT와 사람
    • 사는 이야기
      • 골프
      • 책
      • 일정 자료 관리 방법
      • 육아
    • 빅데이타 & 머신러닝
      • 통계학 이론
      • 스트리밍 데이타 처리
      • 머신러닝
      • R
      • Zepplin
      • Google BigQuery
      • 생성형 AI (ChatGPT etc)
      • Pytorch
    • 비지니스
      • 비지니스와 세일즈
      • 스타트업
    • 클라우드 컴퓨팅 & NoSQL
      • Data Grid (IMDG)
      • Identity Management
      • Apache Httpd
      • IIS
      • NginX
      • NoSQL 일반
      • RabbitMq
      • Redis
      • MongoDB
      • Hadoop
      • HBase
      • Cassandra
      • CouchBase
      • Riak
      • IaaS 클라우드
      • PaaS 클라우드
      • SaaS
      • 개인 클라우드
      • google cloud
      • Azure
      • Amazon Web Service
      • 분산컴퓨팅&클라우드
      • VDI
      • 운영 & Devops
      • Vert.x & Node.js
      • M2M & IOT
      • 도커 & 쿠버네티스
    • 아키텍쳐
      • 머신러닝
      • BI
      • WEB 2.0
      • SCA
      • SOA
      • Enterprise 2.0
      • Domain Driven Design
      • EAI
      • 대용량 아키텍쳐
      • Security & IDM
      • 모바일
    • 성능과 튜닝
      • JVM
      • APM (AP 성능 측정)
      • 자바 성능팁
      • WAS 튜닝
    • ALM
      • 애자일
      • 배포(Deployment)
      • JIRA
      • 에세이
      • SCM/VCS
      • Build Automation (빌드..
      • Test Automation
      • Build Automation(이클립..
      • Task Management
    • 프로그래밍
      • 알고리즘
      • 안드로이드
      • Ruby
      • JavaScript
      • Python
      • Spring & Maven
      • LIBS
      • Hibernate(하이버네이트)
      • 프로그래밍팁
      • MVC
      • XML 관련
      • J2EE
      • Groovy
      • JSF & Oracle ADF Fac..
      • Visual Studio
      • C# & .NET
      • ASP.NET
      • Windows Phone7
      • 아두이노
      • Nest.js
    • 엔터프라이즈 솔루션
      • Wiki
      • 우분투
      • 포탈
      • Oracle BPEL
      • Oracle Service Bus (..
      • BEA Tuxedo
      • MS-SQL
      • SharePoint
      • BEA WebLogic
      • 빅데이타

Tag

Kubernetes, 딥러닝, Tutorial, cloud, 초보, tensorflow, 빅데이타, 텐서플로우, node.js, 클라우드 컴퓨팅, 구글, google, 클라우드, 머신러닝, 조대협, 튜토리얼, 강좌, 쿠버네티스, Machine Learning, 소개,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2024/01   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

  • 서버사이드 아키텍트 그룹
  • Dzone
  • InfoQ
  • 마틴파울러 옹
  • Craig Larman 홈페이지
  • 강대명님(Redis) 블로그
  • 수학공부닷컴(중학교수준)
  • Udacity
  • 커니의 안드로이드
  • 코드 스쿨
  • 랭귀지 튜토리얼
  • Code Academy
  • Coursera
  • 온라인강좌-Udemy
  • 데이타 과학 놀이터
  • 데이타 관련 튜토리얼

티스토리툴바