대용량의 문서가 벡터라이징 된 벡터DB에서 검색 히팅율을 올리는것은 많은 기법이 필요하다
특히 금융권 상품문서의 경우 비슷한게 너무많다
예를들면 A란 상품을 판매하고 있는데 그것을 약간 수정해서 AA란 상품을 만들고 또 약간 수정해서 AAA란 상품을 만드는것이
일반화 되어있기때문에 질문에 대한 맞는 유사도검색을 통한 검색 히팅율을 좋아지기가 매우어렵다
그중에서도 사용자의 질문을 확장하고 검색에 맞는 질문변환등의 질문전처리가 필요하고
검색을 키워드검색, 시멘틱검색을 같이하는 하이브리드 검색이 보편화 되어있다.
청킹된 데이타와 질문을 비교하여 재순위설정 하는 리랭킹모델도 보통 적용하게 되어있는데
여기서 소개하는것은 벡터DB에서 BM25를 제공하지만 성능이 좋지못하고 개선하고자 하는경우에 해당된다.
'관심분야 > 생성형AI' 카테고리의 다른 글
AI 새로운 전환점 : Titans 아키텍처 ( 발표: 2025.01.15 ) (0) | 2025.02.05 |
---|---|
좌동과상동처리 (0) | 2025.02.04 |
AI 기반의 지능형 PII 탐지 파이프라인 소개 (0) | 2025.01.23 |
RAG 검색 히팅율 올리기 (0) | 2025.01.21 |
RAG 평가 분석 후 개선방안 (0) | 2025.01.21 |