전체 글 173

LLM모델별 컨텍스트 사이즈 최대활용 가능?

실제로 모델이 제공하는 컨텍스트 사이즈를 최대활용이 가능한가라는 의문에서 시작했다. “이론적으로 32k, 64k, 100k+” 같은 큰 컨텍스트를 지원한다고 알려진 모델들도 실제로는 해당 최대 길이에 도달하기 전부터 성능이 크게 저하되거나, 안정적으로 높은 정확도를 유지하지 못한다는 점을 확인할 수 있습니다. 즉, 모델이 명시적으로 ‘최대 컨텍스트 길이’를 제공한다고 해도, 실제로 그 전 구간에서 이미 성능이 무너질 수 있다는 것   이 표는 “큰 컨텍스트 사이즈”가 곧바로 “안정적으로 높은 정확도”를 의미하지 않는다는 사실을 잘 보여주며,  모델 선택 시 이론상 최대 컨텍스트 길이와 실제 활용 가능한 길이를 구분해봐야 한다는 점 보여주는 중요자료이다. 1.명시된 최대 컨텍스트와 실제 활용 가능 컨텍스트..

Parent Child Chunking

조대협님이 LLM까지 하실줄이야 너무 좋은자료라 공유한다. RAG의 저장방법은 이게 답일듯... 부분발췌Langchain을 이용한 LLM 애플리케이션 개발 #9 - RAG를 이용한 문서 참조. 문서 저장하기출처: https://bcho.tistory.com/1415 [조대협의 블로그:티스토리] Parent Child Chunking문서들을 작은 Chunk 단위로 나눠서 벡터 임베딩 데이터베이스 (Vector Embedding DB)에 저장하는 과정은 같다. 이때, 필드에 임베딩과 문장의 내용을 저장하는 것이 아니라, 이 문장이 속해 있는 문서의 인덱스를 저장한다. 각 문서는 redis나 DB, 파일 시스템등에 저장해놓는다.다음으로 문서를 검색할때는 벡터 임베딩 데이터 베이스에서 해당 문장과 유사한 문장..

AI 새로운 전환점 : Titans 아키텍처 ( 발표: 2025.01.15 )

구글에서 발표한 새로운 신경망 아키텍처가 기대된다.  시사점은 기존 LLM모델과 다르게 메모리의사용, 적은 파라미터로 대용량 파라미터를 능가하는 성능을 제공하기 때문이다.앞으로 노트북, 핸드폰, 온디바이스등의 장비에 적용되면 앞으로의 미래가 어떻게 될지 모르겠다.70B모델대비 0.7B모델이 더 뛰어난성능을 보여주는것이기에 기대해 볼만한 발표인듯하다.트랜스포머 아키텍쳐 > 큐스타 아키텍처 > Titans 아키텍처로 가는것인지 두고 보자

Dense벡터 유사도검색 + Sparse 벡터 유사도검색

대용량의 문서가 벡터라이징 된 벡터DB에서 검색 히팅율을 올리는것은 많은 기법이 필요하다특히 금융권 상품문서의 경우 비슷한게 너무많다예를들면 A란 상품을 판매하고 있는데 그것을 약간 수정해서 AA란 상품을 만들고 또 약간 수정해서 AAA란 상품을 만드는것이일반화 되어있기때문에 질문에 대한 맞는 유사도검색을 통한 검색 히팅율을 좋아지기가 매우어렵다그중에서도 사용자의 질문을 확장하고 검색에 맞는 질문변환등의 질문전처리가 필요하고검색을 키워드검색, 시멘틱검색을 같이하는 하이브리드 검색이 보편화 되어있다.청킹된 데이타와 질문을 비교하여 재순위설정 하는 리랭킹모델도 보통 적용하게 되어있는데여기서 소개하는것은 벡터DB에서 BM25를 제공하지만 성능이 좋지못하고 개선하고자 하는경우에 해당된다.