HyDE 기반 멀티 홉 검색 기법을 활용한 검색 성능 향상 방안
HyDE-Based Multi-Hop Retrieval Approach for Enhancing Retrieval Performance
김예은(광주과학기술원); 이재홍(CJ올리브네트웍스); 원상혁(CJ올리브네트웍스); 정우혁(CJ올리브네트웍스); 우지환(AWS Sr. Specialist Partner SA AI/ML)
27권 2호, 127~148쪽
초록
생성형 인공지능과 대형 언어 모델(LLM)의 발전은 기업의 업무 프로세스에 혁신을 가져오며 도메인특화된 업무를 처리하기 위한 맞춤형 LLM 도입을 촉진하고 있다. 그러나 LLM의 환각(hallucination) 문제와 도메인 적합성 부족을 해결하기 위한 Retrieval-Augmented Generation(RAG) 시스템은 검색단계에서 복잡한 멀티 홉 질의 처리 시 오류 누적 문제로 인해 성능 저하를 겪는다. 본 연구는 이러한문제를 해결하기 위해 Hypothetical Document Embedding(HyDE) 기법을 멀티 홉 검색에 통합하여 RAG 성능을 개선하는 프레임워크를 제안한다. HyDE 기법은 질의의 의미를 반영한 가상 문서를 생성하여검색 정확성을 향상시키며, 본 연구에서는 복잡한 질의를 단계적으로 단일 홉 질의로 분해하고 각단계에서 HyDE를 적용하는 방식을 채택하였다. 실험은 검색 정확도를 측정하기 위해 precision@k, recall@k, F1 score, MAP, MRR, hit rate와 같은 지표를 사용하여 진행되었다. 실험 결과 HyDE 기반멀티 홉 검색은 모든 지표에서 기존 대비 향상된 성능을 보였으며, 특히 recall이 약 19.53%, hit rate가21.21% 증가하였다. 이는 HyDE가 멀티 홉 검색에서 검색의 정확성을 높이는 데 효과적임을 보여준다. 향후 연구에서는 멀티 홉 검색에 최적화된 데이터셋 개발, 가상 문서 생성 전략의 개선 등을 시도할수 있을 것으로 기대된다.
Abstract
The development of generative AI and large language models (LLMs) is revolutionizing business processes and fostering the adoption of customized LLMs for domain-specific tasks. However, Retrieval-Augmented Generation (RAG) systems designed to address hallucination and domain relevance issues face performance degradation due to error accumulation in handling complex multi-hop queries. This study proposes a framework that integrates the Hypothetical Document Embedding (HyDE) technique into multi-hop retrieval to enhance RAG performance. HyDE generates virtual documents reflecting query intent, improving retrieval accuracy by decomposing complex queries into single-hop queries and applying HyDE iteratively at each step. Experiments were conducted using precision@k, recall@k, F1 score, MAP, MRR, and hit rate as evaluation metrics. The results demonstrate that HyDE-based multi-hop retrieval improves performance across all metrics, with recall increasing by approximately 19.53% and hit rate by 21.21%. These findings confirm the effectiveness of HyDE in enhancing retrieval accuracy for multi-hop search. Future research directions include the development of optimized datasets for multi-hop retrieval and further refinement of virtual document generation strategies.
- 발행기관:
- 한국경영정보학회
- 분류:
- 경영학