확률적 리드타임과 반품이 존재하는 공급망에서DRL 기반 재고정책의 설계와 (s, S) 정책 비교
Design of DRL-based Inventory Policies and Comparison with (s, S) Policies in Supply Chains with Stochastic Lead Times and Returns
방준영(성결대학교); 정봉주(국립공주대학교)
16권 4호, 99~118쪽
초록
현대 공급망은 세계화, 상호의존성, 실시간 정보 처리 등으로 인해 복잡성이 심화되고 있으며, 특히 확률적 리드 타임과 제품 반품이 주요 불확실성 요인으로 부상했다. 이 불확실성들은 재고 및 고객 서비스 수준에 직접적인 영향을 미치며, 과잉 재고, 비용 증가, 예측 오류 등 전통적인 재고 정책으로는 해결하기 어려운 문제들을 야기한다. 기존의 (s, S) 정책은 안정적인 환경에서 좋은 성능을 보여 주었으나, 확률적 리드 타임, 높은 수요 변동성, 불규칙한 반품 흐름과 같은 복잡한 현실 시나리오에서는 유연성과 효율성에 한계를 보인다. 또한, 현재까지의 반품을 반영한 재고관리 연구는 단일 품목, 고정된 수요 및 리드 타임을 가정하는 단순화된 모델에 머물러 실제 현장의 복잡성을 반영하지 못하고 있다. 본 연구는 이러한 학문적 공백을 채우고자, 확률적 리드 타임과 반품이 동시에 존재하는 불확실한 수요 및 공급 환경에서의 재고 관리를 분석한다. 또한, 이러한 복잡한 환경에서 전통적인 (s, S) 정책의 한계를 극복하기 위해 새로운 강화 학습(RL) 기반 알고리즘을 제안한다. 개발한 알고리즘의 성능은, 기존의 (s, S) 정책과 비교하여 그 우수성과 실제 적용 가능성을 실증적으로 검증 한다. 연구의 결과는, 확률적 리드 타임과 제품 반품이 동시에 발생하는 복잡한 상황에서, 데이터 기반의 학습형 접근 방식이 현대 공급망의 복잡한 문제를 효과적으로 관리할 수 있는 잠재력을 가지고 있음을 보여준다.
Abstract
Modern supply chains are increasingly complex due to globalization, interdependence, and real-time information processing, with stochastic lead times and product returns emerging as major sources of uncertainty. These uncertainties directly impact inventory and customer service levels, leading to issues like excess inventory, increased costs, and forecast errors that traditional inventory policies struggle to resolve. While conventional (s, S) policies perform well in stable environments, they show limitations in flexibility and efficiency in complex real-world scenarios with stochastic lead times, high demand variability, and irregular return flows. Furthermore, existing research on inventory management incorporating returns often relies on simplified models assuming single items, fixed demand, and constant lead times, failing to reflect actual operational complexities. This study aims to bridge this academic gap by analyzing inventory management in uncertain supply and demand environments where both stochastic lead times and returns are present. We propose a new reinforcement learning (RL)-based algorithm to overcome the limitations of traditional (s, S) policies in such complex settings. The performance of our developed algorithm will be empirically validated by comparing its superiority and practical applicability against the conventional (s, S) policy. The findings will demonstrate the potential of data-driven, learning-based approaches to effectively manage the intricate challenges of modern supply chains in complex situations involving both stochastic lead times and product returns.
- 발행기관:
- KNU 기업경영연구소
- 분류:
- 경영학일반