서울대학교 공과대학

창의설계축전 공모작

BiCQL-ML: 최대우도 기반 역강화학습을 위한 보수적 Q-러닝 프레임워크

참가 부문

연구발표부문
학과

전기정보공학부
팀명

제이에스
신청자 이름

박준성

본 연구는 Offline 환경에서 전문가 시연 데이터만을 활용하여 보상 함수를 안정적으로 학습할 수 있는 새로운 Inverse Reinforcement Learning 알고리즘을 제안한다. 기존 기법들은 온라인 상호작용에 대한 의존성과 분포 외 행동에 대한 Q-value 과대평가 문제로 인해 학습 안정성이 저하되는 한계를 보였다. 이를 극복하기 위하여 본 연구에서는 Bi-level Conservative Q-learning with Maximum Likelihood (BiCQL-ML) 구조를 도입하였다. 본 방법은 상위 단계에서 전문가 행동의 우도를 최대화하도록 보상 함수를 학습하고, 하위 단계에서는 Conservative Q-learning을 통해 Q-function을 보수적으로 학습하는 교대 최적화 방식을 따른다. 이를 통해 정책을 직접 학습하지 않고도 전문가 행동을 설명 가능한 보상 함수와 안정적인 Q-function을 동시에 획득할 수 있다. 실험은 MuJoCo 시뮬레이터의 D4RL offline dataset을 활용하여 진행되었다. 그 결과, 제안한 알고리즘은 Behavior Cloning, DAC, ValueDICE 등 기존 기법 대비 일관되게 높은 평균 리턴을 기록하며 성능의 안정성을 입증하였다. 특히 제한된 데이터 환경에서도 우수한 일반화 성능을 확인하였으며, 기존 Offline IRL 기법을 능가하는 결과를 도출하였다. 이와 같은 성과는 실제 산업적 응용에서도 높은 활용 가능성을 갖는다. 특히 로봇 제어, 자율주행, 헬스케어 등과 같이 새로운 데이터 수집이 비용적·안전적 부담을 수반하는 분야에서 기존에 축적된 offline 데이터를 활용하여 신뢰성 있는 보상 학습을 수행할 수 있다. 따라서 본 연구는 데이터 자산을 기반으로 한 AI 응용의 실용성, 경제성 및 사업화 가능성을 동시에 제시하며, 향후 다양한 offline learning 문제로 확장될 수 있을 것으로 기대된다.

담당부서학생행정실

전화번호880-2277

loaction

창의설계축전 공모작