POMDP 기반 대화 시스템 개발의 하이브리드 접근에 대한 고찰

Date Issued
본 논문은 부분 관찰 마르코프 의사 결정 과정(POMDP) 을 대화 시스템에 적응하는 하이브리드 방법의 얼개에 대해서 다루며, 실험을 통하여 제시한 방법의 효율성을 보였다. 부분 관찰 마르코프 의사 결정 알고리즘을 대화 시스템에 도입하는 것에 있어서 가장 큰 문제점은 확장성의 부재이며, 이는 실시간 대화 시스템을 구현하는 것에 있어서 큰 장애물로 작용한다. TV 안내 시스템용 대화 시스템을 제작 하는 과정에서 대화 상태를 요약 공간으로 사상하고 그 사상된 공간에서의 의사 결정 과정을 통해 메타-행동을 도출하는 하이브리드 방법을 고안하였다. 요약 공간에서의 시스템이 어떤 메타-행동을 취할지에 대해서는 단편 행동-평가(Episodic Natural Actor Critic) 방법을 사용하여 학습하였다. 도출된 메타-행동은 내부의 룰-기반 대화 시스템에 의해 실제 사용자가 받아들일 수 있는 형태로 변환되어 제공된다. 제시한 구조의 효율성을 실험하기 위하여, 추가적으로 시뮬레이터를 제작하였고 여러 오류율에 대해서 시스템의 행동을 관찰하였다. 관찰 결과는 본 구조가 실제 시스템에서 사용될 수 있음을 시사한다.
The lack of scalability of Partially Observable Markov Decision Process (POMDP) is a critical impediment to development of spoken dialog systems (SDS). In development of an SDS with an Electronic Program Guide (EPG) domain, I devised a hybrid POMDP approach which is operated with summary spaces. Belief states for the slot values are summarized into summary-states, relaxing inter-slot dependencies using ontology features. Meta-actions are selected based on summary-states by using an episodic natural actor-critic algorithm updated by State-Action-Reward-State-Action. Acquired meta-actions are transformed to system output.I trained the system with the specified simulator and observed its behavior. Experimental results demonstrates the feasibility of our approach in a real-world EPG domain dialog system.
