Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

동영상에서의 이동 물체 추출

Title
동영상에서의 이동 물체 추출
Authors
임태규
Date Issued
2013
Publisher
포항공과대학교
Abstract
이동 물체 추출은 컴퓨터 비전의 응용에 있어서 기본적이면서 중요한 문제이다. 이동 물체 추출은 역동적이고 복잡한 실제 비디오 영상으로부터 움직이는 물체 또는 의미 있는 부분으로 표현되는 지역을 찾는 것을 궁극적인 목표로 하고 있다. 또한, 카메라의 환경이 급격하게 변화함에 따라, 컴퓨터 비전 시스템의 성능을 향상하는데 있어서 핵심적인 역할을 하는 물체 추출의 기술의 중요성이 점차적으로 증가하고 있다. 그러나, 물체 추출에 대한 연구가 광범위하게 진행되어 왔지만, 물체 추출은 비디오 영상에 존재하는 기하학적 및 움직임의 모호성으로 인하여 여전히 해결하기 어렵고 도전적인 영역이다. 따라서 복잡하고 제한되지 않은 환경에서 수행이 가능한 일반화된 비전 시스템의 개발이 필요하며, 이 논문은 다음과 같이 문제를 완화하기 위한 방법들을 제안한다. 먼저 정적 카메라에 의해서 획득된 비디오 영상에 대하여 역동적이고 복잡한 배경으로부터 전경 물체들을 식별할 수 있는 알고리즘을 제시한다. 이 알고리즘에서는 영상에서 다양한 조명의 변화를 처리하기 위해, 두 개의 보완적인 색상과 텍스처의 특성을 사용하였으며, 각 특성은 공간적인 종속성과 동적인 배경 구조를 다루기 위해 위치 정보를 결합한다. 배경 및 전경 모델은 색상, 텍스처를 기반으로 비모수적 커널 밀도 추정 방법에 의해 생성된다. 각 픽셀은 MAP-MRF 프레임워크에서 배경 및 전경의 우도 (likelihood) 에 기반하여 래프 컷 (graph-cut) 알고리즘에 의해 최적화되며, 배경 및 전경으로 분류된다. 그리고 배경 및 정경 모델은 추출 결과에 의해서 순차적으로 수정된다. 다양항 비디오 영상에서 질적 및 양적 실험한 결과는 비교 알고리즘에 비해 현저히 향상된 성능을 보인다. 두 번째로, 동적 카메라에서 획득한 비디오 영상에서 배경으로부터 전경을 추출하기 위한 알고리즘을 제시한다. 이를 위해, 제안된 방법에서는 전경 및 배경 모델을 생성하기 위해, 시간적 모델 전파와 공간적 모델 구성을 결합한다. 그 후, 에너지 최소화 기술은 물체 추출을 위해 가능성지도 (likelihood map) 에 적용된다. 제안된 알고리즘의 시간적 단계에서, 블록 모델들은 모션 정보를 이용하여 이전 프레임으로부터 현재 프레임으로 전달되며, 현재 프레임에서 각 픽셀의 배경 / 전경 우도와 레이블은 전달된 모델을 기반으로 계산된다. 공간적 단계에서, 배경 및 전경을 위한 다른 블록 모델이 시간적 단계에서 주어진 레이블을 기반으로 생성되며, 이에 해당하는 배경 및 전경에 대한 우도가 생성된다. 그래프 컷 (graph-cut) 알고리즘은 전경 및 배경의 우도 가능성지도를 기반으로 물체 추출을 수행하고, 물체 추출 결과는 각 블록의 움직임을 수정하는데 사용된다
시간적 모델 전파 및 공간적 모델 구성 단계들은 수정된 움직임에 기반하여 다시 평가 되며, 반복적인 절차로 구현된다. 제안된 프레임워크는 카메라와 물체의 큰 움직임, 배경의 변화 및 복잡한 배경을 포함한 다양한 동영상에서 실험한다. 마지막으로, 제안된 물체 추출 알고리즘에 기반을 둔 사람의 포즈를 판단하는 잠재적인 응용에 대해서 설명한다. 제안된 알고리즘의 목적은 복잡하고 제한되지 않은 환경에서 획득한 비디오 영상에서 이동 물체의 포즈와 물체 추출을 동시에 판단하는 것이다. 제안된 프레임워크는 전경 및 배경의 분할 과정과 포즈를 추적하는 과정이 결합된 반복적인 방법이다. 전경 및 배경의 분할 과정은 포즈 추적 과정에 물체 분할 결과를 제공하다. 또한, 포즈 추적 과정은 물체 추출 과정에 물체의 모양에 대한 사전 지식을 제공한다. 이 두 개의 과정을 동시에 최적화하기 위하여, 전체 알고리즘의 추론은 이중 분해 (dual decomposition) 방법에 의해 수행된다. 이러한 반복적인 과정은 물체 분할과 포즈의 부분에 대한 결과를 점진적으로 향상시키며, 각 프레임에서 수렴할 때까지 반복된다. 또한, 제안된 프레임워크는 다양한 포즈의 변화에 적응하기 위해 일반적인 모델 및 물체에 특정한 모델들로 구성된 혼합 부분 검출기를 사용한다. 제안된 방법은 기존의 방법들과 비교하며, 카메라의 움직임이 크고, 물체의 다양한 포즈의 변화와 복잡한 배경의 변화를 갖는 다양한 비디오 영상에서 양적 및 질적으로 평가한다.
Moving object segmentation is a fundamental and an important issue in computer vision. The ultimate goal of moving object segmentation is to find regions that represent objects or meaningful part from dynamic and complex real video scenes. In addition to, as the environment of camera may rapidly change, the importance of the segmentation technique is also increased because accurate segmentation results play an important role to improve the performance of a computer vision system. Even though this issue has been progressed extensively, it is still a difficult and challenging area due to ambiguities of geometry and motion in video scenes. Therefore, development of a more general vision system that can perform efficiently in complex and unconstraint environments is necessary, and this dissertation provides solutions to alleviate the issues as follows. We first present an algorithm to identify foreground objects from dynamic and complex background scenes for video obtained by a static camera. In this algorithm, two complementary features, color and texture, are used to handle various illumination changes, and each feature is integrated with location information to deal with spatial dependency and dynamic background structures. The background and foreground models are constructed by a nonparametric kernel density estimation method based on the combination of two features. Each pixel is segmented and the result is optimized by a graph-cut algorithm based on background and foreground likelihoods in a MAP-MRF decision framework. Then, the background and foreground models are updated based on the segmentation result sequentially. Qualitative and quantitative test results on various challenging video sequence showed that the performance of this method was noticeably improved compared with other methods. Second, an on-line algorithm to segment foreground from background in videos captured by a moving camera is addressed. In our algorithm, temporal model propagation and spatial model composition are combined to generate foreground and background models, and likelihood maps are computed based on the models. After that, an energy minimization technique is applied to the likelihood maps for segmentation. In the temporal step, block-wise models are transferred from the previous frame to current frame using motion information, and pixel-wise foreground/background likelihoods and labels in the current frame are estimated based on the models. In the spatial step, another block-wise foreground/background models are constructed based on the models and labels given by the temporal step and the corresponding background / foreground likelihoods are also generated. A graph-cut algorithm performs segmentation based on the foreground/background likelihood maps, and the segmentation result is employed to update the motion of each segment in a block
the temporal model propagation and the spatial model composition steps are re-evaluated based on the updated motions, by which the iterative procedure is implemented. This framework was tested with various challenging videos which contain large camera and object motions, significant background changes and clutters. Finally, as a potential application, human pose estimation based on the proposed segmentation algorithm is described. The goal of the proposed algorithm is to estimate the segmentation and pose of moving object simultaneously in a video sequences obtained by the complex and unconstraint environments. Our proposed framework is an iterative approach which combines foreground / background segmentation step and pose tracking step. Foreground / background segmentation step provides the segmentation result to pose tracking step. The pose tracking step also provides an object-specific shape prior to the segmentation step. To optimize both tasks jointly, inference is performed by dual decomposition algorithm. Such iterative procedure improves the solutions of segmentation and part configuration gradually, and is repeated until convergence in each frame. Also, our framework presents a hybrid part detector which are composed of specific and general part models for adapting various pose changes. We compare our algorithm with the existing state-of-the-art techniques and evaluate quantitatively and qualitatively in various challenging videos involving large camera motion, various pose changing of object, and complex background changes.
URI
http://postech.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000001556810
http://oasis.postech.ac.kr/handle/2014.oak/1768
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse