Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Deep Feature-Pair Relation Networks for Accurate Face Recognition

Title
Deep Feature-Pair Relation Networks for Accurate Face Recognition
Authors
강봉남
Date Issued
2019
Publisher
포항공과대학교
Abstract
Human face recognition is one of the most important research areas in biometrics. However, the robust face recognition under a drastic change of the facial pose, expression, and illumination is a big challenging problem for its practical application. Such variations within the same identity could overwhelm the variations due to identity differences and make face recognition more difficult, especially under unconstrained environments. To cope with this difficulty, we propose four different face recognition methods using POSTECH IMLab network (PIMNet), Feature-pair Relation Network (FRN), Hierarchical Feature-pair Relation Network (HFRN), and Attentional Feature-pair Relation Network (AFRN), which capture the unique and discriminative relation features among different identities. The PIMNet uses multiple deep convolutional neural networks (DCNNs) and a deep ensemble, that extracts two types of low dimensional but discriminative and high-level features abstracted from each DCNN, then combines them as a descriptor for face verification. It is built from the stacked multi-scale convolutional layer blocks to present multi-scale abstraction. We train the PIMNet by using several triplets of different sized faces and joint loss functions that consists of a triplet ratio term, a positive and negative absolute magnitude term, and an identity preserving term. The first loss function maximizes the ratio of distances between positive pairs and negative pairs, the second loss function minimizes/maximizes the absolute distances among positive/negative pairs, and the third loss function maximizes the likelihood of triplets. A deep ensemble is generated from the features extracted from each DCNN, and used as a descriptor to train the joint Bayesian learning and its transfer learning method. The PIMNet achieved 98.33% accuracy on the Labeled Faces in the Wild (LFW) although we used only 198,018 images and only four different types of networks. In addition, we improved the PIMNet’s accuracy up to 99.08% on the LFW by combining the recognition accuracy from the PIMNet and the recognition accuracy from the joint Bayesian method using the high dimensional LBP. The FRN uses the feature-pair relation that is obtained from the unique and discriminative relations among all possible pairs of local appearance features around the landmark points on the feature map. Because the feature-pair relation tends to be identity-dependent, we consider a face identity state feature that is obtained from applying the local appearance features on the feature map sequentially to the long short-term memory (LSTM) network. The FRN achieved 99.76% and 96.3% state-of-the-art accuracy on the LFW dataset and YTF dataset, respectively. The FRN also achieved the comparable performances with the state-of-the-art accuracy in the both 1:1 face verification and 1:N face identification tasks on the IARPA Janus Benchmark-A (IJB-A) and outperformed the state-of-the-art accuracy on the IARPA Janus Benchmark-B (IJB-B) dataset. The HFRN uses a single integrated FRN that concatenate several FRNs of different layers, where each FRN uses a feature-pair relation among all possible pairs of local appearance features around the landmark points obtained from a specific layer. It captures the local detailed relations from the low-level feature layers and the global abstract relations from the high-level feature layers. The HFRN outperformed the existing state-of-the-art methods in the both 1:1 face verification and 1:N face identification tasks on the IJB-A and IJB-B datasets. Both FRN and HFRN have some serious demerits: their accuracy largely depend on the accuracy of facial landmark selection and they do not use the importance of selected feature-pairs. To overcome these demerits, we propose the AFRN that represents the face by the relevant pairs of local appearance block features with their weighted attention scores. The AFRN represents the face by all possible pairs of the 9x9 local appearance block features and the importance of each block feature-pair is weighted by the attention score that is obtained from the adopted low-rank bilinear pooling. Among the weighted C(81; 2) block feature-pairs, we select the top-k block feature-pairs as the relevant facial information. The AFRN outperformed all the existing state-of-the-art methods in the both 1:1 face verification and 1:N face identification tasks on the LFW, YTF, IJB-A and IJB-B datasets.
얼굴 인식은 생체 인식 분야에서 가장 중요한 연구 분야 중의 하나이다. 그러나, 얼굴 포즈 및 표정 변화와 같은 내적 변화와 조명 등과 같은 외적 변화에 의해서 크게 영향을 받으며, 이러한 요소들에 의해서 얼굴 인식의 실제 적용에 큰 장애물로 작용하고 있다. 이러한 내외적 변화 요소들은 서로 다른 신원에 의한 차이 보다 더 큰 영향을 끼쳐 실제 적용에 있어서 얼굴 인식을 더욱더 어렵게 만들 수 있다. 이러한 문제들을 해결하기 위해서 본 논문에서는 POSTECH IMLab Network (PIMNet), 특징쌍 관계 네트워크(Feature-pair Relation Network, FRN), 계층적 특징쌍 관계 네트워크(Hierarchical Feature-pair Relation Network, HFRN), 그리고 집중 특징쌍 관계 네트워크(Attentional Feature-pair Relation Network, AFRN)를 제안한다. PIMNet은 다중 심층 컨볼루션 네트워크(Deep Convolutional Neural Network, DCNN)와 심층 앙상블을 사용하여 각 DCNN에서 저차원이지만 차별적이고 높은 수준으로 추상화된 두가지 유형의 특징들을 추출하고, 인식을 위한 단일 기술자로 결합한다. PIMNet은 다중 크기 컨벌루션 레이어 블록(Multi-scale Convolution Layer Block, MCLB) 적층에 기반하여 다중 크기 추상화를 구현한다. PIMNet은 서로 다른 크기의 얼굴 Triplet 영상을 사용하고, 동일 신원 얼굴 간의 거리차와 다른 신원 얼굴 간의 거리차의 비율을 최대화 하는, 동일 신원/다른 신원 얼굴 간의 절대 거리를 최소화/최대화 하는, 그리고 각 신원의 가능도(Likelihood)를 최대화하는 손실 함수들을 사용하여 학습한다. 이 방법은 198,018개의 학습 데이터와 네 유형의 DCNN만 사용했음에도 불구하고 LFW 데이터셋에서 98.33%의 인식 성능을 보였고, PIMNet과 고차원 LBP 기반의 공동 베이지안 방법을 결합하여 99.08%의 인식 성능을 보였다. FRN은 특징맵상의 얼굴 특징점 중심 주변에서 국부 외형 특징을 추출하고 이 국부 외관 특징들 사이에서 얼굴의 신원을 나타내기 위한 고유하면서 동시에 다른 신원들과 차별적인 특징쌍 관계들을 사용한다. 또한, 특징쌍 관계는 신원 정보에 따라 달라지기 때문에, LSTM 기반 네트워크를 통해 얻은 얼굴 신원 상태 특징을 고려한다. 이 방법은 LFW 데이터셋과 YTF 데이터셋에서 99.76%와 96.3%의 인식 성능을 보였으며, IJB-A 데이터셋에서 1:1 얼굴 검증과 1:N얼굴 식별 테스트에서 현 최고 인식 정확도의 유사한 정확도를 보였으며, IJB-B 데이터 셋에서는 최고 인식 정확도를 달성하였다. HFRN은 백본 네트워크의 서로 다른 레이어에서의 여러 FRN을 결합한 단일 통합 FRN을 사용하며, 각 FRN은 특정 레이어의 특징맵 상의 얼굴 특징점 중심 주변에서 추출한 국부 외형 특징 쌍 사이의 특징쌍 관계들을 사용한다. 이는 하위 레이어로부터 국부 상세 관계와 상위 레이어로부터 전역 추상화된 관계들을 포착하여 계층적 특징쌍 관계를 얼굴 인식을 위해 사용한다. 이 방법은 IJB-A 데이터셋과 IJB-B 데이터셋에서 1:1 얼굴 검증과 1:N 얼굴 식별 테스트에서 최고 인식 정확도를 달성하였다. FRN과 HFRN은 얼굴 특징점 선택 정확도와 이 선택된 얼굴 특징점 쌍들의 중요도를 고려하지 않는다는 심각한 단점을 가지고 있다. 이러한 단점을 극복하기 위해, 본 논문에서는 국부 외형 블록 특징들의 쌍과 이들의 중요도를 고려하여 얼굴 영상을 나타내는 AFRN을 제안한다. AFRN은 9x9 국부 외형 블록 특징의 모든 가능한 쌍들에 의해 얼굴을 나타내며, 각 국부 외형 블록 특징의 중요도는 낮은 계수 이중 선형 풀링(Low-rank Bilinear Pooling)에 의해 얻어진다. 또한, C(81, 2) 개의 가능한 국부 외형 블록 특징 쌍들 중에서, 각 블록 특징의 중요도에 따라 상위 $K$개의 쌍들을 얼굴을 표현하는 관련 정보로 간주하여 선택하여 사용한다. 제안한 이 방법은 LFW 데이터셋, YTF 데이터셋, IJB-A 데이터셋, 그리고 IJB-B 데이터셋에서 1:1 얼굴 검증 및 1:N 얼굴 식별 테스트 모두 기존의 최고 인식 성능을 보였던 방법들 보다 월등한 얼굴 인식 정확도를 보였다.
URI
http://postech.dcollection.net/common/orgView/200000177944
https://oasis.postech.ac.kr/handle/2014.oak/110985
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse