아래의 사진을 보면 처음 3개의 eigenface는 영상에서 조명의 변화를 주로 나타내고, 이후의 3개는 얼굴형의 변화를 주로 표현한다. 실제로 eigenface를 사용할 때는 처음 몇 개의 큰 고유치를 갖는 eigenface를 버리고 사용하여서 조명 변화에 따른 영상의 변화를 일정 정도 보상할 수 있다. Y.Moses, Y.Adini, S.Ullman, "Face Recognition: The Problem of Compensating for changes in Illumination Direction", 1994
영상에 물체의 윤곽을 찾고자 할 때 active snake 알고리즘을 많이 이용한다. 이것은 물체의 윤곽에서 명암의 차이를 이용하여 윤곽선을 탄성이 있는 곡선으로 근사 시키는 방법이다. 그러나 실제의 영상에는 조명의 영향이나 잡음 아니면 다른 물체에의 한 가려짐으로 인해서 윤곽이 명확하게 나타나지 않거나 가려져서 윤곽선을 제대로 찾지 못하거나 심하게 왜곡된 윤곽선을 낳는 결과를 초래한다.영상에서 윤곽선을 찾는 경우에 특정한 물체(예를 들면 영상에서 얼굴 윤곽, 손 모양, 초음파 사진에서 장기의 모양...)를 대상으로 하는 경우가 많다. 이 경우 대상 물체의 대략의 형태가 알려져 있고, 실제로 사진에 나타나는 형태는 평균적인 형태에서 많이 벗어난 있지 않는다. 이러한 정보를 이용하면 보다 쉽게 물체의 윤곽선을 찾을 수 있다.
먼저 찾고자 하는 물체의 윤곽 정보를 훈련을 시켜 평균 윤곽선과 평균 윤곽선에서 벗어남을 기술하는 독립적인 mode(=eigen mode=eigen shape)를 알아낸다. 이것은 얼굴인식에서 PCA 기법을 이용하여서 평균 얼굴영상에서 변화를 주는 eigen mode인 eigenface를 찾는 기법과 같다. Eigen mode는 평균 윤곽선에서 아주 미세한 변화는 버리고, 큰 것만 취하면 된다.
이러한 eigen mode를 이용하면 잡음이나 조명 가려짐 등에 의해 잘못 찾은 윤곽선을 보정하여서 원하는 형태를 유지할 수 있다. 즉, 영상처리에 의해서 찾은 윤곽선을 eigen mode로 분해하면 각 eigen mode의 가중치를 구할 수 있는데, 이렇게 구한 가중치를 준 eigen mode를 평균 윤곽선에 더해서 윤곽선을 재구성한다. 이 재구성된 윤곽선은 잡음이나 가려짐 등의 영향으로 인한 미세한 왜곡을 없앨 수 있다. 그리고, 윤곽선 찾기를 반복적인 과정으로 구현할 때 이 재구성된 윤곽에서 출발하여 다음번의 윤곽선 찾기를 시도한다. 그러나 이 방법은 eigen mode가 훈련에 사용한 영상에 많이 의존하므로, 훈련된 윤곽과 많이 다른 윤곽은 제대로 대처하지 못한다.
2차원 이미지의 기하학적인 변형 중에서 평행이동, 회전 및 전체적인 크기의 변화를 주는 변환이 similarity transformation이다. 이 변환은 두 직선이 이루는 각을 보존하고 길이 비를 유지한다. 따라서 similarity 변환 후 물체의 모양은 변환 전과 같은 형태를 가진다. 이 변환보다도 더 일반적인 2차원의 기하학적인 변환은 affine transformation이다. Affine 변환은 한쪽 방향으로의 밀림(sheer)도 허용한다. 평행한 두 직선은 affine 변환 후에도 여전히 평행하다.
Similarity transformation은 전체적인 크기를 바꾸는 scale parameter($s$) 1개와 회전각($θ$) 1개, 그리고 $x, y$축으로의 평행이동을 나타내는 parameter ($t_x$, $t_y$) 2 개를 합해서 총 4개가 있어야 한다. 이 parameter에 의해서 원본 이미지의 픽셀 $(x, y)$가 변환된 이미지의 픽셀 $(u, v)$에 대응한다고 하면, 이들 간의 관계는 다음식으로 주어진다. $$u = s\cos (θ) x - s \sin (θ) y + t_x;$$ $$v = s \sin (θ) y + s \cos (θ) y + t_y;$$ 따라서 원본 영상의 2점에 대응하는 정보만 주어지면 파라미터 $(s, θ, t_x, t_y)$를 유일하게 결정할 수 있다. $$(x_1, y_1) \rightarrow (u_1, v_1),\\ (x_2 , y_2) \rightarrow (u_2, v_2) $$그러나 많은 경우에는 기준점을 잡는데 에러 등을 고려하여서 일반적으로 원본 영상의 $N(\ge 2)$ 개의 점에 대응하는 정보를 주게 되는데, 이 경우에 변환 관계식은 overdetermined 되어서 해를 구할 수 없는 경우도 있다. 이 경우에는 최소자승법을 써서 변환점과 변환식에 의해서 의해서 주어지는 값의 차이를 최소화시키는 파라미터를 구해서 쓰면 된다.$$L = \sum_{i} | u_i - (s\cos(θ) x_i - s \sin(θ) y_i + t_x)|^2 + |v_i - (s \sin(θ) x_i + s \cos(θ) y_i + t_y)|^2, \\ (s, \theta, t_x, t_y) =\text {argmin}(L);$$
얼굴인식용 training data set을 만들기 위해서 얼굴을 정렬시키는 데 사용한 예: - 양 눈의 위치 변환: (70,93), (114, 84) --> (30,45), (100,45)로 변환( linear interpolation사용) - 실제로 사용되는 변환은 정해진 dst영역으로 매핑하는 src영역을 찾아야 하므로, 역변환이 필요하다. - 필요한 역변환은 src와 dst의 역할만 바꾸면 쉽게 구할 수 있다.
평균 얼굴: - 173개의 얼굴 영상(130x150)을 가지고 만든 것이다. - 얼굴 영상 출처: http://www.cs.colostate.edu/evalfacerec/data.html(두 눈의 위치 정보가 있어서 편리하다) - 얼굴 영상은 두 눈의 위치가 영상에서 일정한 위치에 있도록 기하학적인 변환(similarity transform)을 수행했다.
Eigenfaces: - 173개의 영상에서 평균 얼굴을 뺀 후에 Covariance Matrix을 만들었으므로 실제로 eigenvector는 173-1=172차원 hyperplane를 형성. 130x150차원 공간의 subspace) - 각각의 eigenface는 1로 정규화된 벡터(영상)이나, 이미지로 보이기 위해서 임의로 스케일링한 것이다. 따라서 각각의 eigenface 밝기는 상대적인 값이다. - 영상은 eigenvalue의 크기 순서대로 69개만 나열한 것이다( 큰 것--> 작은 것. dimensional reduction)
얼굴의 재구성 원본 얼굴($\bf x$):
69개의 eigenface로 재구성된 얼굴: 상관계수=0.9897;
훼손된 얼굴(원본):
eigenface을 이용해서 재구성한 얼굴(69개의 eigenface을 이용) : 상관계수=0.8788;