Perspective Transformation

Image Recognition 2012. 2. 14. 13:08

한 평면에서 다른 평면으로 연결하는 2차원 변환 중에서 직선의 직선성을 유지하는 것은 perspective 변환(사영변환)이다. 이 변환의 부분인 affine 변환은 평행한 두 직선의 평행성을 그대로 유지한다. 따라서 사각형은 perspective 변환에 의해서 다시 사각형으로 변환된다. 물론 bilinear 변환도 사각형을 다른 사각형으로 변환시키지만 일반적으로 직선의 직선성은 보전하지 못한다. 이 직선성의 보존은 매우 중요한 특성이다. 카메라도 일종의 perspective 변환기로 영상을 센서에 형성할 때 찍는 대상의 직선은 그대로 영상에 직선으로 표현된다. (FOV가 큰 카메라는 렌즈 왜곡이 심해서 보존이 안된다) 평면에서의 변환을 다룰 때는 $2 \times 2 2 \times 2 <math xmlns="http://www.w3.org/1998/Math/MathML"><mn>2</mn><mo>\times</mo><mn>2</mn></math>$ 행렬보다는 $3 \times 3 3 \times 3 <math xmlns="http://www.w3.org/1998/Math/MathML"><mn>3</mn><mo>\times</mo><mn>3</mn></math>$ 행렬을 이용하는 것이 더 편리하다. 이렇게 하면 평면에서 평행이동을 행렬의 요소로 넣어서 생각할 수 있다.

(ex) affine 변환: $x = a 11 u + a 21 v + t u x = a_{11} u + a_{21} v + t_{u} <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>x</mi><mo>=</mo><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>11</mn></mrow></msub><mi>u</mi><mo>+</mo><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>21</mn></mrow></msub><mi>v</mi><mo>+</mo><msub><mi>t</mi><mi>u</mi></msub></math>$

$y = a 12 u + a 22 v + t v y = a_{12} u + a_{22} v + t_{v} <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>y</mi><mo>=</mo><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>12</mn></mrow></msub><mi>u</mi><mo>+</mo><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>22</mn></mrow></msub><mi>v</mi><mo>+</mo><msub><mi>t</mi><mi>v</mi></msub></math>$

==>

$[x y 1] = [a 11 a 21 t u a 12 a 22 t v 001] [u v 1] <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">[</mo><mtable columnspacing="1em" rowspacing="4pt"><mtr><mtd><mi>x</mi></mtd></mtr><mtr><mtd><mi>y</mi></mtd></mtr><mtr><mtd><mn>1</mn></mtd></mtr></mtable><mo data-mjx-texclass="CLOSE">]</mo></mrow><mo>=</mo><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">[</mo><mtable columnspacing="1em" rowspacing="4pt"><mtr><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>11</mn></mrow></msub></mtd><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>21</mn></mrow></msub></mtd><mtd><msub><mi>t</mi><mi>u</mi></msub></mtd></mtr><mtr><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>12</mn></mrow></msub></mtd><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>22</mn></mrow></msub></mtd><mtd><msub><mi>t</mi><mi>v</mi></msub></mtd></mtr><mtr><mtd><mn>0</mn></mtd><mtd><mn>0</mn></mtd><mtd><mn>1</mn></mtd></mtr></mtable><mo data-mjx-texclass="CLOSE">]</mo></mrow><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">[</mo><mtable columnspacing="1em" rowspacing="4pt"><mtr><mtd><mi>u</mi></mtd></mtr><mtr><mtd><mi>v</mi></mtd></mtr><mtr><mtd><mn>1</mn></mtd></mtr></mtable><mo data-mjx-texclass="CLOSE">]</mo></mrow></math>$

이 표현은 perspective 변환이 선형 변환임을 명시적으로 보여주므로 직선성이 보존된다는 사실 또한 자명해진다. $3 \times 3 <math xmlns="http://www.w3.org/1998/Math/MathML"><mn>3</mn><mo>\times</mo><mn>3</mn></math>$ 행렬로 표현할 때 평면의 좌표는 $(x, y, 1) T <math xmlns="http://www.w3.org/1998/Math/MathML"><mo stretchy="false">(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mn>1</mn><msup><mo stretchy="false">)</mo><mi>T</mi></msup></math>$ 처럼 3번째 좌표의 값은 항상 1로 고정한다(homogeneous coordinate).

카메라로 물체를 촬영할 때, 가까운 거리에서 촬영을 하던, 먼 거리에서 촬영을 하던 두 영상은 크기 차이만 있는 동일한 모양의 물체 상을 만들어 낸다. perspective 변환은 3차원에 놓인 평면에서 평면으로 변환으로 생각할 수 있는데, 크기의 차이만 있는 경우에 같은 것으로 본다. 3차원에서 행렬 변환은 9개의 매개변수에 의해서 기술이 되는데, 전체적인 크기의 차이를 무시하므로 1개 매개변수가 줄어들어서 8개의 매개변수로 표현이 된다. perspective 변환을 아래처럼 쓰면 변환된 좌표의 3번째 성분은 일반적으로 1이 아니다. 3번째 좌표 $w <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>w</mi></math>$ 을 구한 후에 이 값으로 $x <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>x</mi></math>$ , $y <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>y</mi></math>$ 를 나누어서 생각하면 된다.

$[x y w] = [a 11 a 21 a 31 a 12 a 22 a 32 a 13 a 23 a 33] [u v 1] (a 33 = 1) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">[</mo><mtable columnspacing="1em" rowspacing="4pt"><mtr><mtd><mi>x</mi></mtd></mtr><mtr><mtd><mi>y</mi></mtd></mtr><mtr><mtd><mi>w</mi></mtd></mtr></mtable><mo data-mjx-texclass="CLOSE">]</mo></mrow><mo>=</mo><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">[</mo><mtable columnspacing="1em" rowspacing="4pt"><mtr><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>11</mn></mrow></msub></mtd><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>21</mn></mrow></msub></mtd><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>31</mn></mrow></msub></mtd></mtr><mtr><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>12</mn></mrow></msub></mtd><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>22</mn></mrow></msub></mtd><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>32</mn></mrow></msub></mtd></mtr><mtr><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>13</mn></mrow></msub></mtd><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>23</mn></mrow></msub></mtd><mtd><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>33</mn></mrow></msub></mtd></mtr></mtable><mo data-mjx-texclass="CLOSE">]</mo></mrow><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">[</mo><mtable columnspacing="1em" rowspacing="4pt"><mtr><mtd><mi>u</mi></mtd></mtr><mtr><mtd><mi>v</mi></mtd></mtr><mtr><mtd><mn>1</mn></mtd></mtr></mtable><mo data-mjx-texclass="CLOSE">]</mo></mrow><mstyle scriptlevel="0"><mspace width="1em"></mspace></mstyle><mo stretchy="false">(</mo><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mn>33</mn></mrow></msub><mo>=</mo><mn>1</mn><mo stretchy="false">)</mo></math>$

$x = x / w, y = y / w <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>x</mi><mo>=</mo><mi>x</mi><mrow data-mjx-texclass="ORD"><mo>/</mo></mrow><mi>w</mi><mo>,</mo><mstyle scriptlevel="0"><mspace width="1em"></mspace></mstyle><mi>y</mi><mo>=</mo><mi>y</mi><mrow data-mjx-texclass="ORD"><mo>/</mo></mrow><mi>w</mi></math>$

perspective 변환 행렬 $a i j <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>a</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub></math>$ 는 4개의 점에 대응하는 출력 영상에서의 4 점이 주어지면 8개의 방정식을 만들 수 있고, 이를 이용해서 계수를 구할 수 있다. 그러나, 8차 방정식의 근의 공식이 없으므로 수치해석적으로 해결해야 한다. 그리고 주어진 4 점이 (입력 또는 출력) 일직선 위에 있으면 답을 구할 수 없고, 또 3개가 일직선 위에 있는 경우에는 이 변환은 평행성을 보존하는 affine 변환이 된다.(affine은 6개의 매개변수로 표현되고, 평행이동을 빼면 4개의 매개변수가 남는데 4차 방정식은 근의 공식이 있으므로 답을 적을 수 있다)

다행히 정사각형에서 사변형으로 변환은 수치해석에 의존하지 않고도 답을 적을 수 있다.

$(0, 0) \to (x 0, y 0) (1, 0) \to (x 1, y 1) (1, 1) \to (x 2, y 2) (0, 1) \to (x 3, y 3) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mtable displaystyle="true" columnspacing="1em" rowspacing="3pt"><mtr><mtd><mo stretchy="false">(</mo><mn>0</mn><mo>,</mo><mn>0</mn><mo stretchy="false">)</mo><mo stretchy="false">\to</mo><mo stretchy="false">(</mo><msub><mi>x</mi><mn>0</mn></msub><mo>,</mo><msub><mi>y</mi><mn>0</mn></msub><mo stretchy="false">)</mo></mtd></mtr><mtr><mtd><mo stretchy="false">(</mo><mn>1</mn><mo>,</mo><mn>0</mn><mo stretchy="false">)</mo><mo stretchy="false">\to</mo><mo stretchy="false">(</mo><msub><mi>x</mi><mn>1</mn></msub><mo>,</mo><msub><mi>y</mi><mn>1</mn></msub><mo stretchy="false">)</mo></mtd></mtr><mtr><mtd><mo stretchy="false">(</mo><mn>1</mn><mo>,</mo><mn>1</mn><mo stretchy="false">)</mo><mo stretchy="false">\to</mo><mo stretchy="false">(</mo><msub><mi>x</mi><mn>2</mn></msub><mo>,</mo><msub><mi>y</mi><mn>2</mn></msub><mo stretchy="false">)</mo></mtd></mtr><mtr><mtd><mo stretchy="false">(</mo><mn>0</mn><mo>,</mo><mn>1</mn><mo stretchy="false">)</mo><mo stretchy="false">\to</mo><mo stretchy="false">(</mo><msub><mi>x</mi><mn>3</mn></msub><mo>,</mo><msub><mi>y</mi><mn>3</mn></msub><mo stretchy="false">)</mo></mtd></mtr></mtable></math>$

denom = (x1 - x2) * (y3 - y2) - (x3 - x2) * (y1 - y2);     
a11 = x1 - x0 + a13 * x1 ;
a21 = x3 - x0 + a23 * x3 ;
a31 = x0 ;
a12 = y1 - y0 + a13 * y1;
a22 = y3 - y0 + a23 * y3;
a32 = y0;
a13 = ((x0-x1+x2-x3)*(y3-y2) - (x3-x2)*(y0-y1+y2-y3)) / denom;
a23 = ((x1-x2)*(y0-y1+y2-y3) - (x0-x1+x2-x3)*(y1-y2)) / denom;
a33 = 1.0;

따라서 일반적인 사변형에서 사변형으로의 변환은

사변형1 --> 정사각형 --> 사변형2

처럼 2 단계 변환의 곱으로 주어진다. 사변형에 정사각형으로 변환은 정사각형에서 사변형으로 변환의 역변환이므로 역행렬을 구해야 하나, 이보다는 수치적으로 안정적인 adjoint 행렬을 이용하는 것이 낫다(adjoint을 쓰면 determinant로 나누기를 할 필요가 없다). 이는 perspective변환에서 항상 좌표를 3번째 좌표로 나누어서 사용하기 때문에 가능하다.

저작자표시 비영리 변경금지

'Image Recognition' 카테고리의 다른 글

webcam용 QR code detector (0)	2012.02.19
Least Squares Estimation of Perspective Transformation (4)	2012.02.15
Integral Image을 이용한 Adaptive Threshold (0)	2012.02.04
Peak Finder (1)	2012.02.02
QR-code: decoder (0)	2012.01.26

Geometry & Recognition 알고리즘,계산기하,물리학,...

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Geometry & Recognition

Perspective Transformation

'Image Recognition' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역