과일을 자동 선별하는 장치를 만든다고 하자. 이 장치에는 사과를 실어 나르는 컨베이어 벨트가 있고, 또한 과일을 사진을 찍는 장치가 있어야 한다. 만약에 컨베이어 벨트에 과일이 무작위로 올려지고, 선별장치에 아무런 사전 세팅이 되어있지 않다면, 과일선별 작업은 단순히 무작위로 분류하는 일 이외는 더 이상 없다. 그러나 만약에 컨베이어 벨트에 오렌지와 사과 두 종류의 과일이 실리고, 오렌지가 그 중에 80%가 오렌지이고, 나머지가 사과라는 정보가 선별장치에 주어진다면 선별장치는 주어진 과일을 무조건 오렌지라고 판별하면 적어도 80%의 선별은 맞는다. 이처럼 사전정보가 주어지는 경우에 선별작업은

          임의의 과일에 대해서  P(오렌지) > P(사과)à 오렌지로 선별
                                
반대의 경우는    
à 사과로 선별

과 같은 단순한 룰에 의해서 선별을 하면 된다. 베이시안 결정이론(Bayesian Decision Theory)은 이처럼 분류하고자 하는 물체들에 대해서 사전정보가 주어지는 경우에 사용이 될 수 있는 이론이다. 실제의 분류작업은 이보다도 많은 정보가 주어진다. 예를 들면 오렌지나 사과의 컬러에 대한 확률분포에 대한 정보를 가질 수 있다. 과일의 컬러는 선별기의 촬영장치를 통해서 얻어진다.

좀더 자세히 들여다 보기 위해서 오렌지를 나타내는 상태를 worg, 사과를 나타내는 상태를 wapp 로 표시를 하고, x 를 과일의 컬러를 의미하는 랜덤변수라고 하자. 그러면, p(x|worg) 는 오렌지의 컬러에 대한 확률밀도 함수를 나타낸다. 많은 경우에 우리는 오렌지나 사과에 대한 조건부 확률밀도 함수 p(x|worg), p(x|wapp)를 알 수 있거나 계산을 할 수 있다(예를 들면 가우시안 확률분포등…).

또한, 대부분의 경우에 컨베이어 벨트에 실린 오렌지나 사과의 전체 수에 해당하는 사전확률 P(worg), P(wapp) 을 알 수 있다. 이제, 우리가 관심이 있는 것은 과일의 특정한 컬러 (x) 만 보고 이것이 오렌지인지 아니면 사과인지를 판별할 수 있는 방법(공식)이 있는가 이다.  만약에 그러한 확률함수를 가지고 있다면, 관측된 과일의 컬러로 오렌지가 그러한 컬러를 가질 확률과 사과가 그러한 컬러를 가질 확률을 비교하여서 그 과일을 분류할 수 있다. 오렌지가 그러한 컬러를 가질 확률이 더 높으면 그 과일은 오렌지로 분류하면 된다.

다행이도 우리는 베이즈 공식을 가지고 있다:

P(wj|x) = p(x|wj) P(wj)/p(x),     j=org, app


공식의 의미는 컬러값 (x) 측정이 되었을 , 그것이 특정한 과일일 사후 확률(posterior probability) P(wj|x)   사전정보(prior probability) P(wj) 이용하여서 계산할 있다는 의미이다. 따라서, 컨베이어 벨트위에 놓인 과일의 컬러를 측정하고, 측정된 컬러에 해당하는 오렌지의 사후확률 P(worg|x) 사과의 사후확률 P(wapp|x) 계산하여서 값이 것에 해당하는 과일로 분류하면 된다

이처럼 베이시안 결정이론은 :


 P(worg|x) > P(wapp|x)
è 오렌지로 판별

외의 경우는     è  사과로 판별

 

양변에 p(x) 동시에 나타나므로, 이것은 아래처럼 다시 선언할 있다:


p(x|worg)P(worg) > p(x|wapp)P(wapp)
è 오렌지로 판별
    
외의 경우는        è 사과로 판별

베이즈 결정이론에서 잘못판단을 할 확률은 어떻게 될까? 컬러 x를 관찰하고서 그 과일이 오렌지라고 하였으면, 잘못 판단을 할 확률은 해당컬러의 과일이 사과일 확률, P(wapp|x)  이고, 만약에 사과로 판단을 하였다면 그것이 오렌지일 확률, P(worg|x) 일 것이다. 즉,

                                       P(error|x) = min[p(wapp|x), p(worg|x)].

로 주어진다.  따라서, 베이시안 결정규칙은 이 판단에러를 최소화시키는 방향으로 이루어진 것이다.  개별 관측에 대한 에러가 최소화 되므로  모든 측정에 대한 평균에러 역시 최소화 된다:

                                             P(error) = ∫ P(error|x) p(x) dx
  
만약에 특정한 x에 대해서 p(x|wapp)=p(x|worg), 이면 컬러관측이 판별에 도움이 되지 않는다. 이 경우에는 순전히 사전확률에 의존해서 결정해야 한다. 반대로, P(worg)=P(wapp)이면, 순전히 likelihood인 p(x|wj) 에 의존해서 결정을 해야한다. 일반적인 경우는 이 두 요소가 모두 중요하면, 베이시안 결정이론은 이들을 결합하여서 결정에러를 최소화 시킨다.

이처럼 베이시안 결정이론은 결정에 따른 에러를 최소화하려는 노력의 일환으로 이해할 수 있다. 이것을 좀 더 다른 각도로 살펴보자. 각각의 결정은 그 결정이 잘못되었을 때 초래하는 손실또는 위험을 수반하게 된다. 오렌지와 사과도 분리작업에서도 각각의 가격이 다르므로 우선적으로 잘못 분류시 금전적인 손실을 초래하게 된다. 이처럼 분류작업을 잘못된 분류에 손실에 따른 위험을 최소하는 노력으로 이해할 수 있다.

진짜 상태가 w인데, 어떤 행동 ai ,  예를 들면, 사과인데 잘못 분류되어 오렌지 박스에 담는 행위, 에 따른 손실은 L( ai | wj ) 라고 하면,  x 가 관측되었을 때 기대할 수 있는 손실위험은:

                    R(ai | x) = j L(ai |wj) * P(wj|x)  

이 경우에 베이시안 결정규칙은 손실위험을 최소화하는 행동을 선택하는 것이다.  오렌지와 사과를 분류하는 2-클래스 분리문제를 이 관점에서 살펴보면,

                  R(a1 | x) = L1,org * P(worg|x) + L1,app * P(wapp|x),             Li,j   =L(ai |wj)
                  R(a2 | x) = L2,org * P(worg|x) + L2,app * P(wapp|x)

이어서 오렌지 로 판별할 조건은

( L2,org - L1,org )*P(x|worg) P(worg)   >  (L1,app  - L2,app )* P(x|wapp)* P(wapp)

로 쓸 수 있다.

에러율을 최소화 하는 선택은 이 최소손실 결정의 한 예로 설명이 될 수 있다. 손실함수 L( ai | wj )을

                        L( ai | wj ) =  1 -   δij

로 잡으면(zero-one loss, 결정이 맞으면 손실이 없고, 결정이 틀리면 100% 손실)) , 조건부 손실위험은
                
                    R(ai | x) = 1 - P(wi|x)  

이어서 손실을 최소하기 행위는 결국 posterior가 최대인 것을 선택하는 결정과 동일하게 된다.

일반적으로 결정규칙은 손실을 최소화하는 방법으로 결정하는 방법을 보통 Bayes Criterion이라고 하고, 에러를 최소화 하는 결정방법은 사후확률이 크기로 결정을 하므로  MAP( Maximum A Posteriori) Criterion 이라 부르고, 사전확률이 같은 경우에는 MAP는 Likelihood값의 비교와 동일하므로 이 경우는 ML(Maximum Likelihood) Criterion 라고 한다.  이외에도 한 클래스의 허용에러를 고정하고, 다른 클래스의 에러를 최소화하는 방법으로 분류를 하는 방법인 Neyman-Pearson Criterion 과 손실의 최대값을 최소화시키는 결정규칙인 Minimax Criterion이 있다.
◈ glossary:

Prior :

As the name implies, the prior or a priori distribution is a prior belief of how a particular system is modeled. For instance, the prior may be modeled with a Gaussian of some estimated mean and variance if previous evidence may suggest it be the case. Many times, the prior may not be known so a uniform distribution is first used to model the prior. Subsequent trials will then yield a much better estimate.

Likelihood :
The likelihood is simply the probability of specific class given the random variable. This is generally known and it’s complement is wanted - the a posteriori or the posterior probability.

Posterior :
The posterior or a posteriori probability (or distribution) is what results from the Bayes rule. Specifically, it states the probability of an event occurring (or a condition being true) given specific evidence. Hence the a posteriori is shown as P(ω|x) where ω is the particular query and x is the evidence given.

Evidence :
The evidence p(x) is usually considered a scaling term. Bayes Theorem also states that it is equal to:
사용자 삽입 이미지


'Image Recognition' 카테고리의 다른 글

EM Algorithm : Line Fitting 예  (0) 2008.06.29
Shuffling  (0) 2008.06.21
Bayesian Decision Theory  (1) 2008.06.17
Gaussian Mixture Model  (2) 2008.06.07
Rasterizing Voronoi Diagram  (0) 2008.05.26
RANSAC Algorithm  (0) 2008.05.24
Posted by helloktk