AI/AI Math

[Math] 조건부 확률과 인과 관계

sangwonYoon 2023. 3. 12. 00:35

머신러닝 모델을 모델링 하는데 있어서 중요한 개념인 조건부 확률의 베이즈 정리와 인과 관계에 대해서 알아보자.


베이즈 정리

 

조건부 확률을 이용해서 새로운 정보가 주어졌을 때 정보를 갱신할 때 사용한다.

 

베이즈 정리

B라는 새로운 정보가 주어졌을 때 P(A)로부터 P(A|B)를 계산하는 방법을 제공한다.

 

D : 새롭게 추가된 데이터 (관찰 가능한 데이터),   θ : 모델의 파라미터, 모수 (관찰 불가한 데이터)

 

  • 사후확률 : 데이터가 관찰되었을 때 파라미터가 성립할 확률
  • 사전확률 : 데이터를 관찰하기 전, 사전에 가정하고 있는 확률
  • 가능도 : 현재의 파라미터에서 관찰된 데이터가 등장할 확률
  • Evidence : 데이터의 분포

P(D)의 값을 구하는 공식

 

사전 확률을 가능도와 Evidence를 활용해 사후확률로 업데이트 한다.

 

 

새롭게 데이터가 관찰될 때마다 사후확률을 업데이트할 수 있다.

 

 

인과 관계

 

인과 관계는 데이터 분포가 바뀌더라도 예측 정확도가 유지될 수 있는 강건한 예측 모형을 만들 때 필요하다.

조건부 확률 기반 예측 모형은 시나리오가 바뀌면 예측 정확도가 크게 떨어질 수 있다.

 

정확한 인과 관계를 구하기 위해서는 원인(T)과 결과(R)에 동시에 영향을 주는 중첩 요인(Z)를 제거해야 한다.

 

예시) 신장 결석 치료법과 완치율간의 인과 관계

신장 결석의 크기는 완치율뿐만 아니라, 치료법을 선택하는데에도 영향을 미친다.
출처 : Elements of Causal Inference, Peters et al.

 

신장 결석의 크기가 크건(Z=1), 작건(Z=0) 치료법 a의 완치율이 높지만, 비교적 완치율이 높은 Z=0의 상황에서 치료법 b를 선택한 환자의 수가 많아, 전체 완치율은 치료법 b가 높다.

치료법이 완치에 미치는 인과관계를 계산하기 위해서는, 신장 결석 크기가 치료법 선택에 미치는 영향을 제거해야 하기 때문에, Z=k일 때 치료법 a와 b 선택한 환자의 비율을 동일하게 맞춰줘야 한다.

'AI > AI Math' 카테고리의 다른 글

Latex 명령어 정리  (2) 2023.04.24
[Math] CNN과 RNN 기본 개념  (0) 2023.03.13
[Math] 다층 퍼셉트론  (0) 2023.03.12
[Math] 경사 하강법  (0) 2023.03.11
[Math] 벡터와 행렬  (2) 2023.03.11