본문 바로가기
대외활동/LG Aimers

[LG Aimers] 인과추론 - 3. Modern Identification

by rahites 2022. 7. 26.

LG Aimers 학습 내용 정리

출처 : https://www.lgaimers.ai/ 

 

 

Modern Identification

- 지금까지는 인과효과를 얻기 위해 하나의 domain만을 생각하였다. ( 주어진 도메인 - 관측 데이터 - 인과 효과 )

- 여러 종류의 데이터를 한번에 활용해 인과 효과를 계산하면 더 좋지 않을까?

 

SES ( Socioeconomic Status ) : 사회 경제적인 사람들의 상태에 따라서 데이터가 수집될 수 있다. 

- 데이터는 다양한 특성을 가지고 있고 결국 인과 추론을 하는 데 있어서 이러한 특성들을 고려하지 않는다면 편향이 있는 값이 계산될 수 있다. 

 

X : Cholesterol Level    Y : Heart Attack    Z : Diet  

X값인 Cholesterol level은 우리 마음대로 바꿀 수 없지만, Z값인 Diet는 식습관 조절을 통해 바꿀 수 있다. 따라서 Diet에 대한 실험이 존재한다면 기존 $P(X,Y,Z)$였던 Observational study를 $P(X,Y|do(Z))$인 Experimental Study로 바꿀 수 있다.

 

 

ex1)

Drug-Drug Interaction

: 각각의 약에 대해서 실험한 데이터가 있을 때, 두 약을 혼용했을 시 어떤 효과가 날지 알고 싶은 것!

 

- 여러가지의 데이터를 활용하는 General Identifiabilty도 결국 Do-calculus가 있으면 우리가 원하는 인과 효과를 계산할 수 있다!

* General Identifiability : 여러 데이터가 한 domain에 주어져 있을 때 그것을 활용하여 원하는 인과 효과를 계산하는 것 

 

- Training data set으로 학습하면 test set에 그대로 적용 가능할 것이라고 가정 

* Transportability : 주어져 있는 데이터의 소스와 우리가 인과 효과를 계산하고자 하는 타겟이 서로 다른 도메인일때의 인과추론을 다룸

 

가정 1 : 만약 Source와 Target이 모두 같다면 우리가 실험실에서 나온 결과를 우리가 원하는 타겟에 그대로 적용할 수 있다  ( 머신러닝 과정과 비슷 ), Transportable

가정 2 : Source와 Target 환경이 모두 다르다고 가정 시 실험 값을 그대로 타겟에 적용할 수 없다, Not Transportable

- Transportable의 목적 : Source와 Target의 어떤 공통점이 존재하지만, 부분적으로 어떤 변수에 대해서는 다를 수도 있다는 것을 인정한 후 그럴 경우에 인과 추론을 어떻게 할 것인가 하는 것!! 

 

ex2)

교란 변수의 Child에 차이점이 있는 경우

: Z라는 변수가 주어져있지 않다면 다른 변수에 영향을 주지 않기 때문에 d-seperation을 통해 인과 효과는 Source와 Target 두 domain에 대해 같다. 따라서 Source의 인과 효과를 그대로 사용할 수 있게 된다. 

 

ex3)

X와 Y 사이의 변수, mediator인 Z에 차이점이 있는 경우

 

 

- 일반적으로 우리는 무작위 실험을 통해 실험 데이터를 얻게 되는데 이 때 실험 결과를 절대적인 것으로 받아들이는 경우가 많지만, 위 Transportability 예제와 같이 실험이 일어난 모집단과 인과 효과를 적용하고자 하는 다른 집단 간의 차이가 존재한다면 실험 데이터의 인과 효과를 원하는 타겟에 그대로 사용할 수 없다!!

- 따라서 실험 결과를 적용할 때에는 Transportability 개념을 통해 Caual Diagramd을 그리고 어떤 변수들이 다른지 명시화한 알고리즘을 통해 문제를 푸는 것이 필요하다. 

 

* Recovering From Selection Bias : 데이터 샘플링 과정에서 선택 편향이 생긴 경우 

전투기가 전쟁상황에서 총을 맞은 위치를 표시한 데이터 有 -> 이 부분이 총을 많이 맞는 부분이니 단단하게 만들어야겠다! 

하지만~ 이 비행기는 출격한 뒤 돌아온 비행기로 엔진에 총을 맞은 비행기는 추락하여 되돌아오지 못했을 것!!

 

선택 편향 ( Selection Bias ) : 데이터의 샘플이 선택적으로 포함되는 경우에 발생되는 편향

기존의 Causal Diagram에 새로운 변수 S를 추가, 여기서 S는 샘플이 데이터에 포함되어 있는지 여부를 나타내는 변수이다. ( 1이면 존재, 0이면 존재 X )

 

- 편향되지 않은 데이터를 활용해서 우리가 원하는 조건부 확률을 계산할 수 있을까? -> 이 방식을 이용해 인과 효과를 구할 수 있다. 

 

* Recovering From Missing Data

- 데이터가 누락되어 있는 경우

 

ex. Age, Gender, Obesity 가 변수가 있을 때 Age, Gender는 누락된 정보가 없지만 survey로 얻게되는 Obesity는 결측치가 존재할 수 있다. 이를 Causal Diagram에 넣기 위한 방법은!

1. 실제 학생의 비만도

2. 비만도가 누락되는 매커니즘 

 

Reason for Missingness : 데이터가 누락되지 않는 경우, 무작위로 데이터가 누락되는 경우, 나이에 의해서 누락되는 경우, 실제 비만도 값에 의해 누락되는 매커니즘이 영향을 받는 경우 

 

일반적인 데이터 누락 원인 구분

1. Missing Completely At Random (MCAR) : 완전 무작위2. Missing at Random (MAR) : 매커니즘이 누락된 변수와 어떤 조건부 독립이 성립3. Missing Not At Random (MNAR) : 랜덤하지 않은 누락- 누락된 정보가 있는 줄들을 삭제, 빈 값들을 채우는 알고리즘들은 MCAR, MAR에 부분적으로 동작하지만 MNA에는 동작하지 않음

 

누락된 데이터로부터 인과 효과를 계산 : Causal Diagram의 누락 매커니즘의 과정을 가정에 의해 표현하고 이 그림을 통해 식을 전개할 수 있다. 

 

댓글