<인과추론> 1. 인과추론과 잠재 결과 프레임워크
23 Mar 2025 | 인과추론 데이터분석여기에 나온 글은 모두 참고 자료에 있는 내용을 정리한 것입니다.
1. 인과추론이란?
“ 연관관계(Association)는 인과관계(Causation)이 아니다. “
연관 관계는 두 개의 수치나 확률변수가 같이 움직이는 것이고, 인과관계는 한 변수의 변화가 다른 변수의 변화를 일으키는 것이다. 인과추론이란 연관관계로부터 인과관계를 추론하고, 이 값이 언제 어떻게 다른지 이해하는 학문이다.
“ No causation without manipulation. ”
그럼 인과추론의 목적은 무엇일까? 인과추론은 오롯이 현실을 이해하기 위해서 존재한다. 즉, 원인에 개입하여 내가 원하는 결과를 만들어내기 위해서 원인과 결과의 관계를 알아내는 것이다. 실제 실무에서도 “액션을 위한 분석”이 중요하고 결국 이 분석을 통해서 제품(=서비스)의 변화가 어떤 결과를 가져왔어요?에 대한 답을 제시하는 것이 중요하기 때문에 이 목적은 계속 마음에 품고 가져가면 좋을 것 같다.
- How does fertilizer affect crop yields?
- → How would crop yields change if we change the amount of ..
- How does education affect income?
- → How would income change if we change the amount of ..
연관관계와 인과관계의 예시로 다음의 상황을 가정해보자.
어린이 장난감을 판매하는 기업이 크리스마스 기간 전에 할인을 하는 것이 좋을지 정가에 판매하는 것이 좋을지 의사결정을 하려고 한다. 다행히 나에게는 참고할 수 있는 과거 데이터가 존재한다
이를 인과추론 용어로 풀어보면 할인 여부(is_on_sale) = T
가 주간 판매량(amount) = Y
에 미치는 효과를 파악하고자 하는 것이다.
그럼 실제 데이터를 보기 위해, T에 따른 Y 값들을 박스플롯으로 그려보면 어떻게 될까?
- 이렇게만 보면 할인을 한 (On Sale) 상점들의 판매량이 더 많았던 것처럼 보인다. 하지만 조금 더 깊이 생각해보면, 대기업일수록 할인을 할 수 있는 여유가 있기 때문에 할인 기업들의 판매량이 더 높게 집계되었을 수 있다.
- 그리고 현실에서도, 많은 사람들이 위와 같은 관측 데이터(혹은 직관)를 가지고 잘못된 판단을 하고 있을 확률이 높다. 아래 예시들을 곰곰이 생각해보자.
- 여름철에 아이스크림 판매량이 증가하면 익사 사고도 함께 증가한다.
- 손글씨 연습을 하면 학생들의 성적이 오른다.
- 행운의 부적을 가지고 있는 학생들은 성적이 더 오른다.
사실 이와 같은 문제를 쉽게 해결하려면, 동일한 회사가 동일한 조건에서 할인을 한 상황과 그렇지 않은 상황을 동시에 관측하여 실제 효과를 추정하면 된다. 하지만 평행 우주에서 데이터를 관측하고 돌아오지 않는 이상 이것이 불가능하다는 것을 우리 모두는 알고있다.
2. 잠재 결과 프레임워크와 인과 효과
잠재 결과 프레임워크(Potential Outcome Framework)란 인과추론에서 널리 사용되는 방법론으로, 개입이 결과에 미치는 효과를 평가하는 데 사용된다. 이름에서 짐작할 수 있듯이 “만약 이랬다면 결과가 어떻게 바뀌었을까?”라는 생각을 체계화 한 것이다.
우선, 인과추론의 용어를 익히고 가자.
- 처치 (Treatment, T 또는 D): 구하려는 효과에 대한 개입
- 결과 (Outcome, Y) : 영향을 주려고 하는 변수
- 즉, 인과추론의 목표는 T가 Y에 미치는 영향을 학습하는 과정
만약 내가 어제 공부를 더 했더라면 오늘 시험 점수가 더 높아졌을까? 라는 생각에서 아래와 같은 개념들이 존재한다.
- 사실적 결과 (Factual Outcome)
- 처리 T가 1일 때의 잠재적 Y
- = 관측할 수 있는 잠재 결과
- = 어제 공부를 한 나의 시험 결과
- 반사실적 결과 (Counterfactual -)
- 처리 T가 0일 때의 잠재적 Y
- = 관측할 수 없는 다른 결과
- = 어제 공부를 하지 않은 나의 시험 결과
이때,
- $Y_{1i}$를 실험 대상 i가 처치 받은 잠재 결과
- $Y_{0i}$를 실험 대상 i가 처치 받지 않은 잠재 결과라고 할 때,
- 잠재 결과 $Y_i = T_iY_{1i} + (1-T_i)Y_{0i} = Y_{0i} + (Y_{1i} - Y_{0i})T_i$ 로 표현할 수 있고,
-
개별 유닛에 대한 인과 효과 ITE(Individual Treatment Effect)는 다음으로 정의된다.
\[\tau_i = Y_{1i}-Y_{0i}\]
하지만 현실 세계에서 개별 유닛에 대한 잠재 결과를 관측한다는 것은 불가능하다. 따라서 집단의 평균 개념으로 문제에 접근한다. 우선 아래 세 개념을 익혀두도록 하자.
- 평균처치효과(ATE, Average -): 처치 T가 Y에 평균적으로 미치는 영향
-
실험군에 대한 평균처치효과(ATT, ATE on the treated): 처치 받은 대상에 대한 평균 처치효과
\[ATT = E[Y_{1i} - Y_{0i} | T=1]\] -
조건부 평균처치효과(CATE, Conditional ATE): 공변량 X를 갖는 그룹에 대한 처치효과
- ex) 신기능 A는 신규 가입 유저의 리텐션을 얼마나 상승시켰을까?
3. 현실 세계에서의 인과 효과
실제 예시를 통해 처치 효과를 계산해보자.
우리가 평행 우주의 데이터를 모두 관측할 수 있어서, 아래와 같은 완전한 데이터를 보유한 상황을 가정할 것이다. (현실에서는 y0 또는 y1 둘 중 하나의 값만 관측할 수가 있다)
y0 | y1 | t (할인 여부) | x (크리스마스까지 남은 시간, 공변량) | y (판매량) | te (처치효과) |
---|---|---|---|---|---|
200 | 220 | 0 | 0 | 200 | 20 |
120 | 140 | 0 | 0 | 120 | 20 |
300 | 400 | 0 | 1 | 300 | 100 |
450 | 500 | 1 | 0 | 500 | 50 |
600 | 600 | 1 | 0 | 600 | 0 |
600 | 800 | 1 | 1 | 800 | 200 |
- ATE: te의 평균 = 65
- 가격할인(T)을 하면 평균적으로 판매량(Y)을 65개 늘린다고 해석할 수 있다.
- ATT: t가 1일 때 te의 평균 = 83.33
- 가격할인(T)을 한 회사는 평균적으로 판매량(Y)이 83.33개 증가했다.
- CATE(x=1) : x =0 일 때의 te의 평균 = 22.5
- 크리스마스 주간(x=0)에 가격을 할인(T)했을 때 판매량이 평균 22.5개 증가했다.
이제 현실로 돌아와 실제 데이터로 동일한 효과를 추정한다고 가정해보자.
y0 | y1 | t (할인 여부) | x (크리스마스까지 남은 시간, 공변량) | y (판매량) | te (처치효과) |
---|---|---|---|---|---|
200 | - | 0 | 0 | 200 | - |
120 | - | 0 | 0 | 120 | - |
300 | - | 0 | 1 | 300 | - |
- | 500 | 1 | 0 | 500 | - |
- | 600 | 1 | 0 | 600 | - |
- | 800 | 1 | 1 | 800 | - |
글의 처음에서 봤던 것처럼, 그냥 실험군의 평균과 대조군의 평균을 비교하면 안 될까?
- ATE = (t=1일 때의 평균) - (t=0일 때의 평균) = 426.67 ?
이는 연관 관계를 인과 관계로 착각하는 중대한 오류이고, 절대 이런 식으로 사고해서는 안 된다.
- 실제로 할인한 회사(t=1)와 그렇지 않은 회사(t=0)가 다르고, 평행 우주 데이터를 보면 실험군의 Y0가 대조군보다 훨씬 높은 것을 확인할 수 있다. 즉, 할인을 하는 가게들은 대부분 애초에 판매량이 높은 가게가 많다.
이처럼 인과관계와 연관관계를 다르게 만드는 요소를 편향(bias)이라고 부르는데, 쉽게 이해해보자면 데이터에 영향을 주고 있는 요인들이라고도 할 수 있겠다. 앞서 봤던 예시에서, 편향에 대한 요소를 정성적으로 표현해보면 다음과 같다.
여름철에 아이스크림 판매량이 증가하면 익사 사고도 함께 증가한다.
- 아이스크림 판매량이 증가했다면 기온도 높았을 것이다. 기온이 높았기 때문에 수영을 하는 사람들이 늘어나 익사 사고도 증가하지 않았을까?
손글씨 연습을 하면 학생들의 성적이 오른다.
- 손글씨를 잘 쓰는 학생들은 대개 정리하는 습관이 잘 들여진 학생이었을 가능성이 높아 보인다. 손글씨 연습을 하면 성적이 오른다는 것은 잘못된 가정같다.
행운의 부적을 가지고 있는 학생들은 성적이 더 오른다.
- 좋은 성적을 받기를 간절히 희망하는 학생들일수록 부적과 같은 미신을 믿을 가능성이 높지 않을까? 부적이 성적을 올려주는 게 아니라, 이미 간절함을 가진 노력/성실 학생들이 부적을 소지하고 있을 것 같다.
다음 글에서는 편향과 인과추론의 식별/추정 개념에 대해 알아보겠다.
4. 참고 자료
- 실무로 통하는 인과추론 with Python 서적
- Causal Inference for the Brave and True
- 인과추론의 데이터 과학