최근 회사 업무에서 데이터 예측 업무를 맡게 되었습니다. 며칠 동안 EDA를 통해 데이터 특성을 파악하다 보니 대학 시절 들었던 Bayesian Statistics의 개념이 떠올랐습니다. 현재 업무에 적용해 볼 가치가 있다고 판단하였고 기본 개념이해를 위해 블로그에 글을 쓰게 되었습니다.
Bayesian Statistics 설명에 앞서 통계와 불확실성(Uncertainty)에 대해 설명해보겠습다. 통계란 Data를 활용하여 내릴 수 있는 다양한 결론중 어떤 결론이 가장 타당한지 따져보는 방법 중 하나입니다. Data 관찰을 통해 얻어진 결론이다 보니 항상 불확실성을 가지고 있습니다. 이때 이 불확실성을 해석하는 관점에 따라 Frequentist와 Bayesian으로 나뉘게 됩니다.
불확실성(Uncertainty)
- Randomness(무작위성)에 의한 불확실성 (Aleatoric Uncertainty)
- 이 특성은 Frequentist 접근법과 관련이 있습니다.
- Frequentist는 불확실성을 주로 데이터의 무작위성에 기인한다고 이해합니다.
- 실험의 결과가 무작위로 발생한다고 가정하고, 이러한 무작위성을 통해 모집단의 특성을 추론합니다.
- 사전 지식 부족에 의한 불확실성 (Epistemic Uncertainty)
- 이 특성은 Bayesian 접근법과 관련이 있습니다.
- Bayesian은 불확실성을 데이터 외에도 사전 지식의 부족으로도 이해합니다.
- 데이터가 부족한 경우에도 사전 지식을 사용하여 불확실성을 줄이고, 이를 통해 모집단의 특성을 추론합니다.
이러한 불확실성에 대한 해석에 따라 여러 차이가 발생하게 됩니다. Frequentist는 주로 실험 결과의 무작위성을 통해 모딥단의 특성을 추론합니다. 반면 Bayesian은 데이터 외에도 사전 지식의 부족으로 인한 불확실성을 고려하여 모델을 구성하고, 데이터를 통해 이를 업데이트합니다.
개인적으로 Bayesian이 더 타당하다는 생각이 듭니다. 불확실성에 대해 더 유연하다고 생각하고 이런 관점이 현실 세계의 상황에 더 적합하다고 생각한다. 그렇기 때문에 이번 업무에서도 Bayesian Statistics가 더 적합하게 느껴진 것 같다.