통계적 유의성과 P-value 이해하기
통계적 유의성이란?
연구나 실험 결과가 우연에서 발생한게 아닌 실제로 의미가 있는지 판단하기 위해 사용되는 개념이다.
알파(Alpha)와 P-Value 라는 것을 활용해 통계적으로 유의한지 알아낸다.
유의하다는 것은 우연이라고 보지 않고 의미있는 결과를 얻었다는 것을 의미한다.
P-Value와 알파
P-Value는 '유의확률'로도 불리며 연구에서 관측된 결과와 같이 특이하거나 극단적인 결과를 얻을 확률을 의미한다.
보통 귀무가설(null hypothesis, 증명하려는 가설의 반대되는 가설)이 맞다고 가정할 때,
연구에서 얻은 결과가보다 극단적인 결과가 실제로 발생할 확률을 P값으로 사용한다고 한다.
P값이 매우 낮다는 것은 우연히 발생할 확률이 낮으면, 귀무가설을 기각할 근거가 된다고 해석하면 된다고 한다.
P값이 0.03이라면 3% 확률로 우연히 발생할 수 있는 결과이며 통계적으로 유의미한 결과로 간주된다고 한다.
알파는 '유의수준' 이라는 의미로 사용되며 실제 결과가 통계적으로 의미 있는 것으로 간주되기 위해,
우연에 의한 결과가 능가해야 하는 '비정상적인' 가능성의 임계확률이라고 한다.
알파는 통계적 유의성을 결정하기 위한 기준값으로 사용이 되며,
오류를 범할 확률을 최대 5%로 설정한다고 한다.
정리
통계적 유의성은 데이터를 기반으로 신뢰성을 도출하기 때문에 아주 중요하다.
사업과 정책 결정, 마케팅 등에 활용 할 수 있고 일상생활에서도 특정 집단에 대한 연구 결과를 홍보하는 상품에도 적용해서 분별있는 쇼핑을 하는데 도움을 얻을 수도 있을 것이다.
연구나 분석이라고해서 거창한게 아니다.
일상생활에서 접하는 특정 집단을 대상으로 연구해서 특허를 냈다고 광고하는 상품에 대해서도 신뢰성을 생각해 볼 수 있고,
투자 의사 결정이나 개발 과정에서 벤치마크 테스트에서도 통계적 유의성이 얽혀 있으니 개념을 잘 기억해두면 좋겠다.
관련 포스팅 - 연구 결과의 함정 P-Hacking 에 대해 알아보기