ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [생명과학을 위한 통계학] (2) 통계적 추론, 확률 변수, 확률 분포, 통계적 가설검정, P-value
    공부 2020. 4. 21. 02:30
    [생명과학을 위한 통계학] 시리즈 글들은 Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love와 오픈 강의 플랫폼들 (CourseraedX)에서 제공하는 강의들을 바탕으로 작성되었습니다. 더 자세한 내용을 확인하고 싶으신 경우 글 하단의 링크를 확인해주세요.

    1. 통계적 추론 (Statistical Inference)이란?

    WHO 홈페이지의 COVID-19 배너

    신종 코로나바이러스 (SARS-CoV-2)가 아주 기승이다. 2월이면 끝날 줄 알았는데 벌써 5월을 향해 달려가고 있다.

    신약 개발이 평균 10~15년인 것을 감안하면 신종 코로나바이러스 감염증 (COVID-19) 치료제를 전통적인 신약 개발 프로세스대로 개발하는 것은 현실성이 없다. 그렇기에 미국을 비롯한 선진국들에서는 기존에 다른 질병들을 대상으로 개발된, 혹은 개발 중이던 약물을 COVID-19 치료에 사용할 수 있는지 스크리닝을 하는 전략을 취하고 있다.

    최근에는 타미플루로 유명한 길리어드사이언스의 항바이러스제 렘데시비르 (remdesivir)가 영장류에서 COVID-19의 초기 치료에 효과를 보인다는 preprint가 bioRxiv (생명과학분야의 preprint archive)에 소개되었다.

     

    그렇다면, 렘데시비르가 COVID-19 치료에 효과적인지는 어떻게 알 수 있을까?

    이 질문의 답을 알 수 있는 방법은 의외로 간단하다. COVID-19 환자 모두에게 렘데시비르를 투약해보고 상태가 호전되는지를 관찰해보면 렘데시비르가 COVID-19 치료에 효과적인지 쉽게 결론을 내릴 수 있다.

    하지만 이러한 방법은 환자 집단 전체를 대상으로 하기 때문에 물리적으로 불가능할 뿐만 아니라, 심각한 윤리적 문제를 야기한다. 그렇기 때문에 위에서 언급한 렘데시비르 관련 preprint를 퍼블리시한 NIH의 연구팀 역시 영장류를 대상으로 실험을 한 뒤 통계적 분석을 진행한 것이다. 만일 렘데시비르가 영장류에서 유의미하게 COVID-19의 치료에 도움이 된다는 과학적 증거들이 모이게 된다면 이후 일부 환자들을 대상으로 하는 임상실험들이 진행될 것이다.

    이렇게 표본 (sample)을 바탕으로 모집단 (population)의 특성을 추론하는 과정을 통계적 추론 (statistical inference)라고 한다. 모집단 전체를 대상으로 실험을 하는 경우는 드물기 때문에 통계적 추론을 이해하는 것은 연구를 하는데 있어서 매우 중요하다고 할 수 있다.

     

    예시를 통해 통계적 추론이 실제 논문에서 어떻게 사용되는지 맛만 보고 넘어가보자. 

    쥐에서의 체중과 식단의 상관관계를 연구한 한 논문에서 다음과 같은 주장을 하고 있다.

    "Body weight was higher in mice fed the high-fat diet already after the first week, due to higher dietary intake in combination with lower metabolic efficiency."

    [번역] "고지방식을 먹은 쥐의 체중이 일반식을 먹은 쥐의 체중보다 높은 것을 1주차부터 확인할 수 있었다. 이는 낮은 대사 효율과 높은 열량 섭취가 원인이다."

    고지방식을 먹은 쥐의 체중이 일반식을 먹은 쥐의 체중보다 높다는 것을 무엇을 근거로 말할 수 있는 것일까? 이 논문은 result section에서 다음과 같은 수치를 근거로 제시한다.

    "Already during the first week after introduction of high-fat diet, body weight increased significantly more in the high-fat fed mice (+1.6 ± 0.1 g) than in the normal diet fed mice (+0.2 ± 0.1 g; P < 0.001)."

    [번역] "1주차부터 체중 증가량에 있어서 고지방식을 먹은 쥐 (+1.6 ± 0.1 g)에서가 일반식을 먹은 쥐 (+0.2 ± 0.1 g; P < 0.001) 에서보다 유의미하게 증가했다.

    여기에서 확인할 수 있는 유의 확률 (p-value)과 ±로 표시되는 신뢰구간 (convidence interval)은 통계적 추론에서 많이 사용되는 값들이다. 앞으로 p-value와 신뢰구간을 비롯한 다양한 통계적 추론을 R 프로그래밍을 통해 하는 법을 배울 것이다.


    2. 확률 변수 (Random Variable) & 확률 분포 (Probability Distribution)

    확률 변수 (Random variable)란 무엇인가?

    앞면에는 1, 뒷면에는 -1이 적혀있는 동전이 있다. 이 동전을 2번 던져서 나오는 숫자의 종류는 다음과 같다.

    (1, 1) (1, -1)
    (-1, 1) (-1, -1)

     

    2번 던져서 나온 숫자의 합을 변수 \(X\)라고 정의를 한다면, \(X\)는 다음과 같은 값들을 특정 확률로 가질 수 있다.

    \(X\) -2 0 2
    확률 1/4 1/2 1/4

     

    확률 변수란 이와 같이 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 결과를 수치적으로 표현하는 변수를 의미한다.

    확률 분포 (Probability distribution)란 조금 전에 설명한 확률 변수가 특정한 값을 가질 수 있는 확률을 나타내는 함수를 의미한다. 통계학에서 가장 대표적으로 사용되는 확률 분포로는 다음과 같은 식으로 표현되는 정규분포 (normal distribution)가 있다.

    $$f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}$$

    정규분포의 확률밀도함수. (출처) 위키피디아 "Normal distribution"

     


    3. 통계적 가설검정 (Statistical Hypothesis Testing) & 유의 확률 (p-value)

    통계적 가설 (Statistical hypothesis)이란 모집단의 특성에 대한 가설을 의미한다.

    예를 들어 "고지방식을 먹은 쥐의 몸무게 평균은 일반식을 먹은 쥐의 몸무게 평균과 같다"와 같은 가설은 모집단의 특성에 대한 가설이기 때문에 통계적 가설이라고 볼 수 있는 것이다.

    이러한 통계적 가설에는 테스트의 대상인 귀무가설 (null hypothesis: \(H_0\))과 귀무가설이 기각될 경우 대안으로서 존재하는 대립 가설 (alternative hypothesis: \(H_1\))가 존재한다. 통계적 가설검정 (Statistical Hypothesis Testing)이란 결국 가지고 있는 데이터를 바탕으로 귀무가설을 채택할 것인가, 혹은 귀무가설을 기각한 뒤 대립 가설을 채택할 것인가를 결정하는 과정이라고 볼 수 있다.

     

    그렇다면 무엇을 기준으로 귀무가설을 채택 혹은 기각해야 할까?

    이를 위해서 표본으로부터 계산할 수 있는 다양한 검정통계량 (test statistic)이 존재하고, 이러한 검정 통계량의 값과 실험자가 설정한 유의 수준 (significance level)을 바탕으로 귀무가설의 채택 여부를 결정한다. 이때 유의 확률 (p-value)란 귀무가설을 기각시킬 수 있는 가장 작은 significance level을 의미한다.

    P-value가 작을수록 귀무가설이 사실인 상황에서 표본과 같은 결과가 우연히 나올 확률이 작다는 것을 의미하기 때문에 p-value가 작을수록 귀무가설을 기각하기에 용이하다. 일반적으로 0.05의 significance level이 사용되지만, 생각보다 0.05의 significance level은 우연을 통해 넘기 쉽기 때문에 분야에 따라서는 0.005, 0.0005와 같이 더 엄격한 기준이 요구되기도 한다.


    [생명과학을 위한 통계학] 시리즈 글들은 Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love와 오픈 강의 플랫폼들 (CourseraedX)에서 제공하는 강의들을 바탕으로 작성되었습니다. 더 자세한 내용을 확인하고 싶으신 경우 글 하단의 링크를 확인해주세요.

    [참고서적]
     - [PDF] Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love

    [오픈 강의]
    1. [Coursera] R Programming from Johns Hopkins University
    2. [edX] Statistics and R from Harvard University
    3. [edX] Introduction to Linear Models and Matrix Algebra from Harvard University
    4. [edX] Statistical Inference and Modeling for High-throughput Experiments from Harvard University
    5. [edX] High-Dimensional Data Analysis from Harvard University
    6. [edX] Introduction to Bioconductor from Harvard University
    7. [edX] Case Studies in Functional Genomics from Harvard University
    8. [edX] Advanced Bioconductor from Harvard University


     

    댓글

Personal archive of 6jin_