ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [생명과학을 위한 통계학] (3) 중심 극한 정리, 가설 검정
    공부 2020. 4. 23. 01:05
    [생명과학을 위한 통계학] 시리즈 글들은 Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love와 오픈 강의 플랫폼들 (CourseraedX)에서 제공하는 강의들을 바탕으로 작성되었습니다. 더 자세한 내용을 확인하고 싶으신 경우 글 하단의 링크를 확인해주세요.

    이전 글에서 정규 분포에 대해서 간단히 언급을 했는데, 다시 짚고 넘어가자.

    1. 정규 분포 (Normal Distribution)

    DEFINITION
    확률 변수 \(X\)의 확률 밀도가 다음과 같을 때
    $$f(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}, \quad -\infty < x < \infty$$
    \(X\)를 매개변수 평균 \(\mu\)와 표준편차 \(\sigma\)를 가지는 정규 분포라고 부른다. 이를 간단하게 다음과 같이 표기한다.
    $$X \sim N(\mu, \sigma^2)$$

    2. Chi-square distribution

    DEFINITION
    \(Z_1,Z_2,...,Z_n\)이 independent standard normal random variable일 경우, 다음과 같이 정의되는 확률 변수 \(X\)는 자유도 \(n\)을 가지는 chi-square distribution을 가진다고 한다.
    $$X = Z_1^2 + Z_2^2 + \cdots + Z_n^2$$
    이를 간단하게 다음과 같이 표기한다.
    $$ X \sim \chi_n^2 $$

    3. t-distribution

    DEFINITION
    \(Z\)와 \(\chi\)가 independent random variable이고 \(Z\)는 standard normal distribution을 가지며, \(\chi\)는 자유도 \(n\)의 chi-square distribution을 가질 때 다음과 같이 정의되는 확률 변수 \(T_n\)는 자유도 \(n\)을 가지는 t-distribution을 가진다고 한다.
    $$ T_n = \frac{Z}{\sqrt{\frac{\chi_n^2}{n}}} $$

    \(n\)이 클 경우 큰 수의 약한 법칙 (weak law of large numbers)에 의해 \(E[Z_i^2] \approx 1\)이 되어 \( \frac{\chi_n^2}{n} \approx 1 \)이 되고, 결국 t-distribution이 정규 분포에 근사된다. 


    4. 중심 극한 정리 (The Central Limit Theorem)

    간단히 말하자면 같은 분포를 가지는 \(n\)개의 independent random variable의 평균의 분포는 \(n\)이 클 경우 정규 분포에 가까워진다는 정리이다.

    THEOREM
    \(X_1, X_2, ..., X_n\)을 평균 \(\mu\)와 표준편차 \(\sigma\) independent and identically distributed random variable의 수열이라고 놓자. 충분히 큰 \(n\)에 대해서 다음 식과 같이 근사가 된다.
    $$\frac{X_1 + X_2 + \cdots + X_n}{n} \sim N(\mu,\sigma^2/n) $$

    5. 가설 검정 (Hypothesis Testing)

    5.1. Testing normal population of known variance

    모집단이 모르는 평균 \(\mu\)와 알려진 분산 \(\sigma^2\)를 가지는 정규분포를 따른다고 하자. 이때 모집단으로부터 \(n\)개의 표본 \(X_1, ..., X_n\)을 추출하면 모집단의 평균에 대한 다음과 같은 가설을 세울 수 있다.

    $$ H_0 : \mu = \mu_0 $$

    $$ H_1 : \mu \neq \mu_0 $$

    모집단이 정규분포를 따르기 때문에 표본의 평균 \( \overline{X} \) 역시 정규분포를 따르는 것을 알 수 있다.

    $$ \overline{X} \sim N(\mu_0, \sigma^2/n) $$

    $$ \frac{\overline{X} - \mu_0}{\sigma/\sqrt{n}} \sim Z $$

    위 정규분포를 바탕으로 \(H_0\)이 사실이라고 가정할 때  \( \overline{X} \)의 값이 나올 확률과 유의수준을 비교하면 \(H_0\)의 기각 여부를 결정할 수 있다.

     

    5.2. Testing normal population of unknown variance

    5.1에서는 분산은 알고 평균만 모르는 상황을 가정했는데, 실제 상황에서는 평균과 분산 둘 다 모르는 경우가 대부분이다. 이 경우 모집단의 분산 \(\sigma^2\)을 표본의 분산 \(S^2\)로 예측하는 것이 논리적이다. 표본의 분산을 계산할 때는 \(n-1\)로 나눈다는 점이 모집단의 분산을 계산하는 점과 다르다.

    $$ S^2 = \frac{\sum_{i=1}^{2}(X_i-\overline{X})^2}{n-1} $$

    하지만 모집단의 분산을 표본의 분산으로 예측할 경우 더이상  \( \frac{\overline{X} - \mu_0}{S/\sqrt{n}}\)가 정규분포를 따른다고 말할 수 없다.

    하지만

    $$ \frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}  = Z $$

    $$ \frac{(n-1)S^2}{\sigma^2} = \frac{\sum_{i=1}^{n}(X_i - \overline{X})^2}{\sigma^2} = \sum_{i=1}^{n} (\frac{X_i - \mu}{\sigma})^2 - \left [ \frac{\sqrt{n}(\overline{X} - \mu)}{\sigma} \right ]^2 = \chi_n^2 - \chi_1^2 = \chi_{n-1}^2$$

    이기 때문에

    $$ \frac{\overline{X} - \mu_0}{S/\sqrt{n}}  = \frac{ \frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}   }    {\sqrt{\frac{(n-1)S^2/\sigma^2}{n-1}}} = \frac{Z}{\sqrt{  \frac{\chi_{n-1}^2}{n-1}} } = t_{n-1}$$ 

    \( \frac{\overline{X} - \mu_0}{S/\sqrt{n}}\)가 \(n-1\)의 자유도를 가지는 t-distribution을 따르게 된다.

    따라서 모집단의 분산을 모를 경우 정규분포가 아닌 \(t_{n-1}\)을 가지고 \(H_0\)의 기각 여부를 결정하면 된다.

     

    5.3. Testing the equality of means of two normal populations of known variances

    \(X_1, ..., X_n \)와 \(Y_1, ..., Y_n \)이 모르는 평균 \(\mu_x\), \(\mu_y\)와 알려진 분산 \(\sigma_x^2\), \(\sigma_y^2\)를 가지는 정규분포 모집단들에서 독립적으로 추출한 표본이라고 하자. 두 모집단의 평균에 대해 다음과 같은 가설을 세울 수 있다.

    $$ H_0 : \mu_x - \mu_y = 0$$

    $$ H_1 : \mu_x - \mu_y \neq 0 $$

    정규분포를 따르는 독립적인 확률 변수의 합 역시 정규분포를 따르기 때문에 \(\overline{X} - \overline{Y}\)은 다음과 같은 정규분포를 따른다는 것을 알 수 있다.

    $$ \overline{X} \sim N(\mu_x, \sigma_x^2/n) $$

    $$ \overline{Y} \sim N(\mu_y, \sigma_y^2/m) $$

    $$ \overline{X} - \overline{Y} \sim N(\mu_x - \mu_y, \frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}) $$

    $$ \frac{\overline{X} - \overline{Y} - (\mu_x - \mu_y)} {\sqrt{\frac{\sigma_x^2}{n} + \frac{\sigma_y^2}{m}  }} \sim Z   $$

    위 정규분포를 바탕으로 \(H_0\)의 기각 여부를 결정할 수 있다.

     

    5.4. Testing the equality of means of two normal populations of unknown variances

    5.2와 마찬가지로 모집단의 분산을 표본의 분산으로 예측하는 것이 바람직하다.

    $$ S_x^2 = \frac{\sum_{i=1}^{n}(X_i-\overline{X})^2}{n-1} $$

    $$ S_y^2 = \frac{\sum_{i=1}^{n}(Y_i-\overline{Y})^2}{m-1} $$

    $$ \frac {\overline{X} - \overline{Y} - (\mu_x - \mu_y)} {\sqrt{ \frac{S_x^2}{n} + \frac{S_y^2}{m}}}$$

    하지만 위 값이 어떠한 확률 분포를 따르는지 알지 못하기 때문에 가설검정을 할 수 없다. 하지만 \(\sigma_x = \sigma_y\)인 특수한 경우에는 위 값이 따르는 확률 분포를 계산할 수 있다.

    $$ S_p^2 = \frac{(n-1)S_x^2 + (m-1)S_y^2}{n + m - 2}$$

    $$ \frac{\overline{X} - \overline{Y} - (\mu_x - \mu_y)} {\sqrt{ S_p^2(1/n + 1/m)   }} \sim t_{n+m-2} $$

    두 모집단의 표준편차가 같다고 가정할 경우 위 t-distribution을 바탕으로 \(H_0\)의 기각 여부를 결정할 수 있고 이를 Student's T-test라고 부른다. 

    만약 두 모집단의 표준편차가 같지 않다면 \(n\), \(m\) 모두 클 때는 C.L.T.에 의해 아래 식이 standard normal distribution에 근사된다고 가정하여 가설 검정을 할 수 있다.

    $$ \frac {\overline{X} - \overline{Y} - (\mu_x - \mu_y)} {\sqrt{ \frac{S_x^2}{n} + \frac{S_y^2}{m}}} \sim Z $$

    C.L.T.를 만족하지 못하는 크기일 경우 Welch's T-test를 사용할 수 있다.


    [생명과학을 위한 통계학] 시리즈 글들은 Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love와 오픈 강의 플랫폼들 (CourseraedX)에서 제공하는 강의들을 바탕으로 작성되었습니다. 더 자세한 내용을 확인하고 싶으신 경우 글 하단의 링크를 확인해주세요.

    [참고서적]
     - [PDF] Data Analysis for the Life Sciences by Rafael A Irizarry & Michael I Love

    [오픈 강의]
    1. [Coursera] R Programming from Johns Hopkins University
    2. [edX] Statistics and R from Harvard University
    3. [edX] Introduction to Linear Models and Matrix Algebra from Harvard University
    4. [edX] Statistical Inference and Modeling for High-throughput Experiments from Harvard University
    5. [edX] High-Dimensional Data Analysis from Harvard University
    6. [edX] Introduction to Bioconductor from Harvard University
    7. [edX] Case Studies in Functional Genomics from Harvard University
    8. [edX] Advanced Bioconductor from Harvard University


    댓글

Personal archive of 6jin_