비율에 대한 신뢰구간 추정 ac mid p 방법 비교

  • 모수 : 모집단에는 모평균, 모분산, 모비율, 모상관계수 등과 같이 모집단의 특성을 나타내는 수치값

  • 통계적 추론 : 모집단의 미지인 모수 값을 표본 정보를 이용하여 알아내는 과정

    • 추정(estimation)
      1. 점추정(point estimation) : 모수의 대한 추정값으로 표본자료를 이용하여 하나의 값으로 추정
      2. 구간추정(interval estimation): 모수가 포함되리라고 기대하는 범위 (구간)을 추정
    • 가설검정(hypothesis test): 모집단 분포 또는 모수에 대한 가설을 세우고, 표본자료를 이용하여 옳고 그름을 판단
  • 통계적 추론의 필요성 및 활용

    • 의사결정
    • 시스템의 해석
    • 미래에 대한 예측

통계적 추론의 예시

  • 점추정과 구간추정: 우리나라 성인여성들의 평균 신장(모평균, \(\mu\))에 대한 추정

    1. 점추정: 모평균을 160cm로 추정
    2. 구간추정: 모평균이 155cm와 165cm 사이에 있다고 추정
  • 가설검정:

    1. 귀무가설: 우리나라 성인여성들의 평균 신장은 160보다 크다.
    2. 대립가설: 우리나라 성인여성들의 평균 신장은 160보다 크지 않다.

통계량과 추정량

  • 표본 (random sample): \(X_1, X_2, \ldots, X_n\)

  • 표본자료 (표본의 관측치): \(x_1, x_2, \ldots, x_n\)

  • 통계량 (statistic): 표본들의 함수 (확률변수)

    \[ T(X_1, X_2, \ldots, X_n) \]

  • 추정량 (estimator): 모수(\(\theta\))에 대한 추정을 위해 사용되는 통계량 (\(\hat\theta\))

    • (예) 모평균(population mean)의 추정량 = 표본평균(sample mean) \[ \hat\theta = T(X_1, X_2, \ldots, X_n) = \frac{1}{n}\sum_{i=1}^n X_i \]
  • 추정값 (estimate): 표본들이 관측되었을 때, 관측값들을 추정량에 대입한 값

    • (예) 모평균의 추정값 \[ \bar x = \frac{1}{n}\sum_{i=1}^n x_i \]

예제

서울 시민들이 휴일에 TV를 시청하는 시간을 알아보기 위하여 500가구를 임의 추출하여 조사하였다.

  • 모수 (\(\mu\)): 서울 시민들이 휴일에 TV를 시청하는 평균 시간

  • 표본 : \(X_1, ... , X_{500}\)

  • 통계량

    1. 표본평균(\(\bar x\)) = 7.5
    2. 표본표준편차(\(z\)) = 6.3
  • \(\mu\)의 추정치

    \[ \hat \mu = \bar x = 7.5 \]

  • 구간추정 : \((L, U)\)

    \[ P( L \le \mu \le U) < 1-\alpha \]

추정량의 바람직한 성질

불편성 (unbiasedness)

  • 추정량의 기대값이 추정 대상인 모수와 같아지는 성질 \[ E(\hat \theta) = \theta. \]

  • 위의 \(\hat \theta\)\(\theta\)의 불편추정량(unbiased estimator)이라고 부름

  • 편의추정량(biased estimator)은 불편성을 충족하지 않는 추정량

\[ E(\hat \theta) \ne \theta. \]

  • (예) 임의의 모집단으로부터 추출한 표본의 표본평균은 모평균의 불편추정량이다.

\[\begin{eqnarray*} E(\bar X) &=& \frac{1}{n} E(X_1 + X_2 + ... + X_n)\\ &=& \frac{1}{n} [E(X_1) + E(X_2) + ... + E(X_n)]\\ &=& \frac{1}{n} [\mu + \mu + ... + \mu]\\ &=& \mu \end{eqnarray*}\]

유효성 (efficiency)

  • 추정량이 모수와 얼마나 더 가까운지(추정량의 분산으로 측정)를 나타내는 성질: 아래 그림에서 \(\hat\theta_1\)\(\hat\theta_2\)에 비해 모수(\(\theta\))에 더 가깝다.

  • 모수 \(\theta\)에 대한 두 추정량 \(\hat \theta_1\), \(\hat \theta_2\) 에 대하여, 아래의 성질을 만족하면 \(\hat \theta_1\)\(\hat \theta_2\)에 비해 더 유효(efficient)하다고 말함

    \[ Var(\hat \theta_1) \le Var(\hat \theta_2). \]

  • 추정량의 분산 대신 표준오차(standard error)를 이용하기도 함

    \[ \sqrt{Var(\hat \theta_1)} = SE(\hat \theta_1) \le SE(\hat \theta_2) = \sqrt{Var(\hat \theta_2)}. \]

  • 최소분산불편추정량(minimum variance unbiased estimator) 또는 최량유효추정량(the most efficient estimator)

    • 모든 불편추정량 중에서 분산이 가장 작은 추정량

    \[ E(\hat \theta^*) = \theta, Var(\hat \theta^*) \le Var(\hat \theta_i), \text{for all } E(\hat \theta_i) = \theta. \]

일치성 (consistency)

  • 표본의 수가 커질 때, 추정량이 모수값으로 확률 수렴(convergence in probability)하는 성질

    \[ \lim_{n\to \infty}P( |\hat\theta_n - \theta| < \epsilon ) = 1, \text{ for any small } \epsilon. \]

  • 충분성(sufficiency): 자료가 주어진 경우, 추정량만으로 모수에 대한 모든 정보를 유추하기에 충분한 경우

점추정

  • 랜덤표본 \[ X_1, X_2, \ldots, X_n \sim P(\mu, \sigma^2). \]
  1. 모평균의 추정 (\(\hat \mu\))
  2. 모비율의 추정 (\(\hat p\))
  3. 모분산의 추정 (\(\hat \sigma^2\))

모평균의 추정 (\(\hat \mu\))

  • 모평균 추정량

    \[ \hat\mu = \bar X = \frac{1}{n}\sum_{i=1}^n X_i. \]

  • 모평균추정량의 기대값 (불편추정량)

    \[ E(\hat\mu) = E\left( \frac{1}{n}\sum_{i=1}^n X_i \right) = \mu. \]

  • 모평균추정량의 분산 / 표준오차

    \[ V(\hat\mu) = V\left( \frac{1}{n}\sum_{i=1}^n X_i \right) = \frac{\sigma^2}{n}. \] \[ SE(\hat\mu) = \frac{\sigma}{\sqrt{n}}. \]

  • 표준오차의 의미: 정규모집단에서의 랜덤표본인 경우, 또는 표본의 크기 \(n\)이 큰 경우 (중심극한정리에 의해)

    \[ P(|\bar X - \mu| < SE(\hat\mu)) = P\left(|\bar X - \mu| < \frac{\sigma}{\sqrt{n}}\right) = 0.683. \]

    \[ P\left(|\bar X - \mu| < 1.96\frac{\sigma}{\sqrt{n}}\right) = 0.95. \]

예제

  1. KDC 표본 데이터

    library(readxl) # library(dplyr) # file <- "../../data/2011신입생설문조사/rawdata.xls" # df.one <- read_excel(file) KDC_DATA <- read_excel("data/KDC 초급자용 교육용 DATASET_EXCEL.xls", na = "999") x = subset(KDC_DATA, select = c("SEX","AGE", "FINALDIAGNOSIS","HEIGHT", "WEIGHT")) #1=태음인;2=소음인;3=소양인;4=태양인 x$SEX = factor(x$SEX, levels=1:2, labels = c("남","여")) x$FINALDIAGNOSIS_2 = factor(x$FINALDIAGNOSIS, levels=1:3, labels = c("태음인","소음인","소양인")) dim(x)

    ## [1] 500 6## # A tibble: 6 x 6 ## SEX AGE FINALDIAGNOSIS HEIGHT WEIGHT FINALDIAGNOSIS_2 ## <fct> <dbl> <dbl> <dbl> <dbl> <fct> ## 1 여 48.7 2 158 55 소음인 ## 2 여 80.8 3 155 63 소양인 ## 3 남 50.0 2 160 59 소음인 ## 4 여 50.6 2 165 76 소음인 ## 5 남 49.6 1 165 70 태음인 ## 6 남 70.4 3 170 70 소양인

    #ftable(FINALDIAGNOSIS~FINALDIAGNOSIS_2, data=x)

  2. 표본평균(키)

    ## [1] 160.97

    mean(x$HEIGHT[x$SEX == "남"], na.rm=T) # remove missing observations

    ## [1] 168.7854

    mean(x$HEIGHT[x$SEX == "여"], na.rm=T) # remove missing observations

    ## [1] 157.1554

    boxplot(HEIGHT~SEX, data=x)

  3. 표준편차 /표준오차

    sd(x$HEIGHT, na.rm=T) # remove missing observations

    ## [1] 7.97925

    sd(x$HEIGHT, na.rm=T)/sqrt(length(x$HEIGHT)) # standard error

    ## [1] 0.3568429

모평균의 구간추정

  • 신뢰구간 (confidence interval): 모수가 포함되도록 추정치를 이용하여 구성한 구간 중에서 간격이 가장 작은 구간

  • 신뢰수준 (confidence level): 신뢰구간을 구할 때, 먼저 신뢰구간에 모수가 포함될 확률을 지정하는데 이 확률을 신뢰수준 이라고 함

  • 신뢰수준을 \(1-\alpha\)라고 하면, 신뢰구간은 (\(L(X_1, ..., X_n), U(X_1, ..., X_n)\))로 주어지며, 아래를 만족하는 구간 중 폭이 가장 작은 구간임

    \[ P[L(X_1, ..., X_n) < \mu < U(X_1, ..., X_n)] = 1-\alpha. \]

    • \(L(X_1, ..., X_n)\)를 신뢰하한,
    • \(U(X_1, ..., X_n)\)를 신뢰상한
  • 모평균의 구간추정의 해석

    • 정해진 모집단으로 부터 표본자료를 여러 번 반복 측정하여 구한 신뢰구간들 중에 95%는 모수를 포함

모평균의 구간추정: 모집단 표준편차(\(\sigma\))을 아는 경우

  • 모평균의 \(100(1-\alpha)\) % 신뢰구간:

    \[ (L, U) = \left( \bar X - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, ~\bar X + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right) \]

  • 위에서 \(z_{\alpha/2}\)는 표분정규분포에서 \(P(Z > z_{\alpha/2}) = \alpha/2\)가 되는 \(x\)-축 값

  • 신뢰수준에 따른 모평균의 구간추정

    신뢰수준\(\alpha\)\(z_{\alpha/2}\)신뢰하한 (\(L\))신뢰상한 (\(U\))
    90% 0.10 1.645 \(\bar X - 1.645 \frac{\sigma}{\sqrt{n}}\) \(\bar X + 1.645 \frac{\sigma}{\sqrt{n}}\)
    95% 0.05 1.96 \(\bar X - 1.96 \frac{\sigma}{\sqrt{n}}\) \(\bar X + 1.96 \frac{\sigma}{\sqrt{n}}\)
    99% 0.01 2.576 \(\bar X - 2.576 \frac{\sigma}{\sqrt{n}}\) \(\bar X + 2.576 \frac{\sigma}{\sqrt{n}}\)

모평균의 구간추정: 모집단 표준편차(\(\sigma\))을 모르는 경우

  • 표본을 이용 모집단 표준편차(\(\sigma\))를 추정

    \[ \hat \sigma = S = \sqrt{\frac{\sum_{i=1}^n(X_i-\bar X)^2}{n-1}} \]

  • 표본자료의 수가 많은 경우 (대표본)

    \[ (L, U) = \left( \bar X - z_{\alpha/2} \frac{S}{\sqrt{n}}, ~\bar X + z_{\alpha/2} \frac{S}{\sqrt{n}} \right) \]

  • 예제: \(n=20\)이면 표본의 수가 충분히 크다? yes.

    # sample mean m = mean(x$HEIGHT, na.rm=T) # remove missing observations # 표준편차 /표준오차 se = sd(x$HEIGHT, na.rm=T)/sqrt(length(x$HEIGHT)) # z_{\alpha/2} z_alpha = qnorm(0.975); z_alpha

    ## [1] 1.959964

    # 95% 신뢰구간 c(m-z_alpha*se, m+z_alpha*se)

    ## [1] 160.2706 161.6694
  • 예제: 표본자료의 수가 적은 경우(소표본)

    \[ (L, U) = \left( \bar X - t_{\alpha/2} \frac{S}{\sqrt{n}}, \bar X + t_{\alpha/2} \frac{S}{\sqrt{n}} \right). \]

    • 분포의 형태 (t분포의 확률밀도함수)

    \[ \frac{\bar X - \mu}{S / \sqrt{n}} \sim t(n-1). \]

예제(소표본)

20대 여성 중 소양인의 키에 대한 95% 신뢰구간을 구하시오. 20대 여성 중 소양인의 키는 정규분포를 따른다고 가정한다.

  • 자유도가 12인 t분포

    \[ \frac{\bar X - \mu}{S/\sqrt{13}} \sim t(12) \]

  • \(t_{0.025}(12) = 2.178813\)

  • R code

    x1 = subset(x, SEX == "여" & FINALDIAGNOSIS_2 == "소양인" & AGE < 30 & AGE >= 20) HEIGHT = x1$HEIGHT m <- mean(HEIGHT); m #표본평균

    ## [1] 158.9231

    se <- sd(HEIGHT)/sqrt(length(HEIGHT)); se # 표준오차

    ## [1] 1.581753

    t_alpha = qt(0.975, df=12); t_alpha # t_{\alpha/2}

    ## [1] 2.178813

    c(m-t_alpha*se, m+t_alpha*se) #95% 신뢰구간

    ## [1] 155.4767 162.3694

모비율의 추정

  1. 표본 \[ X_1, \ldots, X_n \in \{0, 1\}. \]
  2. 점추정 \[ \hat p = \bar X = \frac{1}{n} (X_1 + \ldots + X_n) \]
  3. 표준오차 \[ SE(\hat p) = \sqrt{\hat p (1-\hat p )/n} \]
  4. 구간추정 \[ \left( \hat p - z_{\alpha/2} \sqrt{\hat p (1-\hat p )/n}, ~\hat p + z_{\alpha/2} \sqrt{\hat p (1-\hat p )/n} \right) \]

R 예제

한방검진을 받은 사람들 중 500명을 임의로 추출하여 체질(사상)을 조사하였더니 소양인이 175명으로 나타났다. 전체 환자들 중 소양인의 비율을 추정하고, 95% 신뢰구간을 구하시오

  1. 점추정 \[ \hat p = \bar X = \frac{175}{500} = 0.35 \]
  2. 표준오차 \[ SE(\hat p) = \sqrt{\hat p (1-\hat p )/n} = \sqrt{0.35 (1-0.35 )/500} = 0.02133073 \]
  3. 구간추정 \[ \hat p \pm z_{\alpha/2} \sqrt{\hat p (1-\hat p )/n} = 0.35 \pm 1.96\times 0.02133073 = (0.3081918, ~0.3918082) \]
  • R code

    n = 500; A = 175 p = A/n; p # hat p

    ## [1] 0.35

    se_p = sqrt(p*(1-p)/n); se_p # se(hat p)

    ## [1] 0.02133073

    z_alpha = qnorm(0.975); z_alpha

    ## [1] 1.959964

    c(p - z_alpha*se_p, p + z_alpha*se_p) # 95%-CI

    ## [1] 0.3081925 0.3918075

R 연습

KDC 표본자료를 이용하여 남성의 비율과 신뢰구간을 추정하라.

Toplist

최신 우편물

태그