모수 : 모집단에는 모평균, 모분산, 모비율, 모상관계수 등과 같이 모집단의 특성을 나타내는 수치값
통계적 추론 : 모집단의 미지인 모수 값을 표본 정보를 이용하여 알아내는 과정
- 추정(estimation)
- 점추정(point estimation) : 모수의 대한 추정값으로 표본자료를 이용하여 하나의 값으로 추정
- 구간추정(interval estimation): 모수가 포함되리라고 기대하는 범위 (구간)을 추정
- 가설검정(hypothesis test): 모집단 분포 또는 모수에 대한 가설을 세우고, 표본자료를 이용하여 옳고 그름을 판단
- 추정(estimation)
통계적 추론의 필요성 및 활용
- 의사결정
- 시스템의 해석
- 미래에 대한 예측
통계적 추론의 예시
점추정과 구간추정: 우리나라 성인여성들의 평균 신장(모평균, \(\mu\))에 대한 추정
- 점추정: 모평균을 160cm로 추정
- 구간추정: 모평균이 155cm와 165cm 사이에 있다고 추정
가설검정:
- 귀무가설: 우리나라 성인여성들의 평균 신장은 160보다 크다.
- 대립가설: 우리나라 성인여성들의 평균 신장은 160보다 크지 않다.
통계량과 추정량
표본 (random sample): \(X_1, X_2, \ldots, X_n\)
표본자료 (표본의 관측치): \(x_1, x_2, \ldots, x_n\)
통계량 (statistic): 표본들의 함수 (확률변수)
\[ T(X_1, X_2, \ldots, X_n) \]
추정량 (estimator): 모수(\(\theta\))에 대한 추정을 위해 사용되는 통계량 (\(\hat\theta\))
- (예) 모평균(population mean)의 추정량 = 표본평균(sample mean) \[ \hat\theta = T(X_1, X_2, \ldots, X_n) = \frac{1}{n}\sum_{i=1}^n X_i \]
-
추정값 (estimate): 표본들이 관측되었을 때, 관측값들을 추정량에 대입한 값
- (예) 모평균의 추정값 \[ \bar x = \frac{1}{n}\sum_{i=1}^n x_i \]
예제
서울 시민들이 휴일에 TV를 시청하는 시간을 알아보기 위하여 500가구를 임의 추출하여 조사하였다.
모수 (\(\mu\)): 서울 시민들이 휴일에 TV를 시청하는 평균 시간
표본 : \(X_1, ... , X_{500}\)
통계량
- 표본평균(\(\bar x\)) = 7.5
- 표본표준편차(\(z\)) = 6.3
\(\mu\)의 추정치
\[ \hat \mu = \bar x = 7.5 \]
구간추정 : \((L, U)\)
\[ P( L \le \mu \le U) < 1-\alpha \]
추정량의 바람직한 성질
불편성 (unbiasedness)
추정량의 기대값이 추정 대상인 모수와 같아지는 성질 \[ E(\hat \theta) = \theta. \]
위의 \(\hat \theta\)를 \(\theta\)의 불편추정량(unbiased estimator)이라고 부름
편의추정량(biased estimator)은 불편성을 충족하지 않는 추정량
\[ E(\hat \theta) \ne \theta. \]
- (예) 임의의 모집단으로부터 추출한 표본의 표본평균은 모평균의 불편추정량이다.
\[\begin{eqnarray*} E(\bar X) &=& \frac{1}{n} E(X_1 + X_2 + ... + X_n)\\ &=& \frac{1}{n} [E(X_1) + E(X_2) + ... + E(X_n)]\\ &=& \frac{1}{n} [\mu + \mu + ... + \mu]\\ &=& \mu \end{eqnarray*}\]
유효성 (efficiency)
추정량이 모수와 얼마나 더 가까운지(추정량의 분산으로 측정)를 나타내는 성질: 아래 그림에서 \(\hat\theta_1\)이 \(\hat\theta_2\)에 비해 모수(\(\theta\))에 더 가깝다.
모수 \(\theta\)에 대한 두 추정량 \(\hat \theta_1\), \(\hat \theta_2\) 에 대하여, 아래의 성질을 만족하면 \(\hat \theta_1\)가 \(\hat \theta_2\)에 비해 더 유효(efficient)하다고 말함
\[ Var(\hat \theta_1) \le Var(\hat \theta_2). \]
추정량의 분산 대신 표준오차(standard error)를 이용하기도 함
\[ \sqrt{Var(\hat \theta_1)} = SE(\hat \theta_1) \le SE(\hat \theta_2) = \sqrt{Var(\hat \theta_2)}. \]
최소분산불편추정량(minimum variance unbiased estimator) 또는 최량유효추정량(the most efficient estimator)
- 모든 불편추정량 중에서 분산이 가장 작은 추정량
\[ E(\hat \theta^*) = \theta, Var(\hat \theta^*) \le Var(\hat \theta_i), \text{for all } E(\hat \theta_i) = \theta. \]
일치성 (consistency)
표본의 수가 커질 때, 추정량이 모수값으로 확률 수렴(convergence in probability)하는 성질
\[ \lim_{n\to \infty}P( |\hat\theta_n - \theta| < \epsilon ) = 1, \text{ for any small } \epsilon. \]
충분성(sufficiency): 자료가 주어진 경우, 추정량만으로 모수에 대한 모든 정보를 유추하기에 충분한 경우
점추정
- 랜덤표본 \[ X_1, X_2, \ldots, X_n \sim P(\mu, \sigma^2). \]
- 모평균의 추정 (\(\hat \mu\))
- 모비율의 추정 (\(\hat p\))
- 모분산의 추정 (\(\hat \sigma^2\))
모평균의 추정 (\(\hat \mu\))
모평균 추정량
\[ \hat\mu = \bar X = \frac{1}{n}\sum_{i=1}^n X_i. \]
모평균추정량의 기대값 (불편추정량)
\[ E(\hat\mu) = E\left( \frac{1}{n}\sum_{i=1}^n X_i \right) = \mu. \]
모평균추정량의 분산 / 표준오차
\[ V(\hat\mu) = V\left( \frac{1}{n}\sum_{i=1}^n X_i \right) = \frac{\sigma^2}{n}. \] \[ SE(\hat\mu) = \frac{\sigma}{\sqrt{n}}. \]
표준오차의 의미: 정규모집단에서의 랜덤표본인 경우, 또는 표본의 크기 \(n\)이 큰 경우 (중심극한정리에 의해)
\[ P(|\bar X - \mu| < SE(\hat\mu)) = P\left(|\bar X - \mu| < \frac{\sigma}{\sqrt{n}}\right) = 0.683. \]
\[ P\left(|\bar X - \mu| < 1.96\frac{\sigma}{\sqrt{n}}\right) = 0.95. \]
예제
KDC 표본 데이터
library(readxl) # library(dplyr) # file <- "../../data/2011신입생설문조사/rawdata.xls" # df.one <- read_excel(file) KDC_DATA <- read_excel("data/KDC 초급자용 교육용 DATASET_EXCEL.xls", na = "999") x = subset(KDC_DATA, select = c("SEX","AGE", "FINALDIAGNOSIS","HEIGHT", "WEIGHT")) #1=태음인;2=소음인;3=소양인;4=태양인 x$SEX = factor(x$SEX, levels=1:2, labels = c("남","여")) x$FINALDIAGNOSIS_2 = factor(x$FINALDIAGNOSIS, levels=1:3, labels = c("태음인","소음인","소양인")) dim(x)
## [1] 500 6## # A tibble: 6 x 6 ## SEX AGE FINALDIAGNOSIS HEIGHT WEIGHT FINALDIAGNOSIS_2 ## <fct> <dbl> <dbl> <dbl> <dbl> <fct> ## 1 여 48.7 2 158 55 소음인 ## 2 여 80.8 3 155 63 소양인 ## 3 남 50.0 2 160 59 소음인 ## 4 여 50.6 2 165 76 소음인 ## 5 남 49.6 1 165 70 태음인 ## 6 남 70.4 3 170 70 소양인#ftable(FINALDIAGNOSIS~FINALDIAGNOSIS_2, data=x)
표본평균(키)
## [1] 160.97mean(x$HEIGHT[x$SEX == "남"], na.rm=T) # remove missing observations
## [1] 168.7854mean(x$HEIGHT[x$SEX == "여"], na.rm=T) # remove missing observations
## [1] 157.1554boxplot(HEIGHT~SEX, data=x)
표준편차 /표준오차
sd(x$HEIGHT, na.rm=T) # remove missing observations
## [1] 7.97925sd(x$HEIGHT, na.rm=T)/sqrt(length(x$HEIGHT)) # standard error
## [1] 0.3568429
모평균의 구간추정
신뢰구간 (confidence interval): 모수가 포함되도록 추정치를 이용하여 구성한 구간 중에서 간격이 가장 작은 구간
신뢰수준 (confidence level): 신뢰구간을 구할 때, 먼저 신뢰구간에 모수가 포함될 확률을 지정하는데 이 확률을 신뢰수준 이라고 함
신뢰수준을 \(1-\alpha\)라고 하면, 신뢰구간은 (\(L(X_1, ..., X_n), U(X_1, ..., X_n)\))로 주어지며, 아래를 만족하는 구간 중 폭이 가장 작은 구간임
\[ P[L(X_1, ..., X_n) < \mu < U(X_1, ..., X_n)] = 1-\alpha. \]
- \(L(X_1, ..., X_n)\)를 신뢰하한,
- \(U(X_1, ..., X_n)\)를 신뢰상한
모평균의 구간추정의 해석
- 정해진 모집단으로 부터 표본자료를 여러 번 반복 측정하여 구한 신뢰구간들 중에 95%는 모수를 포함
모평균의 구간추정: 모집단 표준편차(\(\sigma\))을 아는 경우
모평균의 \(100(1-\alpha)\) % 신뢰구간:
\[ (L, U) = \left( \bar X - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, ~\bar X + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right) \]
위에서 \(z_{\alpha/2}\)는 표분정규분포에서 \(P(Z > z_{\alpha/2}) = \alpha/2\)가 되는 \(x\)-축 값
신뢰수준에 따른 모평균의 구간추정
신뢰수준\(\alpha\)\(z_{\alpha/2}\)신뢰하한 (\(L\))신뢰상한 (\(U\)) 90% 0.10 1.645 \(\bar X - 1.645 \frac{\sigma}{\sqrt{n}}\) \(\bar X + 1.645 \frac{\sigma}{\sqrt{n}}\) 95% 0.05 1.96 \(\bar X - 1.96 \frac{\sigma}{\sqrt{n}}\) \(\bar X + 1.96 \frac{\sigma}{\sqrt{n}}\) 99% 0.01 2.576 \(\bar X - 2.576 \frac{\sigma}{\sqrt{n}}\) \(\bar X + 2.576 \frac{\sigma}{\sqrt{n}}\)
모평균의 구간추정: 모집단 표준편차(\(\sigma\))을 모르는 경우
표본을 이용 모집단 표준편차(\(\sigma\))를 추정
\[ \hat \sigma = S = \sqrt{\frac{\sum_{i=1}^n(X_i-\bar X)^2}{n-1}} \]
표본자료의 수가 많은 경우 (대표본)
\[ (L, U) = \left( \bar X - z_{\alpha/2} \frac{S}{\sqrt{n}}, ~\bar X + z_{\alpha/2} \frac{S}{\sqrt{n}} \right) \]
예제: \(n=20\)이면 표본의 수가 충분히 크다? yes.
# sample mean m = mean(x$HEIGHT, na.rm=T) # remove missing observations # 표준편차 /표준오차 se = sd(x$HEIGHT, na.rm=T)/sqrt(length(x$HEIGHT)) # z_{\alpha/2} z_alpha = qnorm(0.975); z_alpha
# 95% 신뢰구간 c(m-z_alpha*se, m+z_alpha*se)
## [1] 160.2706 161.6694예제: 표본자료의 수가 적은 경우(소표본)
\[ (L, U) = \left( \bar X - t_{\alpha/2} \frac{S}{\sqrt{n}}, \bar X + t_{\alpha/2} \frac{S}{\sqrt{n}} \right). \]
- 분포의 형태 (t분포의 확률밀도함수)
\[ \frac{\bar X - \mu}{S / \sqrt{n}} \sim t(n-1). \]
예제(소표본)
20대 여성 중 소양인의 키에 대한 95% 신뢰구간을 구하시오. 20대 여성 중 소양인의 키는 정규분포를 따른다고 가정한다.
자유도가 12인 t분포
\[ \frac{\bar X - \mu}{S/\sqrt{13}} \sim t(12) \]
\(t_{0.025}(12) = 2.178813\)
R code
x1 = subset(x, SEX == "여" & FINALDIAGNOSIS_2 == "소양인" & AGE < 30 & AGE >= 20) HEIGHT = x1$HEIGHT m <- mean(HEIGHT); m #표본평균
## [1] 158.9231se <- sd(HEIGHT)/sqrt(length(HEIGHT)); se # 표준오차
## [1] 1.581753t_alpha = qt(0.975, df=12); t_alpha # t_{\alpha/2}
## [1] 2.178813c(m-t_alpha*se, m+t_alpha*se) #95% 신뢰구간
## [1] 155.4767 162.3694
모비율의 추정
- 표본 \[ X_1, \ldots, X_n \in \{0, 1\}. \]
- 점추정 \[ \hat p = \bar X = \frac{1}{n} (X_1 + \ldots + X_n) \]
- 표준오차 \[ SE(\hat p) = \sqrt{\hat p (1-\hat p )/n} \]
- 구간추정 \[ \left( \hat p - z_{\alpha/2} \sqrt{\hat p (1-\hat p )/n}, ~\hat p + z_{\alpha/2} \sqrt{\hat p (1-\hat p )/n} \right) \]
R 예제
한방검진을 받은 사람들 중 500명을 임의로 추출하여 체질(사상)을 조사하였더니 소양인이 175명으로 나타났다. 전체 환자들 중 소양인의 비율을 추정하고, 95% 신뢰구간을 구하시오
- 점추정 \[ \hat p = \bar X = \frac{175}{500} = 0.35 \]
- 표준오차 \[ SE(\hat p) = \sqrt{\hat p (1-\hat p )/n} = \sqrt{0.35 (1-0.35 )/500} = 0.02133073 \]
- 구간추정 \[ \hat p \pm z_{\alpha/2} \sqrt{\hat p (1-\hat p )/n} = 0.35 \pm 1.96\times 0.02133073 = (0.3081918, ~0.3918082) \]
R code
n = 500; A = 175 p = A/n; p # hat p
## [1] 0.35se_p = sqrt(p*(1-p)/n); se_p # se(hat p)
## [1] 0.02133073z_alpha = qnorm(0.975); z_alpha
## [1] 1.959964c(p - z_alpha*se_p, p + z_alpha*se_p) # 95%-CI
## [1] 0.3081925 0.3918075
R 연습
KDC 표본자료를 이용하여 남성의 비율과 신뢰구간을 추정하라.