비율에 대한 신뢰구간 추정 ac mid p 방법 비교 방법

비율에 대한 신뢰구간 추정 ac mid p 방법 비교

모수 : 모집단에는 모평균, 모분산, 모비율, 모상관계수 등과 같이 모집단의 특성을 나타내는 수치값
통계적 추론 : 모집단의 미지인 모수 값을 표본 정보를 이용하여 알아내는 과정
- 추정(estimation)
  1. 점추정(point estimation) : 모수의 대한 추정값으로 표본자료를 이용하여 하나의 값으로 추정
  2. 구간추정(interval estimation): 모수가 포함되리라고 기대하는 범위 (구간)을 추정
- 가설검정(hypothesis test): 모집단 분포 또는 모수에 대한 가설을 세우고, 표본자료를 이용하여 옳고 그름을 판단
통계적 추론의 필요성 및 활용
- 의사결정
- 시스템의 해석
- 미래에 대한 예측

통계적 추론의 예시

점추정과 구간추정: 우리나라 성인여성들의 평균 신장(모평균, $\mu$)에 대한 추정
1. 점추정: 모평균을 160cm로 추정
2. 구간추정: 모평균이 155cm와 165cm 사이에 있다고 추정
가설검정:
1. 귀무가설: 우리나라 성인여성들의 평균 신장은 160보다 크다.
2. 대립가설: 우리나라 성인여성들의 평균 신장은 160보다 크지 않다.

통계량과 추정량

표본 (random sample): $X_1, X_2, \ldots, X_n$
표본자료 (표본의 관측치): $x_1, x_2, \ldots, x_n$
통계량 (statistic): 표본들의 함수 (확률변수)
\[ T(X_1, X_2, \ldots, X_n) \]
추정량 (estimator): 모수($\theta$)에 대한 추정을 위해 사용되는 통계량 ($\hat\theta$)
- (예) 모평균(population mean)의 추정량 = 표본평균(sample mean) \[ \hat\theta = T(X_1, X_2, \ldots, X_n) = \frac{1}{n}\sum_{i=1}^n X_i \]
추정값 (estimate): 표본들이 관측되었을 때, 관측값들을 추정량에 대입한 값
- (예) 모평균의 추정값 \[ \bar x = \frac{1}{n}\sum_{i=1}^n x_i \]

예제

서울 시민들이 휴일에 TV를 시청하는 시간을 알아보기 위하여 500가구를 임의 추출하여 조사하였다.

모수 ($\mu$): 서울 시민들이 휴일에 TV를 시청하는 평균 시간
표본 : $X_1, ... , X_{500}$
통계량
1. 표본평균($\bar x$) = 7.5
2. 표본표준편차($z$) = 6.3
$\mu$의 추정치
\[ \hat \mu = \bar x = 7.5 \]
구간추정 : $(L, U)$
\[ P( L \le \mu \le U) < 1-\alpha \]

추정량의 바람직한 성질

불편성 (unbiasedness)

추정량의 기대값이 추정 대상인 모수와 같아지는 성질 \[ E(\hat \theta) = \theta. \]
위의 $\hat \theta$를 $\theta$의 불편추정량(unbiased estimator)이라고 부름
편의추정량(biased estimator)은 불편성을 충족하지 않는 추정량

\[ E(\hat \theta) \ne \theta. \]

(예) 임의의 모집단으로부터 추출한 표본의 표본평균은 모평균의 불편추정량이다.

\[\begin{eqnarray*} E(\bar X) &=& \frac{1}{n} E(X_1 + X_2 + ... + X_n)\\ &=& \frac{1}{n} [E(X_1) + E(X_2) + ... + E(X_n)]\\ &=& \frac{1}{n} [\mu + \mu + ... + \mu]\\ &=& \mu \end{eqnarray*}\]

유효성 (efficiency)

추정량이 모수와 얼마나 더 가까운지(추정량의 분산으로 측정)를 나타내는 성질: 아래 그림에서 $\hat\theta_1$이 $\hat\theta_2$에 비해 모수($\theta$)에 더 가깝다.
모수 $\theta$에 대한 두 추정량 $\hat \theta_1$, $\hat \theta_2$ 에 대하여, 아래의 성질을 만족하면 $\hat \theta_1$가 $\hat \theta_2$에 비해 더 유효(efficient)하다고 말함
\[ Var(\hat \theta_1) \le Var(\hat \theta_2). \]
추정량의 분산 대신 표준오차(standard error)를 이용하기도 함
\[ \sqrt{Var(\hat \theta_1)} = SE(\hat \theta_1) \le SE(\hat \theta_2) = \sqrt{Var(\hat \theta_2)}. \]
최소분산불편추정량(minimum variance unbiased estimator) 또는 최량유효추정량(the most efficient estimator)
- 모든 불편추정량 중에서 분산이 가장 작은 추정량
\[ E(\hat \theta^*) = \theta, Var(\hat \theta^*) \le Var(\hat \theta_i), \text{for all } E(\hat \theta_i) = \theta. \]

일치성 (consistency)

표본의 수가 커질 때, 추정량이 모수값으로 확률 수렴(convergence in probability)하는 성질
\[ \lim_{n\to \infty}P( |\hat\theta_n - \theta| < \epsilon ) = 1, \text{ for any small } \epsilon. \]
충분성(sufficiency): 자료가 주어진 경우, 추정량만으로 모수에 대한 모든 정보를 유추하기에 충분한 경우

점추정

랜덤표본 \[ X_1, X_2, \ldots, X_n \sim P(\mu, \sigma^2). \]

모평균의 추정 ($\hat \mu$)
모비율의 추정 ($\hat p$)
모분산의 추정 ($\hat \sigma^2$)

모평균의 추정 ($\hat \mu$)

모평균 추정량
\[ \hat\mu = \bar X = \frac{1}{n}\sum_{i=1}^n X_i. \]
모평균추정량의 기대값 (불편추정량)
\[ E(\hat\mu) = E\left( \frac{1}{n}\sum_{i=1}^n X_i \right) = \mu. \]
모평균추정량의 분산 / 표준오차
\[ V(\hat\mu) = V\left( \frac{1}{n}\sum_{i=1}^n X_i \right) = \frac{\sigma^2}{n}. \] \[ SE(\hat\mu) = \frac{\sigma}{\sqrt{n}}. \]
표준오차의 의미: 정규모집단에서의 랜덤표본인 경우, 또는 표본의 크기 $n$이 큰 경우 (중심극한정리에 의해)
\[ P(|\bar X - \mu| < SE(\hat\mu)) = P\left(|\bar X - \mu| < \frac{\sigma}{\sqrt{n}}\right) = 0.683. \]
\[ P\left(|\bar X - \mu| < 1.96\frac{\sigma}{\sqrt{n}}\right) = 0.95. \]

예제

KDC 표본 데이터
library(readxl) # library(dplyr) # file <- "../../data/2011신입생설문조사/rawdata.xls" # df.one <- read_excel(file) KDC_DATA <- read_excel("data/KDC 초급자용 교육용 DATASET_EXCEL.xls", na = "999") x = subset(KDC_DATA, select = c("SEX","AGE", "FINALDIAGNOSIS","HEIGHT", "WEIGHT")) #1=태음인;2=소음인;3=소양인;4=태양인 x$SEX = factor(x$SEX, levels=1:2, labels = c("남","여")) x$FINALDIAGNOSIS_2 = factor(x$FINALDIAGNOSIS, levels=1:3, labels = c("태음인","소음인","소양인")) dim(x)
## [1] 500 6## # A tibble: 6 x 6 ## SEX AGE FINALDIAGNOSIS HEIGHT WEIGHT FINALDIAGNOSIS_2 ## <fct> <dbl> <dbl> <dbl> <dbl> <fct> ## 1 여 48.7 2 158 55 소음인 ## 2 여 80.8 3 155 63 소양인 ## 3 남 50.0 2 160 59 소음인 ## 4 여 50.6 2 165 76 소음인 ## 5 남 49.6 1 165 70 태음인 ## 6 남 70.4 3 170 70 소양인
#ftable(FINALDIAGNOSIS~FINALDIAGNOSIS_2, data=x)
표본평균(키)
## [1] 160.97
mean(x$HEIGHT[x$SEX == "남"], na.rm=T) # remove missing observations
## [1] 168.7854
mean(x$HEIGHT[x$SEX == "여"], na.rm=T) # remove missing observations
## [1] 157.1554
boxplot(HEIGHT~SEX, data=x)
표준편차 /표준오차
sd(x$HEIGHT, na.rm=T) # remove missing observations
## [1] 7.97925
sd(x$HEIGHT, na.rm=T)/sqrt(length(x$HEIGHT)) # standard error
## [1] 0.3568429

모평균의 구간추정

신뢰구간 (confidence interval): 모수가 포함되도록 추정치를 이용하여 구성한 구간 중에서 간격이 가장 작은 구간
신뢰수준 (confidence level): 신뢰구간을 구할 때, 먼저 신뢰구간에 모수가 포함될 확률을 지정하는데 이 확률을 신뢰수준 이라고 함
신뢰수준을 $1-\alpha$라고 하면, 신뢰구간은 ($L(X_1, ..., X_n), U(X_1, ..., X_n)$)로 주어지며, 아래를 만족하는 구간 중 폭이 가장 작은 구간임
\[ P[L(X_1, ..., X_n) < \mu < U(X_1, ..., X_n)] = 1-\alpha. \]
- $L(X_1, ..., X_n)$를 신뢰하한,
- $U(X_1, ..., X_n)$를 신뢰상한
모평균의 구간추정의 해석
- 정해진 모집단으로 부터 표본자료를 여러 번 반복 측정하여 구한 신뢰구간들 중에 95%는 모수를 포함

모평균의 구간추정: 모집단 표준편차($\sigma$)을 아는 경우

모평균의 $100(1-\alpha)$ % 신뢰구간:
\[ (L, U) = \left( \bar X - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, ~\bar X + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right) \]
위에서 $z_{\alpha/2}$는 표분정규분포에서 $P(Z > z_{\alpha/2}) = \alpha/2$가 되는 $x$-축 값

신뢰수준에 따른 모평균의 구간추정

신뢰수준$\alpha$$z_{\alpha/2}$신뢰하한 ($L$)신뢰상한 ($U$)

90%	0.10	1.645	$\bar X - 1.645 \frac{\sigma}{\sqrt{n}}$	$\bar X + 1.645 \frac{\sigma}{\sqrt{n}}$
95%	0.05	1.96	$\bar X - 1.96 \frac{\sigma}{\sqrt{n}}$	$\bar X + 1.96 \frac{\sigma}{\sqrt{n}}$
99%	0.01	2.576	$\bar X - 2.576 \frac{\sigma}{\sqrt{n}}$	$\bar X + 2.576 \frac{\sigma}{\sqrt{n}}$

모평균의 구간추정: 모집단 표준편차($\sigma$)을 모르는 경우

표본을 이용 모집단 표준편차($\sigma$)를 추정
\[ \hat \sigma = S = \sqrt{\frac{\sum_{i=1}^n(X_i-\bar X)^2}{n-1}} \]
표본자료의 수가 많은 경우 (대표본)
\[ (L, U) = \left( \bar X - z_{\alpha/2} \frac{S}{\sqrt{n}}, ~\bar X + z_{\alpha/2} \frac{S}{\sqrt{n}} \right) \]
예제: $n=20$이면 표본의 수가 충분히 크다? yes.
# sample mean m = mean(x$HEIGHT, na.rm=T) # remove missing observations # 표준편차 /표준오차 se = sd(x$HEIGHT, na.rm=T)/sqrt(length(x$HEIGHT)) # z_{\alpha/2} z_alpha = qnorm(0.975); z_alpha

## [1] 1.959964
# 95% 신뢰구간 c(m-z_alpha*se, m+z_alpha*se)
## [1] 160.2706 161.6694
예제: 표본자료의 수가 적은 경우(소표본)
\[ (L, U) = \left( \bar X - t_{\alpha/2} \frac{S}{\sqrt{n}}, \bar X + t_{\alpha/2} \frac{S}{\sqrt{n}} \right). \]
- 분포의 형태 (t분포의 확률밀도함수)
\[ \frac{\bar X - \mu}{S / \sqrt{n}} \sim t(n-1). \]

예제(소표본)

20대 여성 중 소양인의 키에 대한 95% 신뢰구간을 구하시오. 20대 여성 중 소양인의 키는 정규분포를 따른다고 가정한다.

자유도가 12인 t분포
\[ \frac{\bar X - \mu}{S/\sqrt{13}} \sim t(12) \]
$t_{0.025}(12) = 2.178813$
R code
x1 = subset(x, SEX == "여" & FINALDIAGNOSIS_2 == "소양인" & AGE < 30 & AGE >= 20) HEIGHT = x1$HEIGHT m <- mean(HEIGHT); m #표본평균
## [1] 158.9231
se <- sd(HEIGHT)/sqrt(length(HEIGHT)); se # 표준오차
## [1] 1.581753
t_alpha = qt(0.975, df=12); t_alpha # t_{\alpha/2}
## [1] 2.178813
c(m-t_alpha*se, m+t_alpha*se) #95% 신뢰구간
## [1] 155.4767 162.3694

모비율의 추정

표본 \[ X_1, \ldots, X_n \in \{0, 1\}. \]
점추정 \[ \hat p = \bar X = \frac{1}{n} (X_1 + \ldots + X_n) \]
표준오차 \[ SE(\hat p) = \sqrt{\hat p (1-\hat p )/n} \]
구간추정 \[ \left( \hat p - z_{\alpha/2} \sqrt{\hat p (1-\hat p )/n}, ~\hat p + z_{\alpha/2} \sqrt{\hat p (1-\hat p )/n} \right) \]

R 예제

한방검진을 받은 사람들 중 500명을 임의로 추출하여 체질(사상)을 조사하였더니 소양인이 175명으로 나타났다. 전체 환자들 중 소양인의 비율을 추정하고, 95% 신뢰구간을 구하시오

점추정 \[ \hat p = \bar X = \frac{175}{500} = 0.35 \]
표준오차 \[ SE(\hat p) = \sqrt{\hat p (1-\hat p )/n} = \sqrt{0.35 (1-0.35 )/500} = 0.02133073 \]
구간추정 \[ \hat p \pm z_{\alpha/2} \sqrt{\hat p (1-\hat p )/n} = 0.35 \pm 1.96\times 0.02133073 = (0.3081918, ~0.3918082) \]

R code
n = 500; A = 175 p = A/n; p # hat p
## [1] 0.35
se_p = sqrt(p*(1-p)/n); se_p # se(hat p)
## [1] 0.02133073
z_alpha = qnorm(0.975); z_alpha
## [1] 1.959964
c(p - z_alpha*se_p, p + z_alpha*se_p) # 95%-CI
## [1] 0.3081925 0.3918075

R 연습

KDC 표본자료를 이용하여 남성의 비율과 신뢰구간을 추정하라.

비율에 대한 신뢰구간 추정 ac mid p 방법 비교

통계적 추론의 예시

통계량과 추정량

예제

추정량의 바람직한 성질

불편성 (unbiasedness)

유효성 (efficiency)

일치성 (consistency)

점추정

모평균의 추정 (\(\hat \mu\))

예제

모평균의 구간추정

모평균의 구간추정: 모집단 표준편차(\(\sigma\))을 아는 경우

모평균의 구간추정: 모집단 표준편차(\(\sigma\))을 모르는 경우

예제(소표본)

모비율의 추정

R 예제

R 연습

관련 게시물

의사 에게 살해 당하지 않는 47 가지 방법

상장 주식 장외 거래 방법

Ps vita 3.71 커펌 방법

윈도우7 컨트롤러 입력 확인 방법

아이 패드 1 탈옥 방법

논문 조사 방법

Oracle 12c shrink table 방법

피파 온라인 2022 조정 방법

멸망한 세계에서 살아남는 세가지 방법 31

Lg 시스템 에어컨 청소 방법

Toplist

최신 우편물

태그

90%	0.10	1.645	\(\bar X - 1.645 \frac{\sigma}{\sqrt{n}}\)	\(\bar X + 1.645 \frac{\sigma}{\sqrt{n}}\)
95%	0.05	1.96	\(\bar X - 1.96 \frac{\sigma}{\sqrt{n}}\)	\(\bar X + 1.96 \frac{\sigma}{\sqrt{n}}\)
99%	0.01	2.576	\(\bar X - 2.576 \frac{\sigma}{\sqrt{n}}\)	\(\bar X + 2.576 \frac{\sigma}{\sqrt{n}}\)