엑셀 회귀분석 t통계량 - egsel hoegwibunseog ttong-gyelyang

01. 총설

1) 회귀분석

인과관계가 있는 변수들 사이의 선형적 함수관계를 분석하는 기법

3) 인과관계

① 일정 비용의 광고를 할 때 매출액이 얼마나 늘어나는가의 예측 목적

광고비 (독립변수, 설명변수) -> 매출액 (종속변수: 독립변수에 설명됨)

② 상관분석(corelation analysis) 이란

: 두 변수간의 움직임의 관계를 나타내며 인과관계가 전제하지 않음.

③ 회귀분석: 우선 두 변수간의 인과관계를 논리적으로 파악하는 것이 중요.

파악된 인과관계를 선형적 함수관계로 표시하는 기법임.

3) 회귀분석의 종류

① 단순회귀분석: 독립변수 1개로 1개의 종속변수를 예측하는 것

② 다중회귀분석: 다수의 독립변수로 1개의 종속변수를 예측하는 것

02. 단순회귀분석

1) 회귀방정식

① 소득이 높을수록 소비가 증가하지만 동일한 소득이라도

가족수, 환경, 소비성향에 따라 소비가 다를 수 있다

- 함수관계: 일정소득에 대하여 소비수준이 하나값인 관계

- 확률적 관계: 일정소득에 대하여 여러 소비수준이 주어지는 관계

② 회귀모형: 확률적 관계를 식으로 나타낸 것

yi = α + βxi + εi

오차항 εi: 평균0, 분산이 σ2인 정규분포 한다.

α 와 β : 모집단 회귀방정식의 회귀계수로서 상수임.

※ 공식요약: 회귀모형의 기본가정

- 오차항 εi는 평균이 0인 정규분포를 한다.

- 오차항 εi는 모든 xi에 대하여 동일한 분산, 즉 등분산을 가진다

- 오차항 εi는 서로 독립적, 즉 비자기상관(no autocorrelation)이다

③ 회귀방정식: 독립변수 X에 대한 종속변수 Y값 분포의 기대값

E(yi) = α + βxi Var(yi) = σ2 => 함수관계를 의미

④ 표본회귀모형: 모집단회귀모형과 모집단회귀방정식을 추정하기 위한 식

yi = a + bxi +ei

잔차 (residuals) ei : 오차항 εi 의 추정치

실제의 표본관찰값과 예측된 값과의 차이

⑤ 표본 자료에 가장 적합한 표본회귀식 구하기

ei2를 최소화하는 최소제곱법으로 직선으로 구함.

ei = yi - (a + bxi)

2) 적합도와 유의성 검정

① 회귀선의 적합도 측정: 결정계수(coefficient of determination)

엑셀 회귀분석 t통계량 - egsel hoegwibunseog ttong-gyelyang

- "총변동 = 회귀로 인한 변동 + 잔차로 인한 변동"을 제곱하면

"총편차제곱합(SST) = 회귀제곱합(SSR) + 잔차제곱합(SSE)"

1 = SSR/SST + SSE/SST => 1 = R2 + (1-R2)

SSR: 회귀방정식에 의해 설명되는 변동(편차)

SSE: 회귀방정식에 의해 설명되지 않는 변동(편차)

- 공식요약: 적합도

R2 = SSR/SST = 1 - SSE/SST

= 두 변수간 상관계수 r을 제곱한 값

R2의 특징:

결정계수가 1에 가까울수록 추정된 회귀식의 적합도가 높다

- 적합도를 측정하는 또 다른 방법: 추정된 표준오차 측정

종속변수의 실제값과 추정값의 차이를 제곱하여 합한 것을

자유도 n-2로 나눈 것을 제곱근한 것

=> 종속변수의 실제값이 회귀식에 의해 추정한 값과

유사할수록 표준오차 값이 작아져 회귀식에 적합도가 높아짐.

② 회귀방정식의 유의성 검정: 분산분석

- 회귀모형의 유의성 검정

독립변수가 종속변수에 대해 의미를 갖는지 검정하는 것

- 단순회귀방정식에서는 β이 0이인지 아닌지 가설을 설정함.

귀무가설: β = 0, 대립가설: β ≠ 0

- 검정도구: F검정

임계값: F(1, n-2, α)

검정통계량: F(1,n-2) = MSR / MSE

제곱합

자유도

평균제곱

F

설명된 편차제곱(SSR)

1

MSR = SSR/1

MSR / MSE

설멍안된 편차제곱(SSE)

n-2

MSE = SSE/(n-1)

총변동(SST)

n-1

③ 회귀계수의 유의성 검정

- 절편계수에 대한 유의성 검정

가설설정: 귀무가설 H0: α = 0 , 대립가설 H1: α ≠ 0

검정도구: 표본절편계수 a의 분포에서 t검정 이용

- 기울기계수에 대한 유의성 검정

가설설정: 귀무가설 H0: β = 0 , 대립가설 H1: β ≠ 0

검정도구: 표본회귀계수 b의 분포에서 t검정 이용

문제] A유통은 1일 판매량과 매장넓이와의 관계를 알아보기 위해 15개 매장을 조사하였다

유의수준 5%에서 회귀분석을 하시오

엑셀데이터

분석

1. 입력: Y축 입력 범위 (종속변수: 1일 매출액)

X축 입력 범위 (독립변수: 매장넓이)

이름표, 상수에 0을 사용, 신뢰수준: 95%

2. 출력옵션

3. 잔차: 잔차, 잔차도, 표준 잔차, 선적합도

4. 정규확률: 정규확률도

회귀분석

통계량

(적합도)

1. 다중 상관계수 : 0.825915 ~~ 단순회귀분석에서는 1개 독립변수와

종속변수간 표본솽관계수 r의 절대값

2. 결정계수 : 0.682136 ~~ R제곱: 68%를 설명한다

3. 조정된 결정계수: 0.657684466

4. 표준오차 : 137.7484357

5. 관측수 : 15

분산분석

(회귀모형의

유의성검정)

귀무가설 β =0 , 대립가설 β ≠0

자유도 제곱합 제곱평균 F비 유의한 F

회귀 1 52933.12 529353.12 27.89794 0.0001484

잔차 13 246670.21 18974.632

계 14 776023.33

=> 임계치를 표시하지 않음. 수기 산출 =f.inv.rt(0.05,1,13) = 4.67

검정통계량 27.898이 임계값을 넘어서므로 귀무가설을 기각한다.

=> P값 0.00015이 유의수준 0.05%보다 낮으므로 귀무가설을 기각한다.

회귀계수

유의성검정

1. 절편계수 의 가설설정 귀무가설: α = 0, 대립가설: α ≠ 0

2. 기울기계수의 가설설정 귀무가설: β = 0, 대립가설: β ≠ 0

계수 표준오차 t통계량 p값 하위95% 상위95%,

Y절편 119.06 112.66 1.057 0.31 -124.32 362.44

매장넓이 2.54 0.48 5.28 0.00015 1.503 3.583

=> ① 절편계수: 유의수준 0.05 < p값 0.31이므로 귀무가설 채택

즉, 절편계수 α는 0이라고 할 수 있다.

② 기울기계수: 유의수준 0.05 > p값 0.00015이므로 귀무가설 기각

즉, 기울기계수 β는 0이 아니다

③ 표본 회귀식 = 119.06 + 2.54 X

매장이 1㎡ 넓을수록 1일 매출액이 254만원씩 는다

잔차출력

관측수 예측치 판매액 잔차 표준잔차

1 373.89 81.61 0.61 ~~

=> 잔차 = 종속변수의 실재값 - 예측치 판매액 => 잔차도 참조

표준잔차 = (각 잔차 - 잔차평균) / 잔차의 표준편차

= 각 잔차가 잔차평균에서 표준편차의 몇배만큼 있는가

잔차도

매장넓이 잔차도: 매출액

=> 잔차들이 0을 중심으로 무작위로 상하로 분포됨. 등분산으로 볼수있다.

잔차들이 2차곡선 또는 계속 증가나 감소하는 패턴일 경우

등분산가정과 배치되거나 위배될 수 있다.

적합도

매장넓이 선 적합도:

=> 독립변수에 대한 실제값(파란색)과 예측값(붉은색)을 함께 보여줌

두값이 비슷한 경향을 보여주고 있으면 적합도가 높다고 할 수 있다.

03. 다중회귀분석 (여기서는 2개의 독립변수 가정)

1) 회귀방정식

① 백화점의 매출에 영향을 미치는 독립변수

매장넓이, 주차면수, 경쟁업체수, 홍보, 주민수등~~~

② 회귀모형: 확률적 관계를 식으로 나타낸 것

yi = α + β1x1 + β2x2 + εi

오차항 εi: 평균0, 분산이 σ2인 정규분포 한다.

α 와 β : 모집단 회귀방정식의 회귀계수로서 상수임.

※ 공식요약: 회귀모형의 기본가정

- 오차항 εi는 평균이 0인 정규분포를 한다.

- 오차항 εi는 모든 xi에 대하여 동일한 분산, 즉 등분산을 가진다

- 오차항 εi는 서로 독립적, 즉 비자기상관(no autocorrelation)이다

③ 회귀방정식: 독립변수 X에 대한 종속변수 Y값 분포의 기대값

E(yi) = α + β1x1 + β2x2 Var(yi) = σ2 => 함수관계를 의미

④ 표본회귀모형: 모집단회귀모형과 모집단회귀방정식을 추정하기 위한 식

yi = a + b1x1 + b2x2 + ei

잔차 (residuals) ei : 오차항 εi 의 추정치

실제의 표본관찰값과 예측된 값과의 차이

⑤ 표본 자료에 가장 적합한 표본회귀식 구하기

ei2를 최소화하는 최소제곱법으로 직선으로 구함.

ei = yi - ( a + b1x1 + b2x2)

2) 적합도와 유의성 검정

① 다중공선성(multicolinearity)

여러 개의 독립변수간 높은 상관관계(상호의존성)으로 회귀계수값이

왜곡되어 나타날 가능성

② 다중공선성을 알아보는 방법

- 독립변수들간 상관관계 분석

- 분산팽창계수(VIF: Variance Inflation Factor)

문제] A유통은 1일 판매량(종속변수)을 매장넓이와 주차면수(독립변수)와의 관계로

알아보기 위해 15개 매장을 조사하였다. 유의수준 1%에서 회귀분석을 하시오

엑셀데이터

분석

1. 입력: Y축 입력 범위 (종속변수: 1일 매출액)

X축 입력 범위 (독립변수: 매장넓이, 주차면수)

이름표, 상수에 0을 사용, 신뢰수준: 99%

2. 출력옵션

3. 잔차: 잔차, 잔차도, 표준 잔차, 선적합도

4. 정규확률: 정규확률도

회귀분석

통계량

(적합도)

1. 다중 상관계수 : 0.9088 ~~ r의 절대값

2. 결정계수 : 0.8259 ~~ 단순회귀분석에서 이용

3. 조정된 결정계수: 0.7969 ~~ 다중회귀분석 이용

4. 표준오차 : 106.106

5. 관측수 : 15

조정된 결정계수: 회귀모형의 적합도를 높이기 위해

독립변수의 수를 고려한 결정계수를 조정된 결정계수라 함.

다중회귀분석에서는 별도로 독립변수간 상관관계를 구함.

=correl(매장넓이, 주차면수) = 0.05 ~~> 상관관계가 적다고 해석

분산분석

(회귀모형의

유의성검정)

귀무가설 β1 = β2 =0 , 대립가설 β1 ≠ β2 ≠ 0

자유도 제곱합 제곱평균 F비 유의한 F

회귀 2 64921.4 32460.7 28.464 2.784E-0.5

잔차 12 135101.9 11258.5

계 14 77623.3

=> 임계치를 표시하지 않음. 수기 산출 =f.inv.rt(0.01,2,12) = 6.93

검정통계량 28.464가 임계값 6.93을 넘어서므로 귀무가설을 기각한다.

=> P값 0.00003이 유의수준 0.01%보다 낮으므로 귀무가설을 기각한다.

회귀계수

유의성검정

1. 절편계수 의 가설설정 귀무가설: α = 0, 대립가설: α ≠ 0

2. 매장면적 기울기계수의 가설설정 귀무가설: β1 = 0, 대립가설: β1 ≠ 0

3. 주차면수 기울기계수의 가설설정 귀무가설: β2 = 0, 대립가설: β2 ≠ 0

계수 표준오차 t통계량 p값 하위95% 상위95%,

Y절편 -343.1 170.55 -2.012 0.067 -864.1 177.83

매장넓이 2.485 0.3714 6.691 2.E-0.5 1.351 3.619

주차면수 97.63 31.02 3.158 0.008 2.898 192.4

=> ① 절편계수: 유의수준 0.01 < p값 0.067이므로 귀무가설 채택

즉, 절편계수 α는 0이라고 할 수 있다.

② 매장넓이계수: 유의수준 0.01 > p값 2.E-0.5이므로 귀무가설 기각

즉, 기울기계수 β1는 0이 아니다

③ 주차면적계수: 유의수준 0.01 > p값 0.008이므로 귀무가설 기각

즉, 기울기계수 β2는 0이 아니다

③ 표본 회귀식 = -343.1 + 2.485 X1 + 97.63X2

매장이 1㎡ 넓을수록 1일 매출액이 249만원씩 늘며

주차면수 1개가 늘면 1일 매출액이 97.6백만원이 는다

잔차출력

관측수 예측치 판매액 잔차 표준잔차

1 373.89 81.61 0.61 ~~

=> 잔차 = 종속변수의 실재값 - 예측치 판매액 => 잔차도 참조

표준잔차 = (각 잔차 - 잔차평균) / 잔차의 표준편차

= 각 잔차가 잔차평균에서 표준편차의 몇배만큼 있는가

잔차도

매장넓이 잔차도 vs 주차면수 잔차도

=> 잔차들이 0을 중심으로 무작위로 상하로 분포됨. 등분산으로 볼수있다.

잔차들이 2차곡선 또는 계속 증가나 감소하는 패턴일 경우

등분산가정과 배치되거나 위배될 수 있다.

적합도

매장넓이 선 적합도 vs 주차면수 선 적합도

=> 독립변수에 대한 실제값(파란색)과 예측값(붉은색)을 함께 보여줌

두값이 비슷한 경향을 보여주고 있으면 적합도가 높다고 할 수 있다.