표준편차 기호 쓰는법 - pyojunpyeoncha giho sseuneunbeob

평균, 편차, 분산, 표준편차

통계학은 데이터를 다루는 학문입니다. 데이터를 모으고, 정리하고, 분석하고, 추측하고, 어떤 결론을 도출하는 것이 통계학의 역할입니다.

데이터를 요약해주는 특징들을 알 수 있다면 데이터를 파악하는데 도움이 됩니다. 데이터의 특징을 수치화한 값을 통계량이라고 합니다. 대표적인 통계량에는 '평균(mean)', '분산(variance)', '표준편차(standard deviation)' 등이 있습니다.

어떤 집단이 궁금한 상황을 가정해봅시다. 우리는 그 집단 전체가 궁금합니다. 전체집단을 모집단(Population)이라고 부릅니다. 이 모집단의 평균,편차,분산,표준편차와 같은 모집단의 특성을 모수(Parameter)라고 합니다. 하지만 전체집단을 모두 조사할 수는 없습니다. 그래서 표본(Sample)을 추출합니다. 추출한 표본의 평균,편차,분산,표준편차와 같은 표본의 특성을 통계량(statistic)이라고 합니다.

오늘은 모집단의 평균, 분산, 표준편차를 계산하는 방법을 알아봅시다.

크기가 n인 모집단 X가 있다고 해봅시다. 모집단의 원소를 $x_{k}$라고 합시다. 집합으로 나타내면 아래와 같습니다.

$X=\left \{ x_{1},x_{2},...,x_{n} \right \}$

이 모집단의 평균, 편차, 분산, 표준편차는 아래와 같이 구합니다.

1. 평균

평균은 아래와 같이 계산합니다. 

$E(X)=\frac{\sum_{i=1}^{n}x_{i}}{n}$

고등학교때는 평균을 나타내는 기호로 m을 사용했습니다. mean의 앞글자를 딴 것입니다. 대학에서는 뮤(μ)라는 그리스어를 사용합니다. m과 발음이 같습니다.  

여기서 말하는 평균은 산술평균(arithmetic mean)입니다. 평균에는 산술평균, 기하평균(geometric mean), 조화평균(harmonic mean)이 있습니다. 또 평균을 의미하는 단어는 mean, average, expectation value 가 있는데요. 셋의 차이는 다음 링크를 참고해주세요. 

평균은 어떤 자료를 대표하는 대푯값중 하나입니다. 다른 대푯값에는 중앙값, 최빈값이 있습니다. 물론 평균이 가장 많이 사용되기는 하지만 평균이 항상 좋은 대푯값은 아닙니다. 상황에 맞게 사용해야합니다. 예를들어 어떤회사의 평균 월급이 2억인데, 알고보니 대표가 100억 나머지 직원들은 최저임금일 수 있고 이 경우는 중앙값을 사용하는게 집단을 더 잘 대표할 수 있습니다. 

2. 편차

편차는 편차는 (변량-평균)입니다. 변량은 집단의 원소들입니다. 편차는 각 변량들이 평균에서 얼마나 떨어져 있는지를 알려줍니다. 예를들어 {1,2,3,4,5} 라는 집단이 있을 때, 평균은 3입니다. 따라서 편차는 {-2,-1,0,1,2} 입니다. 편차의 합이 0임을 알 수 있습니다.

사람들은 편차를 대표할 수 있는 값을 만들고 싶었습니다. 자료가 평균에서 얼마나 흩어져 있는지를 알려줄 수 있으니까요. 편차의 평균을 사용하려고 했는데, 편차의 합이 항상 0이 되는 문제가 있었습니다. 그래서 두가지 대안을 생각합니다. 편차를 제곱해서 평균하는 것과, 편차에 절댓값을 붙여서 평균하는 것입니다. 편차를 제곱해서 평균할 경우 단위(cm, kg등)도 함께 제곱이 됩니다. 따라서 루트를 씌워서 단위를 되돌려주었습니다. 편차의 제곱의 평균에 루트를 씌운 값을 '표준편차', 편차의 절댓값의 평균을 '절대편차' 라고 부릅니다. 이들은 자료가 평균에서 얼마나 흩어져있는지를 알려주는 값입니다.

3. 분산

분산은 편차의 제곱의 평균입니다. 아래와 같이 계산합니다. 

$\begin{align}V(X)&=E\left [ \left ( X-\mu  \right )^2 \right ]\\&=\frac{\sum_{i=1}^{n}\left ( x_{i}-\mu  \right )^{2}}{n} \end{align}$

아래와 같이 변형된 형태로도 많이 사용합니다. 

$\begin{align}V(X)&=E\left [ \left ( X-\mu  \right )^2 \right ] \\&=\frac{\sum_{i=1}^{n}\left ( x_{i}-\mu  \right )^{2}}{n} \\&=\frac{\sum_{i=1}^{n}\left ( {x_{i}}^{2}-2 \mu x_{i}+m^{2}\right )}{n} \\&=\frac{\sum_{i=1}^{n}{x_{i}}^{2}-2\mu\sum_{i=1}^{n}x_{i}+\sum_{i=1}^{n}\mu^{2}}{n} \\&=\frac{\sum_{i=1}^{n}{x_{i}}^{2}}{n}-2m^{2}+m^{2} \\&=E(X^{2})-\mu^{2} \end{align}$

4. 표준편차

표준편차는 분산에 루트를 씌운 값입니다. 

$\sigma (X)=\sqrt{V(X)}$

자료의 흩어짐의 정도를 나타내는 값으로는 분산 보다 표준편차를 더 많이 사용합니다. 표준편차의 장점은 단위가 변량과 같다는 것입니다. 변량이 키여서 cm 단위를 갖고 있다면, 분산은 $cm^{2}$이라는 단위를 갖습니다. 분산에 루트를 씌워주게 되면 단위가 다시 cm가 됩니다. 

#강의 영상

수학에서는 변수의 이름으로 그리스 문자를 많이 사용하므로 그리스 문자를 읽고 쓰는 법을 알아야 한다. 다음 표에 그리스 문자와 영어 표기, 한글 표기를 나타내었다. 특히 몇몇 글자는 비슷하게 생긴 영어나 숫자와 헷갈리지 않도록 주의해야 한다. 이 표에서는 잘 쓰이지 않는 몇 글자는 제외하였다.

표 1-1 : 그리스 문자

알파벳 대문자

알파벳 소문자

영어 표기법

한글 표기법

주의점

\(\Huge A\)

\(\Huge \alpha\)

alpha

알파

영어 a와 다르므로 주의

\(\Huge B\)

\(\Huge \beta\)

beta

베타

영어 b와 다르므로 주의

\(\Huge \Gamma\)

\(\Huge \gamma\)

gamma

감마

영어 r과 다르므로 주의

\(\Huge \Delta\)

\(\Huge \delta\)

delta

델타

\(\Huge E\)

\(\Huge \epsilon\)

epsilon

엡실론

영어 e와 다르므로 주의

\(\Huge Z\)

\(\Huge \zeta\)

zeta

제타

\(\Huge H\)

\(\Huge \eta\)

eta

에타

\(\Huge \Theta\)

\(\Huge \theta\)

theta

쎄타

\(\Huge K\)

\(\Huge \kappa\)

kappa

카파

영어 k와 다르므로 주의

\(\Huge \Lambda\)

\(\Huge \lambda\)

lambda

람다

\(\Huge M\)

\(\Huge \mu\)

mu

\(\Huge N\)

\(\Huge \nu\)

nu

영어 v와 다르므로 주의

\(\Huge \Xi\)

\(\Huge \xi\)

xi

크싸이

\(\Huge \Pi\)

\(\Huge \pi\)

pi

파이

\(\Huge P\)

\(\Huge \rho\)

rho

영어 p와 다르므로 주의

\(\Huge \Sigma\)

\(\Huge \sigma\)

sigma

시그마

숫자 6과 다르므로 주의

\(\Huge T\)

\(\Huge \tau\)

tau

타우

영어 t와 다르므로 주의

\(\Huge \Phi\)

\(\Huge \phi\)

phi

파이/피

\(\Huge X\)

\(\Huge \chi\)

chi

카이

영어 x와 다르므로 주의

\(\Huge \Psi\)

\(\Huge \psi\)

psi

프사이

\(\Huge \Omega\)

\(\Huge \omega\)

omega

오메가

영어 w와 다르므로 주의

연습 문제 1.1.1

위 표에 있는 그리스 문자를 종이에 펜으로 2번 이상 반복하여 쓰며 외우자. 특히 영어표기법은 반드시 외워야 한다.

이 책에서는 모든 코드를 주피터 노트북(Jupyter notebook)으로 실행한다. 주피터 노트북에서는 TeX(택스가 아니라 텍이라고 읽는다)이라는 조판언어를 사용하여 수식을 표현할 수 있다. 우선 주피터 노트북에서 코드 셀(code cell)이 아닌 마크다운 셀(markdown cell)을 하나 생성한다. 메뉴에서 “Insert” > “Insert Cell Below” 명령으로 코드 셀을 만든 뒤 해당 셀을 클릭하고 메뉴에서 “Cell” > “Cell Type” > “Markdown” 명령을 실행한다.

이 마크다운 셀 안에서 $(달러) 기호를 이용하면 수식을 표현할 수 있다. 수식에서 그리스 문자를 표시하려면 그리스 문자의 영어 표기법앞에 백슬레시(\) 기호를 붙인다. 예를 들어 알파는 \alpha, 베타는 \beta라고 쓴다.

수식에는 문장 안에서 일부 단어가 수식인 인라인(inline) 수식과 독립된 문단이 되는 디스플레이(display) 수식이 있다. $$사이의 수식은 문장내의 인라인 수식을 쓸 때 사용하고 $$$$사이의 수식은 디스플레이 수식을 쓸 때 사용한다.

예를 들어 문장 내에서 $ \alpha = \beta $라고 쓰면 \( \alpha = \beta \)로 나타난다. 독립된 수식의 경우

라고 쓰면 다음처럼 독립된 문단으로 수식이 표시된다.

\[ \alpha = \beta \]

연습 문제 1.1.2

주피터 노트북을 하나 만들고 인라인 수식과 디스플레이 수식으로 알파부터 오메가까지 써본다.

Toplist

최신 우편물

태그