본문 바로가기

CodeStates

[통계] #2

통계의 목차


      #[1]

  • Hypothesis Test : 가설검정
  • T-test : T 검정
  • P-Value

    [#2]
  • Chi Square Test : 카이제곱 검정
  • Empirical Analysis : 경험적 분석
  • Kolmogorov-Smirnov Test
  • Multivariate testing : 다변수 테스트
  • ANOVA
  • Confiednce Interval : 신뢰구간
  • CLT : Central Limit Theorem : 중심 극한 정리

    [#3]
  • 베이즈 정리
  • 조건부 확률
  • 몬티홀의 역설
  • Naive Bayes Classifier : 나이브 베이즈 분류

오늘은 통계에 대한 설명중 [#2]을 진행하겠다.

#2

DoF(Degree of Freedom)

 

DOF 란 주어진 조건하에서 통계적 제한을 받지 않고 자유롭게 변화될 수 있는 요소이다.

DOF = N - 1, 자유도 = 샘플의 수 - 1

이게 무슨 뜻이냐 하면

A,B,C라는 데이터가 있고 A,B,C 데이터의 평균값은 4라고 해보자.

  A B C 평균
value 3 4 ? 4
value ? 4 4 4

위와 같은 표에서 평균값 4를 형성하기 위해 ?에 들어가야할 값은 각각 5와 4일 것이다.

빨간색의 값들은 자유롭게 바뀐다고 가정할 때 파랑색의 값은 평균이 4라는 결과를 위해 값이 정해진다는 것이다.

 

즉, 빨간색 글자의 데이터는 자유롭게 변화 될 수 있는 요소, 파랑색의 ?는 자유롭게 변화 될 수 없는 요소로

3개의 값이 있을때 자유롭게 정해질 수 있는 요소 dof는 2가 되는 것이다. 

 

※ Type Of Error

 

1종오류란 : False Alarm

잘못된 알림이다. 귀무가설이 참이라는 것은 아무 일도 일어나지 않았음을 뜻한다.
귀무가설이 참인데 잘못 판단해 기각 해 버리는 오류 = 아무 일도 일어나지 않았는데 잘못 판단해 기각하는 오류

2종오류란 : Miss

놓쳤다라고 생각하면 된다. 귀무가설이 거짓이라는 것은 어떤 일이 실제로 일어났음을 뜻한다.
귀무가설이 거짓인데 잘못 판단해 기각 해 버리는 오류 = 어떤 일이 실제로 일어났는데 잘못 판단해 기각하는 오류

즉, 실제로 일어난 일이지만 놓친 것이라고 볼 수 있다.

 

이때 p-value는 귀무가설이 맞다고 했을 때, 귀무가설이 말이 될 확률을 의미하기 때문에 P-Value는 1종 오류를 범할 확률과 같은 의미를 갖는다.

 

 

T-test와는 다른 검정 방법

 

앞 시간에 말한 T-test 방법은 정규성(Normal)을 가진다는 전제를 깔고 간다. (parameter estimation)

하지만 데이터를 다룰때 Categorical 데이터등을 검정 해야할 때에는 어떻게 해야 할까?

모집단이 특정 확률 분포(Normal과 같은 분포)를 가진다는 전제를 하지 않는 방식을 채택하여 사용하면 된다.

(non-parametric)

 

그 방법의 종류는 아래에 같고 더 다양한 방법이 있다.

  • Chisquare
  • Spearman correlation
  • Run test
  • Kolmogorov Smirnov
  • Mann-Whitney U
  • Wilcoxon
  • Kruskal-Wallis

Chisquare (카이제곱)

: 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검정하기 위해 사용되는 검정방법이다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용된다.

수식 :

 χ2 = Σ (관측값 - 기댓값)^2 / 기댓값

 

One Sample Chisquare Test

주어진 데이터 특정 예상되는 분포 동일한 분포를 나타내는지 에 대한 가설검정.

귀무가설 :분포가 비슷 할 것이다.

대안가설 : 분포가 비슷하지 않을 것이다.


이후 통계치 값을 구하게 되지만 이 값은 데이터의 크기에 따라서 달라지기때문에 pValue로 바꾸어야 한다.

(구글 검색)scipy chi to pvalue, -> stats.chi2.cdf

 

 

Two Sample Chisquare Test

두개 그룹의 데이터의 빈도, 분포의 값이 비슷하다 혹은 비슷하지 않다. 또는 두개의 Categorical한 변수가 연관이 있다 없다.에 대한 가설 검정.

귀무가설 : 빈도, 분포가 비슷 할 것이다. 연관이 있다.

대안가설 : 빈도, 분포가 비슷하지 않을 것이다. 연관이 없다.

 

샘플이 많다면?

 

3가지 이상의 그룹에서의 Test


여러 그룹간의 차이를 확인하기 위해서는 결론적으로 여러 그룹들이 하나의 분포에서부터 왔다라는 가정을 해야한다.

이를 표현하는 것이 F-Statistic이다

 

F-Statistic:

F = Varience Between Group / Varience With in Group 

Varience Between Group : 그룹끼리의 분산 (그룹의 중간 값끼리의 분산)

Varience With in Group : 전체 그룹의 분산 (그룹 내에서의 분산)

 

 

ANOVA (ANalysis Of VAriance)

: 3개 이상의 다수의 집단을 비교할 때 사용하는 가설 검정 방법이다.

다수 집단 비교에서 T-test를 여러번 사용하면, 다중 검정 문제 발생으로 1종오류가 증가한다.

즉 T-test를 여러번 실행하게 되면 Error 확률이 증가한다. 

Kruskal-Wallis

: 3개 이상의 집단의 평균 비교를 하는 모수적인 방법 ANOVA의 비모수적인 방법이다.

평균 비교를 하고자 하는 여러 집단 중 하나라도 정규성을 만족하지 않으면 비 모수적인 방법을 사용해야한다.
H0 : 모집단의 중앙값은 같다.(K개의 집단의 분포가 모두 동일하다.)
H1 : 모집단의 중앙값은 같지 않다.(적어도 하나의 모집단의 중앙값은 다른 하나의 모집단의 중앙값과 다르다/)

 모수적이라는 것은 모집단의 분포가 정규 분포를 따른다는 것이고, 비 모수적이라는 것은 모집단의 분포가 정규 분포를 따르지 않는다는 것이다. 

 

Law of Large Numbers (큰 수의 법칙)

샘플 데이터의 수가 많아질 수록, 샘플의 통계치는 점차 모집단의 모수와 같아진다.


CLT, Central Limit Theorem (중심 극한 정리)

샘플 데이터의 수가 많아질 수록, 샘플의 평균은 모집단의 분포 형태와 관계 없이, 정규분포와 근사한 형태로 나타난다.

 

Confidence Interval:

신뢰구간이라는 뜻이다. 어떠한 추정치가 나왔을때 그 추정치의 중간값에서 ± 만큼의 예측구간을 제시 하는 것이다.

예시) 대선 투표율에서 49.7~53.5%

 

수식 = x̅ ± (t * (s / √n)) 

x̅ : 추정 중간값.

(t * (s / √n)) :  error 값

Etsiamation의 범위 예측 구간

예측 구간이 넓어질 수록 예측이 맞을 확률인 신뢰도는 올라간다.

 

 

'CodeStates' 카테고리의 다른 글

[선형대수학] #1  (0) 2021.03.21
[통계] #3  (0) 2021.03.15
[통계] #1  (0) 2021.03.14
[Python] 데이터 시각화  (0) 2021.03.12
[Pandas] DataFrame 다루기  (0) 2021.03.08