본문 바로가기

CodeStates

[통계] #1

 통계의 목차


      #[1]

  • Hypothesis Test : 가설검정
  • T-test : T 검정
  • P-Vlaue

    [#2]
  • Chi Square Test : 카이제곱 검정
  • Empirical Analysis : 경험적 분석
  • Kolmogorov-Smirnov Test
  • Multivariate testing : 다변수 테스트
  • ANOVA
  • Confiednce Interval : 신뢰구간
  • CLT : Central Limit Theorem : 중심 극한 정리

    [#3]
  • 베이즈 정리
  • 조건부 확률
  • 몬티홀의 역설
  • Naive Bayes Classifier : 나이브 베이즈 분류

 

 

 


오늘은 통계에 대한 설명중 [#1]을 진행하겠다.

     
   

#1

 

가설이란?
가설이란 확인 할 수 있는 아이디어를 뜻한다. 사과가 값이 나간다 라는 것은 증명이 불가능 하지만, 사과가 2000원보다 값이 나간다 라는 것은 증명이 가능하다. 또 다른 예로는 대선 후보끼리의 나라의 행정 개선율 (데이터가 없음)(가설아님)
대통령을 역임했던 전 대통령끼리의 나라의 행정 개선율 (데이터가 있음)(가설) 가 있다.

기술통계치란?
수집한 데이터를 요약, 묘사, 설명하는 통계 기법이다.

판다스에서는 DataFrame.describe()을 이용하면 기술 통계치를 구할 수 있다.

구할수 있는 통계치는 다음과 같다.

count, mean, std, min(0Q), 25%(1Q),50%(2Q),75%(3Q) ,max(4Q)->%는 Quartile을 의미함
Quartile : 사분위 값

Quart Quartile
0 Min
1 25%
2 50%
3 70%
4 Max

+)Mean / Median / Mode, Range, Var / SD, Kurtosis, Skewness등의 통계치 또한 구할 수 있다.
->뜻에 관해서는 아래의 링크를 참고 하기를 바란다.

 

rfriend.tistory.com/28

 

R 기술통계 함수 mean(), median(), range(), sd(), var(), min(), max(), IQR(), diff(), length(), rank()

통계는 크게 표본의 (a) 도수 분포와 중심화 경향, 그리고 퍼짐 정도를 측정하여 집단의 특성에 대해서 기술하는 기술통계(descriptive statistics)와, (b) 기술통계량을 가지고 모집단의 parameter 값 (모

rfriend.tistory.com

 

추리 통계치란?

수집한 데이터를 바탕으로 추론, 예측하는 통계 기법이다.
전체집단 > 표본화(샘플링) > 표본을 측정 > 측정된 값을 통한 추론

이때 전체 집단을 모집단, 표본을 샘플이라고 부른다. 모집단과 샘플의 관측치 평균값 분산 표준편차는 아래와 같다.

  모집단 표본
관측치 N n
평균값 μ
분산 σ^2 s^2
표준편차 σ s

샘플링 방법으로는 1.Random(무작위  추출), Systematic(일정한 규칙성을 가지게  추출),Stratified Random(모집단을 여러 그룹으로 나누고, 그룹별로 무작위 추출), Clustser( 모집단을 여러 그룹으로 나누고, 특정 그룹에서만 무작위로 추출)이 있다.

 

가설 검정이란?

어떠한 통계적인 가설을 세우고 이를 검정 하는 것이다.

다음은 가설 검정의 내용을 나무위키의 글을 가져와 설명하겠다.

연구하는 가설 내용을 통계적 가설로 바꾸어 줌으로써 가설검증을 시작한다. 통계적 가설은 귀무가설(H0)대안가설(Ha) 가령, 미국 성인 여성의 평균 신장이 180cm라는 하나의 가설을 검정할 계획이라면, 귀무 가설의 표기는 다음과 같다.

귀무가설 (Null Hypothesis) - 기각한다. 기각하지 않는다.
H0 : m = 180


대안가설 (Alternative Hypothesis) - 채택한다. (맞다 틀리다 x)
제 1형 Ha : m != 180 -> 양측 검정(two-sided test, two tailed test)

제 2형 Ha : m < 180 -> 단측 검정(one-sided test) 중 좌측 검정(Lower tailed test)

제 3형 Ha : m > 180 -> 단측 검정(one-sided test) 중 우측 검정(Upper tailed test)

여기서 양측 검정이란 가설 검증에서 기각 영역이 양쪽에 있는 것이고 이때의 유의수준 α 또한 양극단으로 갈라져 면적이 α/2가된다. 이와 반대로 단측 검정기각영역이 어느 한쪽에만 있는 경우를 말한다 유의수준 α 는 갈라지지 않는다.

 

유의수준 α는 보통 5%, 0.05로 잡는다.

Standard Error

(Sample Mean의 Std) (샘플링한 데이터의 평균의 표준 오차 )

SE = s / √n -> 표본의 수가 커질수록 오차값이 줄어든다. 즉, 추측이 정확해지면서 높은 신뢰도를 가진 예측가능하다.



T-test


One Sample T test

 

μ0라고 표기되는 상수 값과 샘플 1개의 평균을 비교하는 검정 방법이다.

이 검정은 모집단의 평균 가 샘플의 평균 μ과 같다귀무가설그렇지 않다, 같지 않다 라는 대안가설을 가진다. 
단측 대립 가설과 함께 수행되며, 이것은 one-tailed test 라고 부른다.

수식 : t = ( - μ)/SE = ( - μ)/(s / √n).

 

* 귀무 가설의 내용

x̅ =μ0 : 모집단 평균이 샘플 평균과 같다.
* 단측 대립 가설의 내용
즉, 

x̅ > μ0 : 모집단 평균이 샘플 평균보다 크다.

x̅ < μ0 : 모집단 평균이 샘플 평균보다 작다.

- 대체적으로 p-value (1-Confidence)가 0.05보다 작을 경우 귀무 가설을 기각하는 것이 관례이다.

 

Two Sample T test

 

독립된 두개의 그룹의 Sample의 평균이 서로 같은지를 비교하는 검정 방법이다.
Two-sample T-검정에 대한 기본형 귀무 가설은 두 그룹은 동일하다는 것이다. 두 그룹들이 같으면, 차이는 또한 0이 된다.

수식 : t = (x̅1 - x̅2) / s

 

* 귀무 가설의 내용
x̅ =
 μ0 : 모집단 평균이 샘플 평균보다 같다.

* 단측 대립 가설의 내용

x̅ != μ0 : 모집단 평균이 샘플 평균보다 같지 않다.

 

p-value

 

P-value란 유의 확률이라는 뜻으로 관찰된 데이터의 검정 통계량이 귀무가설을 지지하는 정도를 확률로 표현한 것이다.

귀무가설(Null hypothesis)이 맞는다고 가정할 때 얻은 결과보다 극단적인 결과(관측 결과)가 나타날 확률로 정의된다.

일반적으로 p-value < 0.05 혹은 0.01을 기준으로 한다. 계산된 p-value가 기준값보다 작은 경우 귀무가설을 기각하는 것으로 즉, 극단적으로 귀무가설이 일어날 확률이 매우 낮은 상태를 의미한다.

 

추가적으로.

 

독립 표본 T-test를 수행하기 위해서는 샘플이 서로 독립적이고, 정규성을 지니면서 (Normal 한지), 등분산성을 가지고(다르다면 DOF를 수정해야함) 있어야한다.

 

'CodeStates' 카테고리의 다른 글

[통계] #3  (0) 2021.03.15
[통계] #2  (0) 2021.03.14
[Python] 데이터 시각화  (0) 2021.03.12
[Pandas] DataFrame 다루기  (0) 2021.03.08
[Pandas] DataFrame 생성, 저장 및 로드  (0) 2021.03.08