끄적이는 통계분석/SAS를 이용한 통계분석

SAS를 이용한 두 집단의 평균 비교 (Independent t-test, Wilcoxon's rank sum test)

요맘때10 2019. 1. 17. 16:32
반응형

바이오 업계에 종사하다 보니 약의 경우 시험군 대조군을 비교하는 경우가 많은데, 이 때 가장 많이 사용되는 분석법이 Independent t-test인 듯 하다. 앞으로 지속적으로 알고있거나 공부했던 통계분석법들을 정리해 나갈 예정이다.

 

참고로 지금부터 끄적이는 말들은 틀릴 수도 있으니, 참고하시면 될 듯하고 틀린 부분이 있다면 알려주시면 감사할 것 같다.

 

1. Independent t-test

- 두 집단간 평균을 비교하는 방법.

- 귀무가설은 μ1=μ2, 대립가설은 μ1μ2

 

참고로, 공부하다 보니 분석 시 가설의 검토는 무엇보다 중요한 것 같았다. 그도 그럴것이 분석의 목표라고 볼 수 있으니까...

 

SAS를 이용하여 분석할 것이고, Sample data는 sasuser.admit을 이용할 것이다. 예시 자료를 이용하여 성별간 나이에 차이가 있는지를 보고자 한다.

 

1) 정규성 검정

- 집단이 정규성을 띄는가를 확인할 수 있다.

- 정규성을 만족하면 모수적 방법인 Independent t-test를 이용, 아니라면 이의 비모수적 방법인 Wilcoxon rank-sum test를 이용하여 분석한다.

 

- 아래 코드는 정규성 검정의 SAS Code.

proc univariate data=sasuser.admit normal;
 var age;
run;

 

 

- 정규성 검정도 여러가지 방법이 있지만 Shapiro-Wilk 결과를 보는 것이 일반적이다.

- 상황에 따라서 다른 방법의 결과를 보는 것이 타당하지만 심화로 들어가므로 여기서는 언급하지 않겠다.

- Shapiro-Wilk p값=0.6205로 자료는 정규성을 띄고 있다고 볼 수 있다.

- 정규성을 띄므로 t-test를 시행한다.

 

- 아래 코드는 t-test의 SAS code.

proc ttest data=sasuser.admit;
 class sex;
 var age;
run;

 

반응형

2) 등분산성 검정

- 귀무가설은 σ12=σ22, 대립가설은 σ12σ22

- 등분산성 검정결과(Equality of Variances) 확인 (맨 아래 Table)

- p값은 α>0.05인 0.1899이므로 분산이 동일하다고 볼 수 있다.

- 동일하다면 바로 위 Table의 Pooled의 p값 확인하고, 동일하지 않다면 Satterthwaite의 p값을 확인한다.

 

3) t-test 결과 확인

- Pooled p값은 0.6376으로 귀무가설을 기각하지 못한다.

- α=0.05 하에서 성별간 나이의 평균값이 차이가 있다고 볼 수 없다.는 결론을 얻을 수 있다.

 

2. Wilcoxon's rank sum test

- 정규성 검정을 통과하지 못하여 모수적 검정방법인 t-test방법을 사용할 수 없을 때, 이에 대응되는 비모수적 검정방법이다.

 

- 아래 코드는 Wilcoxon's rank sum test의 SAS Code.

proc npar1way data=sasuser.admit wilcoxon;
 class sex;
 var age;
run;

 

- 정규근사법, t근사법이 있고, 단측검정, 양측검정이 있다.

- 예제에서는 sample이 F=11, M=10 21명 이므로 필자는 t근사의 양측검정을 이용할 것이다.

- p값은 0.8347로 t-test 결과와 마찬가지로 α=0.05 하에서 귀무가설을 기각하지 못한다는 동일한 결과를 얻을 수 있다.

 

 

반응형