끄적이는 통계분석/SAS를 이용한 통계분석

SAS를 이용한 비율에 대한 비교 (Chi-square test, Fisher's exact test)

요맘때10 2022. 8. 18. 13:43
반응형

목적

오늘은 SAS 프로그램을 이용하여 두 집단 간 연관성이 있는지 비교하는 방법에 대해 알아보자.

SAS를 이용하여 분석할 것이고, Sample data는 sashelp.class를 이용할 것이다. 예시 자료를 이용하여 성별과 몸무게 간 연관성이 있는지를 보고자 한다.


1. 카이제곱 검정 (Chi-square test)

- 두 집단 간 연관성이 있는가를 비교하는 방법 

- 귀무가설 (H0) 은 두 집단 간의 연관성이 없다, 대립가설 (H1) 두 집단 간의 연관성이 있다.

 

먼저 몸무게를 대략적으로 4 그룹으로 나누고,

data ex;
  set sashelp.class;
  if weight<84 then G_weight=1;
  else if weight<100 then G_weight=2;
  else if weight<113 then G_weight=3;
  else G_weight=4;
run;

아래와 같이 분석한다.

proc freq data=ex;
  tables SEX*G_weight / chisq;
run;

카이제곱 검정 결과 p 값이 0.3295로 유의수준 0.05 미만이므로 성별과 몸무게 간 연관성이 없다는 결론을 얻을 수 있다. 하지만, 결과 맨 아래 "100%개의 셀이 5보다 적은 기대빈도를 가지고 있습니다. 카이제곱 검정은 올바르지 않을 수 있습니다"?

사실 "기대빈도가 5 미만인 셀이 전체 셀의 20%를 초과하는 경우"에 카이제곱 분포를 따른다고 가정할 수 있고, 모수적 검정 방법인 카이제곱 검정을 이용할 수 있다.

위 예제의 경우 이에 대응되는 검정 방법인 피셔의 정확 검정을 이용해야 한다.


2. 피셔의 정확 검정 (Fisher's exact test)

- 두 집단 간 연관성이 있는가를 비교하는 방법

- 기대빈도가 5 미만인 셀이 전체 셀의 20% 이하인 경우

- 귀무가설 (H0) 은 두 집단 간의 연관성이 없다, 대립가설 (H1) 두 집단 간의 연관성이 있다.

proc freq data=ex;
  tables SEX*G_weight / chisq;
  exact fisher;
run;

피셔의 정확 검정 결과 p 값이 0.4578로 유의수준 0.05 미만이므로 성별과 몸무게 간 연관성이 없다는 결론을 얻을 수 있다.

반응형