R - 범주형 자료 분석
R - 범주형 자료 분석
1. 적합도 검정 (goodness of fit test)
k개의 범주(계급)을 가지는 한 개의 요인(factor)에 대해서,
어떤 이론적 분포를 따르고 있는지 검정
원칙: chisq.test(벡터, p = 확률을 담은 벡터)
주어지는 데이터 형식: text를 가공 / table 형식 / dataframe형식
1) text 가공
obs <- c(19, 41, 40)
null.probs <- c(2/10, 3/10, 5/10)
chisq.test(obs, p=null.probs)
2) table 형식
3) dataframe 형식
Car_Type <- table(Cars93$Type)
Car_Type_Prob <- c(0.2, 0.1, 0.2, 0.2, 0.2, 0.1)
chisq.test(x=Car_Type, p=Car_Type_Prob)
2. 독립성 검정 (test of Independence)
두 개의 범주형 변수/요인(2 factors)이 서로 연관성이 있는지, 상관이 있는지, 독립적인지를 카이제곱 검정을 통해 통계적으로 판단하는 방법
# 데이터 구조: Contingency Table (분할표)
# 귀무가설: 두 변수는 독립이다.
# 기대도수가 5 미만인 셀이 20%를 넘으면 주의를 요함. 인접범주와 합치는 것도 방법.
# 귀무가설이 사실일 때, X^2 검정통계량은 자유도가 (m-1)(n-1)인 카이제곱분포를 따름
원칙: chisq.test(data_matrix) / 행렬이다!
! 독립성, 동질성 차이
독립성 검정은 하나의 모집단에서 표본을 무작위로 추출한 후 추출된 표본을
두가지 속성(변수)에 따라 분류함.
반면에 동질성 검정은 부모집단(subpopulation)을 먼저 설정한 후
각 부모집단으로부터 정해진 표본의 크기만큼 무작위로 추출하여 분할표에서 부모집단의 비율이 동일한가를 검정함.
가령, 소득수준에 따라 지지 정당이 동일한지 여부를 검정한다고 할 때, 우선 소득수준을 부모집단으로 설정하고, 각 소득수준별로 정해진 크기의 표본을 무작위로 추출하는 식.
3. 동질성 검정 (test of Homogeneity)
관측값들이 정해진 범주 내에서 서로 비슷하게 나타나고 있는지를 검정.
속성 A, B를 가진 부모집단(subpopulation) 각각으로부터 정해진 표본의 크기만큼 자료를 추출하는 경우에 분할표에서 부모집단의 비율이 동일한가를 검정.
두 개의 요인을 대상으로 함.
# 귀무가설이 사실일 때, X^2 검정통계량은 자유도가 (r-1)(c-1)인 카이제곱분포를 따름
[예시]
방법은 독립성 검정과 동일함
댓글
댓글 쓰기