-
카테고리 없음 2020. 3. 16. 00:16
*통계 프로그램 관련 포스팅에서는 해당 툴을 최대한 쉽게 다루는 방법에 대해서만 설명한다. 그래서 제 블로그에 포스팅되는 모든 통계 프로그램 관련 글은 프로그래밍이 아닌 '통계 분석'에 초점을 둘 예정입니다. 또한 통계분석기법의 원리가 나쁘지 않아 공식에 대한 설명이 필요하면 말씀드리겠지만, 나쁘지 않고 포스팅이 길어질 수 있으니 궁금하신 사항은 책을 참고해 주시기 바랍니다.통계분석 초반에 가장 많이 다루는 기초적인 분석 기법인 독립 표본 t 검정(Independent t-test)에 대해 알아보자.하나 표본t검정이 연구자가 수집한 데이터(집단 1개)가 검정치(알려진 평균)와 차이가 있는지를 파악하는 방법론입니다.그렇다면 이번에 취급하는 독립 표본 t 검정은 수집한 표본의 하위 집단이 2개인 경우 각 집단별로 평균의 차이가 있는지를 확인하는 분석 기법입니다.(예: 작은 기업 A에 다니는 남녀 사원의 월소득 평균차 검정) 참조이므로, 독립 표본 t검정은 정규성 조건이 충족될 경우에 사용 가능한 분석 기법이 나쁘고, 정규성 후 함께 다룰 계획적 조건만 충족할 뿐이므로 여기에서는 추가되는 검정과 정의와 함께 검토를 실시한다.가장 빠르고 데이터를 읽자. Working Directory 지정 과정은 생략한다.
우리가 비교하고 싶은것은 OO은행에 다니는 남녀직원의 월소득의 평균차이 검정이다. 집단이 두 개이고 비교하려는 검정 변수가 연속형 변수이므로 독립 표본t검정을 하면 된다.그 전에 지난번 빈도분석에서 배운 자료의 요약 통계치를 간단하게 확인하고 진행하자.
>
아까 남녀 두 집단의 등분산 검정을 실시해 보자. SPSS에서는 독립 표본t검정을 실시하면 한 번에 Output 창에 결과를 제시하고, 본인의 R에서는 연구자가 직접 시행해 봐야 한다.그런데, R에서 등분산검정을 실시하는 방법은 var.test / bartlett.test / leveneTest 등으로 다양하지만, 여기에서는 방법론상의 추정법의 차이에 의한 혼란을 방지하기 위해 SPSS의 결과와 동일한 값을 산출하도록 하고 싶다.검정하려는 가설은 다소 음과 같다.H0: 두 집단의 분산은 동하나 한다(등분산).H 하나: 두 집단의 분산은 같지 않다.
상기와 함께 levene의 등분산검정을 하이미한 패키지는 car 패키지였다. 패키지가 없으면 다운로드해서 라이브러리로 지정해주길 바래.levene의 등분산검정을 하이미 한 명령어는 다음과 같다.*leveneTest(검정변수, 집단변수, center=, data=)** 검정변수와 집단변수는 Bank데이터에서 변수명을 추출해야 하므로 추출기호 #을 잊고 쓰세요.결과는 이하와 같이 출력되지만, F값은 0.1905로, P-value값이 0.6627로 0.05보다 크기 때문에, 양집단의 분산은 등분산인 것이 확인되었다.
여기서 주의해야 할 점은 levene의 등분산검정에 있어서, "center=mean"인 제도를 빠뜨려서는 안 된다는 점이었다. levene Test에서 center 값은 default 값으로 median(중위수)으로 지정되어 있기 때문에 이를 mean으로 지정하지 않으면 아래와 같이 다른 결과가 나쁘지 않게 된다.
>
>
여기까지라면 등분산 조건을 충족한 독립 표본(등분산) t-test를 실시하면 된다.가설과 명령어는 다음과 같다.H0:OO은행 남녀 직원의 월 소득 평균은 변하지 않는다(동일).H1:OO은행 남녀 사원의 월 소득 평균은 차이가 있다(같지 않다).*t.test(검정 변수~집단 변수, data=, var.equal=T)** 변수 추출 기호 "#"를 빼는 내용자
보임과 동시에 두 집단의 월소득 평균차 검정결과 검정통계량 t는 4.503, 자유도는 398, P-value는 지수로 표기되었으나 0.000... 그래서 유의수준 0.05보다 작다. 따라서 남녀의 월 소득 평균 차이는 통계적으로 유의한다. 이는 남성의 월 소득 평균(2078만 원)이 여성의 월 소득 평균(하나736)보다 유의미하게 높다는 의미다.이쪽에도 주의점이 있습니다.t. test 명령어의 경우 default 옵션에서 'var.equal=F'로 되어 있는데 이는 기본적으로 var.equal이 지금의 옵션을 True로 파악하지 않는 이상 기본적으로 등분산이 아닌 이분산으로 분석하는 것을 의미한다. 그리고 levene의 등분산 검정 결과 등분산 조건이 충족되었을 때 t.test에서 var.equal이 지금의 옵션을 명확하게 T(True)로 해 주어야 한다는 점을 잊자.이번에는 등분산 조건이 충족되지 않았다는 가족 하에 이 분산 테스트를 실시해 보자.levene의 등분산 검정은 상술한 바와 같으므로, output 결과가 p>.05였음을 가족으로 한다.독립 표본(2분산) t-test 분석도 위의 방식과 같다. 그래서 이미 말했듯이 var.equal 지금까지의 옵션이 기본적으로 F(False)이므로 굳이 입력하지 않아도 된다.
검정 통계량의 값과 유의 확률이 약간 거의 유사한 것처럼 보이는 것은 하나가 아니며, Two-Samplet-test가 아니라 Welch Two-Samplet-test가 시행된 것을 확인할 수 있으며 자유도에서도 차이가 있음이 확인되었다. 해석은 등분산 t-test와 같다.PSS상의 결과와 미세한 차이는 소수점 반올림 차이입니다.ps_2. 위의 데이터는 t-test 때문에 의미자료에 변수명을 주어 가설검정을 한 나쁘지 않고 소득의 경우에는 평균소득보다는 중위소득을 이용하여야 할 것이다. 이는 평균이 이상치(Outlier)에 매우 민감하기 때문입니다.직원의 월 소득이 포함되면 직원의 월 소득은 과대 추정될 위험성이 있다. 실제로 기술통계 분석결과를 보면 월소득의 최대치와 최소치의 차이가 상당함을 확인할 수 있을 것이다.(따라서 상기 데이터는 정규성 조건을 충족하지 않기 때문에 중위수를 이용하는 비모수검정을 실시하는 것이 원칙적으로 올바른 분석이었다. 이 부분은 나중에 다루도록 하겠다.) Sharp Kiss