고정효과와 임의효과의 비교에 앞서, 요인과 수준의 개념을 짚고 가겠습니다.
요인(factor) : 실험에서 결과에 영향을 끼칠 것이라고 고려되는 독립변수
수준(level) : 실험에 사용되는 요인의 값
예를 들어, 귤나무에서 가장 많은 귤을 수확하게 해주는 토질의 종류가 무엇인지 알아보는 실험을 한다고 합시다. 이때 귤의 수확량에 영향을 미치는 토질은 요인이 되며, 토질의 종류인 모래흙, 일반흙, 진흙은 요인의 수준이 됩니다. 이 실험을 통해 관심요인인 토질의 수준 간 효과 차이를 검증하게 됩니다.
고정효과(Fixed effect)
○ 요인(factor)의 수준을 실험자가 직접 지정한 경우. 실험자는 오직 이 수준들의 비교에만 관심이 있습니다.
○ 실험된 요인의 수준에 대해서만 비교가 가능하여 통계 추론이 실험에 사용된 수준에 제한됩니다.
○ 동일한 개체(subject)에서 반복측정된 자료에 적용하기엔 적절하지 않습니다.
○ 고정 요인이 포함된 모형을 고정효과 모형(Fixed effects model)이라고 합니다.
○ 예를 들어, 여학생과 남학생의 시험성적을 비교하고자 할 때, 성별을 고정효과라고 합니다.
폐질환 치료약 종류 A, B, C에 따른 개선정도를 비교하고자 할 때, 약의 종류를 고정효과라고 합니다.
고정효과모형은 다음과 같습니다.
이 모형에서 관심은 수준들마다 관측값에 차이가 있는지이며, 가설은 다음과 같습니다.
귀무가설(H0)은 수준별 효과가 0, 즉 '처리 효과 차이가 없다'이며, 대립가설(H1)은 '처리 효과 차이가 있다'가 됩니다.
임의효과(Random effect)
○ 요인의 수준이 임의추출된 경우.
○ 각 개체에서 반복적으로 관측된 자료가 있는 연구에서 어떤 특정한 개체에서 관측된 반복측정자료가 하나의 군집을 이루는 경우에 모형은 각 개체에 대한 랜덤효과항을 포함하게 됩니다. 이 랜덤효과항은 하나의 표본군집이 모든 가능한 군집에서 추출되었다는 것을 의미합니다.
○ 수준의 효과는 확률변수로 간주되며 분포를 가정합니다. 일반적으로 평균이 0이고 분산이 시그마인 정규분포를 가정하는데, 여기서 분산의 추정값은 군집들 간의 변동성을 의미합니다.
○ 임의 요인이 포함된 모형을 임의효과 모형(Random effects model)이라고 합니다.
○ 고정 요인과 임의 요인이 모두 존재하는 모형은 혼합효과 모형(Mixed effects model)이라고 합니다.
임의효과모형은 다음과 같습니다.
고정효과모형에서와는 다르게 는 상수가 아닌 확률변수로 오차와는 독립입니다. 실험 전에 어떤 수준이 선택될지 알 수 없기 때문에 확률변수로 취급하는 것입니다.
이 모형에서 처리 효과의 유무를 확인하는 가설은 다음과 같습니다.
만약 어느 수준에서든 효과가 동일하다면 처리 효과 값 역시 동일할테고 이 때 분산은 0이 될 것입니다. 만약 수준마다 효과가 다르다면 처리 효과가 여러 값을 가질테고 분산은 0보다 커지게 되겠죠.
참고
성내경(2012), 실험설계와 분석, 자유아카데미
Alan Agresti(2009), 범주형 자료분석 개론, 자유아카데미
'繩鋸木斷水滴石穿 > 통계분석' 카테고리의 다른 글
유사도의 종류와 파이썬 구현: 자카드 유사도, 피어슨 유사도, 코사인 유사도 (0) | 2021.08.20 |
---|---|
T-test의 개념과 R에서 적용하기 (4) | 2020.03.04 |
상관분석의 개념과 R에서 적용하기 (0) | 2020.03.03 |
단순회귀분석(Simple Linear Regression) (0) | 2019.01.25 |