오늘 할 일: 끝내주게 숨쉬기
article thumbnail
유사도의 종류와 파이썬 구현: 자카드 유사도, 피어슨 유사도, 코사인 유사도

어떤 상품 X와 Y, Z가 있다고 합시다. 세 상품은 속성으로 제조년도, 제조국가, 유통기한, 소비기한, 원가, 판매가 등등을 가질 수 있겠죠. 이런 속성들을 숫자로 잘 뽑으면 상품들을 속성 값들의 나열, 즉 벡터로 표현할 수 있게 됩니다. 예를 들면, X = [1,0,2,3,2] Y = [1,0,3,2,1] Z = [0,1,3,1,1] 이런 식인거죠. 이렇게 아이템마다 벡터화를 해주고 나면, 아이템간 유사도를 구할 수 있습니다. 어떤 아이템이 과연 어떤 아이템과 가장 비슷한가? 혹은 비슷하지 않은가?를 계산할 수 있는 것이죠. 이 포스팅에서는 벡터를 이용하여 계산할 수 있는 유사도들을 알아보겠습니다. 1. 자카드 유사도(Jaccard Similarity) 자카드 유사도는 집합의 개념을 이용하는데요, 한..

article thumbnail
T-test의 개념과 R에서 적용하기

락 음악과 클래식 음악으로 분류되는 노래들의 길이는 유의미하게 차이가 날까요? 유산소 운동과 무산소 운동을 할 때 소비되는 칼로리에 차이가 있을까요? 이렇게 두 집단(락/클래식, 유산소/무산소)에 따라 값(노래 길이, 소비된 칼로리)의 평균에 차이가 존재하는지를 알아보고자 할 때, T-검정(T-test)을 사용합니다. 여기서 독립변수는 두 집단을 갖는 범주형 변수, 종속변수는 연속형 변수여야 합니다. 두 집단 평균 비교시 절차 독립 표본인 경우 독립적으로 추출된 두 집단의 모평균의 차이를 검정하기 위해 가설은 다음과 같이 설정합니다. $$H_0 : \mu_1 = \mu_2, \quad H_1 : \mu_1 \ne \mu_2$$ 주의해야 할 점은 두 그룹이 동등한(유사한) 집단이라는 보장이 있어야 한다는 ..

article thumbnail
상관분석의 개념과 R에서 적용하기

상관분석 상관분석은 회귀분석을 수행하기 전, 두 변수간 선형적인 관계가 존재하는지를 알아보는 분석입니다. 예를 들어 지능지수와 학업 성적간에 상호 의존 관계가 존재하는지를 그래프나 값을 통해 알아보는거죠. 주의해야 할 부분은 두 변수간의 원인-결과를 알아보는 분석이 아니라는 점입니다. 두 변수가 상관성(연관성)이 있을지, 얼마나 강한 관계가 존재하는지를 알아보는 과정이라고 할 수 있겠습니다. 산점도(Scatter plot) 산점도는 두 변수 간의 관계를 나타낸 그래프입니다. 각각에 대응하는 자료를 좌표 평면상에 점들로 나타내죠. 산점도를 통해서는 두 변수 간의 관계를 대략적으로만 알 수 있습니다. 이 관계를 객관적으로 파악하기 위해서는 상관계수(correlation coefficient)로 상관성의 정도..

article thumbnail
고정효과와 임의효과

고정효과와 임의효과의 비교에 앞서, 요인과 수준의 개념을 짚고 가겠습니다. 요인(factor) : 실험에서 결과에 영향을 끼칠 것이라고 고려되는 독립변수 수준(level) : 실험에 사용되는 요인의 값 예를 들어, 귤나무에서 가장 많은 귤을 수확하게 해주는 토질의 종류가 무엇인지 알아보는 실험을 한다고 합시다. 이때 귤의 수확량에 영향을 미치는 토질은 요인이 되며, 토질의 종류인 모래흙, 일반흙, 진흙은 요인의 수준이 됩니다. 이 실험을 통해 관심요인인 토질의 수준 간 효과 차이를 검증하게 됩니다. 고정효과(Fixed effect) ○ 요인(factor)의 수준을 실험자가 직접 지정한 경우. 실험자는 오직 이 수준들의 비교에만 관심이 있습니다.○ 실험된 요인의 수준에 대해서만 비교가 가능하여 통계 추론이..

article thumbnail
단순회귀분석(Simple Linear Regression)

통계학의 핵심은 단연 회귀분석이라고 할 수 있습니다. 회귀분석(Regression Analysis)이란 독립변수와 종속변수 사이의 관련성을 수학적 모형을 이용하여 추정하고 분석하는 통계적 방법을 말합니다. 독립변수(Independent variable) 또는 설명변수(Explanatory variable) 또는 예측변수(Predictor variable)는 서로 관련이 있는 변수들 중 다른 변수에 영향을 주는 변수를 뜻하며, 종속변수(Dependent variable) 또는 반응변수(Response variable)는 독립변수에 의해 영향을 받는 변수를 뜻합니다. 예를 들어, 영화 상영관의 수를 독립변수, 관람객 수를 종속변수라고 한다면, 상영관의 수가 증가하면 관람객의 수가 증가한다는 두 변수 사이의 ..

반응형