오늘 할 일: 갈고 닦기
article thumbnail

Pandas 기초 마지막 포스팅입니다. 여기서는 데이터를 요약하는 몇가지 함수들을 알아보겠습니다.

 

describe() : 수치형 칼럼 요약

grades.describe().round(2)

describe()는 수치형 값을 갖는 칼럼에 한해 count(빈도수), mean(평균), std(표준편차), min(최솟값), 25%(제1사분위수), 50%(제2사분위수), 75%(제3사분위수), max(최댓값)를 제공합니다.

round(N)는 소수점 자리수에서 반올림을 해주는 함수인데, N+1번째 자릿수에서 반올림하여 소숫점 아래 숫자를 N개만 남깁니다. 

 

quantile() : 분위수 구하기 

grades.quantile([0.1, 0.4, 0.7, 0.9])

사용자가 직접 구하고 싶은 분위수를 지정하여 값을 얻을 수 있습니다. 수치형 칼럼이 갖는 값들을 오름차순으로 나열한 다음, 10%, 40%, 70%, 90%에 해당하는 값을 구하였습니다.

 

mean, std, var, count, median, min, max : 평균, 표준편차, 분산, 빈도수, 중위수(중앙값), 최솟값, 최댓값

grades['Math'].mean()
grades['Math'].std()
grades['Math'].var()
grades['Math'].count()
grades['Math'].median()
grades['Math'].min()
grades['Math'].max()

Math 칼럼의 평균, 표준편차, 분산, 빈도수, 중위수, 최솟값, 최댓값을 구합니다. 따로 칼럼을 지정하지 않으면 수치형 칼럼 각각마다 연산된 값을 구해줍니다.

 

value_counts() : 범주마다 빈도수 구하기

grades['Class'].value_counts()
A    3
C    3
B    2
Name: Class, dtype: int64

범주형 변수가 갖는 범주마다 빈도수를 구합니다. grades 데이터 프레임에서 칼럼 Class는 다음과 같은 값들을 가졌습니다.

 

nunique() : 중복되지 않는(유일한) 값의 개수 구하기

grades['Class'].nunique()
3

Class 칼럼은 값 A, B, C를 여러 개 갖지만 유일한 값은 A, B, C 즉 3개 뿐입니다. 따라서 결과가 3이 됩니다.

 

참고자료

https://pandas.pydata.org/

https://towardsdatascience.com/pandas-cheat-sheet-4c4eb6802a4b

https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf