Pandas 기초 마지막 포스팅입니다. 여기서는 데이터를 요약하는 몇가지 함수들을 알아보겠습니다.
describe() : 수치형 칼럼 요약
grades.describe().round(2)
describe()는 수치형 값을 갖는 칼럼에 한해 count(빈도수), mean(평균), std(표준편차), min(최솟값), 25%(제1사분위수), 50%(제2사분위수), 75%(제3사분위수), max(최댓값)를 제공합니다.
round(N)는 소수점 자리수에서 반올림을 해주는 함수인데, N+1번째 자릿수에서 반올림하여 소숫점 아래 숫자를 N개만 남깁니다.
quantile() : 분위수 구하기
grades.quantile([0.1, 0.4, 0.7, 0.9])
사용자가 직접 구하고 싶은 분위수를 지정하여 값을 얻을 수 있습니다. 수치형 칼럼이 갖는 값들을 오름차순으로 나열한 다음, 10%, 40%, 70%, 90%에 해당하는 값을 구하였습니다.
mean, std, var, count, median, min, max : 평균, 표준편차, 분산, 빈도수, 중위수(중앙값), 최솟값, 최댓값
grades['Math'].mean()
grades['Math'].std()
grades['Math'].var()
grades['Math'].count()
grades['Math'].median()
grades['Math'].min()
grades['Math'].max()
Math 칼럼의 평균, 표준편차, 분산, 빈도수, 중위수, 최솟값, 최댓값을 구합니다. 따로 칼럼을 지정하지 않으면 수치형 칼럼 각각마다 연산된 값을 구해줍니다.
value_counts() : 범주마다 빈도수 구하기
grades['Class'].value_counts()
A 3
C 3
B 2
Name: Class, dtype: int64
범주형 변수가 갖는 범주마다 빈도수를 구합니다. grades 데이터 프레임에서 칼럼 Class는 다음과 같은 값들을 가졌습니다.
nunique() : 중복되지 않는(유일한) 값의 개수 구하기
grades['Class'].nunique()
3
Class 칼럼은 값 A, B, C를 여러 개 갖지만 유일한 값은 A, B, C 즉 3개 뿐입니다. 따라서 결과가 3이 됩니다.
참고자료
https://towardsdatascience.com/pandas-cheat-sheet-4c4eb6802a4b
'繩鋸木斷水滴石穿 > Python' 카테고리의 다른 글
[100 Numpy exercies] 1번 ~ 10번 (0) | 2021.01.30 |
---|---|
[Python] 값을 변경하여 새로운 칼럼을 만드는 방법 (0) | 2020.06.12 |
Pandas 기초 - 데이터 프레임 개조하기(칼럼명 변경, 정렬, 결합) (0) | 2020.04.14 |
Pandas 기초 - 데이터 만들기부터 조회까지 (0) | 2020.04.10 |
Numpy 기초 튜토리얼 (0) | 2020.04.03 |