오늘 할 일: 끝내주게 숨쉬기
article thumbnail
[YML/YAML] 파이썬에서 YAML(야믈) 파일 다루는 방법

본 포스트에서는 PyYAML 라이브러리를 이용해 파이썬에서 yaml 파일을 다루는 방법에 대해 알아보겠습니다. YAML(YAML Ain't Makeup Language)은 사람이 읽을 수 있는 데이터 직렬화 언어로, 데이터가 저장되거나 전송되는 환경설정 파일이나 어플리케이션에서 주로 사용됩니다. 유사한 목적으로 사용되는 XML, JSON과의 비교는 아래 사이트에서 확인해보면 좋을 것 같습니다. https://www.inflearn.com/questions/16184 yaml파일 이란 무엇인가요 - 인프런 | 질문 & 답변 안녕하세요 강사님 너무 질문이 많아서 죄송합니다. yaml파일 이라는 단어를 요 근래 많이 듣고 있는데 정확인 무슨 파일인가요 검색해 보지도 않고 무조건 질문을 드리는것 같아서 죄송하지..

article thumbnail
[시각화][seaborn] 2) 시각화 커스터마이징하기

seaborn 1) 다양한 시각화 함수에 이어 2) 커스터마이징편입니다. 시각화를 수행할 때 자주 사용하는 커스터마이징 세팅 들을 소개하겠습니다! seaborn은 matplotlib를 기반으로 시각화를 수행하는 패키지라고 했었죠. matplotlib의 함수를 사용하면 쉽게 원하는 그림을 그릴 수 있답니다. 사용하는 데이터는 이전과 동일하니, 이전 포스트를 참고해주세요. 사용하는 패키지는 pandas, seaborn, matplotlib입니다. import pandas as pd import seaborn as sns import matplotlib.pyplot as plt 1. 그림 크기 변경하기 figure 함수의 figsize 파라미터를 변경하여 그림의 사이즈를 조절합니다. 튜플로 (가로 사이즈, 세..

article thumbnail
[시각화][seaborn] 1) 기본적인 데이터 시각화 함수들

seaborn은 파이썬 시각화의 대표 주자로, matplotlib를 기반으로 작동하는 패키지입니다. 데이터 분석을 하다보면 숫자만으로는 데이터를 파악하기 어려울 때가 있죠. 시각화는 분석가가 데이터를 이해하기 위해서, 더 나아가 데이터를 기반으로 상대를 설득하기 위해서 반드시 알아야할 기술입니다. 미적 감각이 갖춰져있다면 더 예쁘고 요약이 잘 된 그림을 그릴 수 있겠지만..😓 많은 분석가들에게 그런 스킬은 어렵기 때문에 seaborn의 도움을 많이 받고 있습니다. 데이터가 저장된 판다스 데이터프레임 객체를 쉽게 시각화할 수 있으니, 사용하지 않을 이유가 더욱 없죠. seaborn 1편에서는 seaborn에서 제공하는 다양한 시각화 함수(displot, scatterplot, regplot, countpl..

article thumbnail
[pandas] 칼럼 이름 변경하기: rename, set_index, columns

데이터 분석을 하다보면 파이썬에서 판다스 데이터프레임의 칼럼을 변경해야 하는 경우가 가끔 있습니다. 본 포스트에서는 칼럼 이름을 변경하는 방법에 대해 알아보겠습니다. 먼저 사용할 임의의 데이터프레임을 생성하겠습니다. import pandas as pd df = pd.DataFrame({'id': ['a', 'b', 'c'], 'date': ['20211030', '20211031', '20211031'], 'price': [1000, 2000, 2500]}) display(df) 칼럼명을 변경하는 방법은 크게 세 가지입니다. rename 메서드를 이용하는 방법, set_axis 메서드를 이용하는 방법, columns 어트리뷰트에 직접 할당하는 방법이 있는데요 하나씩 알아보겠습니다! 1. rename 메서..

article thumbnail
imblearn 모듈을 이용한 불균형 데이터 다루기

머신러닝에서 분류 문제를 다룰 때 가장 먼저 데이터의 분포를 확인하죠. 타겟이 두가지 범주를 갖는지(-> binary classification), 세 개 이상의 범주를 갖는지(-> multi-class classification), 하나의 데이터가 여러가지 범주를 동시에 가질 수도 있는지(-> multi-label classification) 살펴봅니다. 그리고 각 범주가 전체의 몇 퍼센트를 차지하고 있는지 비율을 살펴봅니다. 전체 자산 중에 부동산이 50%이고 주식이 30%, 그리고 현금이 20%를 차지한다! 이런 식으로요. 각 범주의 비율이 균일하게 나올 수도 있지만, 현실의 많은 데이터들은 불균형한 비율을 갖고 있습니다. 예를 들어 회원들에게 쿠폰을 주는 앱푸시를 보냈는데 그 알람을 누른 회원은 ..

[numpy] random 모듈을 이용하여 랜덤추출하기

제가 매일 까먹어서 작성합니다... 본 포스팅에서는 numpy의 서브모듈인 random을 이용하여 난수를 생성하는 방법을 알아보겠습니다. random은 난수를 발생시키는 모듈로 randint, hoice, randint, uniform 등의 메서드를 내장하고 있습니다. 아래 코드를 통해 로드한 후 사용하는데, 기본 모듈인 random과 혼동되지 않도록 주의하세요. from numpy import random 난수(亂數, Random Number)란 정의된 범위 내에서 무작위로 추출된 수를 일컫는다. 난수는 누구라도 그 다음에 나올 값을 확신할 수 없어야 한다. (출처: 위키백과) 1. seed 시드 설정을 할 때마다 동일한 숫자 세트가 나타나 코드 디버깅과 같은 작업을 할 때 유용하게 사용할 수 있습니다..

article thumbnail
[pandas] rank와 sort_values를 이용하여 순위 매기기(부제: 여러 변수를 이용하여 순위 매기기)

학생들의 시험점수를 이용해 등수를 매길 때, 고객이 가장 필요로 할 것 같은 상품의 우선순위를 따질 때 등 순위를 생성해야하는 상황은 다양합니다.. 본 포스트에서는 데이터프레임에 저장된 변수를 이용해 순위를 생성하는 방법을 알아보겠습니다. 사용할 데이터는 다음과 같습니다. import pandas as np import numpy as np sample = pd.DataFrame({'id': ['A', 'B', 'C', 'D', 'E'] , 'time_spend_company': [4, 3, 4, 4, 3] , 'satisfaction_level': [0.89, 0.89, 0.74, 0.67, 0.72]}) display(sample) 1. rank 함수 이용하기 rank 함수는 주어진 값들을 이용하여 ..

article thumbnail
[pandas] 데이터 재구성: wide_to_long 함수와 melt 함수

데이터 분석을 하다보면 필요에 따라 기존에 구성되어 있는 데이터를 재구조화하기도 합니다. 본 포스팅에서는 파이썬에서 데이터프레임을 재구성하는 방법, 특히 wide하게 구성되어 있는 데이터를 long하게 변경하는 방법에 대해 알아보겠습니다. wide 데이터는 가로로 놓여진 데이터를, long 데이터는 세로로 늘어놓인 데이터라는 것을 이해하고 읽으시면 좋겠습니다. 사용할 데이터는 다음과 같습니다. import pandas as pd df = pd.DataFrame({"id" : ['a', 'b', 'c'], "pred1" : [0.5, 0.6, 0.8], "pred2" : [0.8, 0.6, 0.4], "pred3" : [0.2, 0.7, 0.5]}) display(df) unique한 아이디마다 세 종류의..

article thumbnail
[시각화] subplots와 반복문을 이용하여 그래프 여러개 그리기

데이터를 파악하기 위해서는 시각화가 필수입니다. 데이터가 어떻게 생겼는지 확인하기 위해 여러 그림을 그리다보면 한번에 그리고 싶을 때가 있죠. 본 포스팅에서는 matplotlib의 subplots 함수와 seaborn 라이브러리를 이용하여 그래프를 한번에 여러개 그려보도록 하겠습니다. 먼저 필요한 라이브러리들과 데이터를 불러옵니다. 데이터는 캐글에서 가져온 HR 자료를 사용했습니다. import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt df = pd.read_csv('./data/HR_comma_sep.csv') display(df.shape, df.head()) 위 데이터로부터 부서(Depa..

[datetime] 파이썬에서 datetime을 이용하여 날짜, 시간 다루기

데이터 분석을 할 때 빠지면 섭섭한 자료형이 바로 날짜, 시간입니다. 고객이 행동을 하면 기록되는 웹페이지 로그라던가 초단위로 집계되는 기계의 자동화 시스템이 시간과 함께 저장되는 대표적인 데이터라고 할 수 있겠습니다. 시간, 시점과 관련한 분석을 실행하기 위해서는 파이썬에서 어떻게 날짜와 시간을 처리하는지 알아야겠죠. 본 포스팅에서는 파이썬에서 날짜와 시간을 다루는데 사용되는 datetime 라이브러리 사용방법에 대해 알아보겠습니다. datetime 라이브러리 소개 datetime은 파이썬에서 날짜와 시간을 다루는 클래스, 함수들을 모아놓은 라이브러리입니다. datetime 라이브러리는 날짜와 시간을 함께 저장하는 datetime 클래스, 날짜 정보를 저장하는 date 클래스, 시간 정보를 저장하는 t..

반응형