오늘 할 일: 갈고 닦기
article thumbnail

들어가며

 
비교적 최근에 생긴 빅데이터 분석기사라고 하는 기사 자격증이 있습니다. 데이터 관련 경력을 쌓고 있는 저를 스스로 시험할 수 있게 하는 좋은 자격증인 것 같더라고요. 심지어 생긴지 오래되지 않아서 난이도도 그렇게 높지 않다고 해요. 그래서 올해 4월 초에 빅데이터 분석기사 필기 시험을 치루었습니다. 공부는 충분하게 하지 못했지만 그동안 다져온 경력으로 믿음을 갖고(?) 대응했고 다행히 한번에 합격했습니다..
 
원하는 고사장에서 시험을 보고 싶다면 접수를 빨리 하시는 것이 좋겠습니다. 저는 실기 접수가 열리고 나서 3~4일 후 쯤에 접수를 하려고 데이터자격검정 사이트에 들어갔는데, 서울에서 한 2개 고사장 정도만 자리가 남아있더라고요. 집에서 1시간 거리에 있는 한 대학교에서 시험을 치루었습니다. 핫플레이스 방문도 서둘러서 가야 여유있게 즐길 수 있는데.. 시험도 마찬가지일 줄은 몰랐네요.🤣🤣


 

실기 준비 방법

 

작업 1, 2유형

 
작년 가을쯤인가 올해 시험을 치를 것을 대비하여 필기/실기 책을 사놨습니다. 2023 최적합 빅데이터분석기사 실기인데요. 다만 작년에 바뀐 작업 3유형이 반영되지 않은 버전이었습니다. 다행히 1, 2유형은 그대로였기 때문에.. 이 책을 사용해 기출문제를 풀며 대비할 수 있었습니다. 
 
1유형은 pandas를 이용한 데이터 전처리, 계산 등이 전부여서 난이도가 낮습니다. 3문제가 각각 10점씩이고 정해진 순차에 따라서 코딩을 하고 최종으로 얻게되는 값을 제출합니다.

2유형은 그보다 난이도가 있고 점수도 40점이나 됩니다. 머신러닝 모델을 학습하고 결과를 제출하는 문제로 성능 결과에 따라 점수를 줍니다.

 

작업 3유형

 
갖고 있던 책에는 3유형이 없어서 유투브의 힘을 빌렸습니다. 확인해보니 3유형은 통계 분석에 대한 문제들로 모델링, 검정, 값 예측, 해석과 같은 작업들을 하는 것 같더라고요. scipy와 statsmodels 라이브러리를 활용해서 일표본 검정, 이표본 검정, 독립성 검정, 상관분석, 다중회귀분석, 로지스틱 회귀분석(분산분석도 했어야했는데.. 다행히 시험에 나오지는 않음)을 적용하는 예시들을 공부했습니다. 지피티한테 “파이썬을 이용해서 ㅇㅇ 예시 문제 작성해줘” 라고하면 데이터를 만들어서 분석도 하고 설명도 해주니 적극 이용해보세요.
 
https://youtu.be/37GqFZVjc1Y?si=UMPcRoE3mhG9GQYx

 
 

8회 실기 문제들


작업 1유형


1. 대륙별, 나라별 음주 소비량 데이터

대륙마다 평균 음주 소비량을 계산해 최대인 대륙을 구하고, 그 대륙 안에서 음주 소비량의 최댓값을 구했던 것 같습니다. (한 단계가 더 있었던 것 같은데.. 기억 상실됨)

2. 관광객 데이터

컬럼 전처리해 파생 변수 2개를 만들고, 그 파생 변수의 최댓값을 가진 국가의 다른 컬럼값 2개를 얻고 합계를 얻는 문제였습니다.

3. 환경 값

컬럼을 최대-최소 변환한 후 표준편차의 차이를 얻는 문제였습니다.


작업 2유형


지하철의 이용객수를 예측하는 문제였습니다. 변수는 10개가 넘었고 연속형과 범주형 모두 있었습니다. 결측값은 없었어요.

범주형 변수들을 조합해 파생변수를 만들었고, xgb 회귀모형에 기본 파라미터로 예측한 것이 검증 데이터에서 제일 성능이 나았습니다. 파라미터 튜닝은 안하는 것이 더 나았고 파생변수를 만든 게 더 의미있었네요. 결과값을 정수로 제출해야할 것 같은데 설명에 분명하게 없어 헷갈렸네요.. 결국 반올림해서 제출하긴 했습니다.


작업 3유형


1. 고객이탈률 예측

페널티 없이 로지스틱 회귀모형을 이용해 고객이탈률을 예측하는 모델을 만들고 아래 세 개 문제(각 5점)를 풀어 제출했습니다. 시험 중간에 상수항도 유의미한 계수이면 결과에 넣고 아니면 제외하라고 안내 팝업이 떴었네요.

1) 전체 변수 사용 시 유의하지 않은 변수 개수
2) 1)에서 유의한 변수만 사용 시 회귀계수들의 합계 또는 평균..(이 결과에서 유의한 변수만 쓰라고 했는지 아닌지는 잘 기억나지 않네요)
3) 특정 변수가 5 단위 증가할 때 오즈비가 어떻게 되는지


2. 지능 예측

세 개 변수를 이용해 지능을 예측하는 다중선형회귀를 적합하고 아래 세 개 문제를 풀어 제출했습니다.
1) p값이 제일 작은 변수의 회귀계수
2) 알제곱 구하기
3) 실제 값으로 결과 예측하기
 

마치며


간단한 총평을 해보자면 파이썬으로 통계 모형 다루는 방법을 더 잘 대비하고 갈 걸.. 아쉽다..! 였습니다. 통계 모형 내용을 오랜만에 보기도 했고, 파이썬으로는 해보지 않은 영역이어서 라이브러리, 함수 설명을 찾아보느라 시간을 많이 잡았네요ㅠ 다시 본다면 더 잘하겠지만 재시험을 치르고 싶지는 않습니다..ㅎㅎ 8회 빅분기 실기 결과는 7월 5일 오후 4시에 공개된다고 합니다. 그날 사전점수를 알려준다고 하니 그때까지 물 떠놓고 합격 커트라인만을 넘었기를 기도하고 있겠습니다.🙏