오늘 할 일: 갈고 닦기
article thumbnail
[자격증] 제 8회 빅데이터 분석기사 실기 후기 (빅분기 실기 준비 방법, 문제 복기)

들어가며 비교적 최근에 생긴 빅데이터 분석기사라고 하는 기사 자격증이 있습니다. 데이터 관련 경력을 쌓고 있는 저를 스스로 시험할 수 있게 하는 좋은 자격증인 것 같더라고요. 심지어 생긴지 오래되지 않아서 난이도도 그렇게 높지 않다고 해요. 그래서 올해 4월 초에 빅데이터 분석기사 필기 시험을 치루었습니다. 공부는 충분하게 하지 못했지만 그동안 다져온 경력으로 믿음을 갖고(?) 대응했고 다행히 한번에 합격했습니다.. 원하는 고사장에서 시험을 보고 싶다면 접수를 빨리 하시는 것이 좋겠습니다. 저는 실기 접수가 열리고 나서 3~4일 후 쯤에 접수를 하려고 데이터자격검정 사이트에 들어갔는데, 서울에서 한 2개 고사장 정도만 자리가 남아있더라고요. 집에서 1시간 거리에 있는 한 대학교에서 시험을 치루었습니다. ..

article thumbnail
[기타] 개인 회고: 제안서를 작성하며 깨달은 3가지

들어가며 최근 제안서를 작성하는 업무를 수행했습니다. 제안서를 작성하며 정말 많은 고생을 했다는 경험은 여러 차례 들어보았는데, 드디어 저한테도 순서가 온 것이지요.. 여러 난관이 있었지만, 생전 처음 제안서를 마주하며 특히 크게 와닿은 세 가지는 새롭게 주어진 일을 받아들일 자세, 남을 설득하는 자세, 큰 그림을 그리는 자세였습니다. 본 포스트는 이 세 가지를 중심으로 제가 느꼈던 점들을 공유하고자 작성하였습니다. 개인적인 회고를 위해 작성한 글이며, 제안서 작성 방법론은 없습니다. 스리슬쩍 사라질 수도 있습니다.  새로운 일을 받아들일 결심: (이걸요? 제가요? 왜요?) 네 앞에서 언급했다시피 이번 기회를 통해 처음으로 제안서를 접하였습니다. 그나마 다행이었던 점은 제안서 전체를 작성하는 것이 아니라..

article thumbnail
[독서] 데이터 드리븐 리포트 후기
일상다반사/독서 2024. 5. 26. 18:05

한빛미디어 ‘나는리뷰어다2024’ 서평단으로서 선정한 세 번째 도서는 ‘데이터 드리브 리포트’입니다. 이번에는 실물 책이 아닌 e-book으로 책을 받아봤는데요. 무겁지도 않고 어디서든 볼 수 있었지만.. 역시 독서는 실물 책으로 하는 것이 집중도 잘 되고 더 읽는 기분이 나서 좋은 것 같네요..😅도서 선정 이유 데이터 직무를 계속 하고 싶은 사람으로서 분석 결과를 갖고 팀원들, 다른 부서, 나아가 고객과도 잘 소통하기 위해서 이번 도서를 선정했습니다. 고백하자면 그동안 업무를 하면서 분석을 잘했을지언정 누구나 잘 이해하게 내용을 전달했나? 에 대한 대답은 잘 모르겠습니다. 스토리텔링이 중요하다는데 그런건 소설 쓰는 사람들이 알아야 하는 것 아니었나 의문을 가진 채로 어디서부터 시작해야 하나 막막해하며..

article thumbnail
[후기] 5월 데이터리안 세미나: "생성형 AI와 함께하는 데이터 분석가 커리어"

들어가며 IT 산업 종사자로서 생성형 AI 가 대두되기 시작하며 과연 데이터 사이언티스트/분석가란 직무는 어떻게 될까? 어떤 영향을 받을까? 업무에서 생산성이 올랐을 거라 기대되니 채용을 줄이려나? 계속 이 일을 할 수 있을까..?🥲 하는 꼬리에 꼬리를 무는 질문들을 하게 되었습니다. 마침 데이터리안에서 이런 고민들을 해소해줄 수 있는 세미나가 있다고 하여 바로 신청해봤습니다. (#내돈내산) 3월에도 데이터리안에서 진행하는 퍼널 분석 세미나를 들었는데, 사용자를 이해하면서 서비스를 개선시키는 분석은 이런 것이구나 하는 걸 알 수 있어서 흥미롭게 봤었습니다. 퍼널 분석이라는 방법론도 흥미로웠지만 실무 경험들을 바탕으로 한 질의응답도 알찼던 것으로 기억합니다. 그 경험을 바탕으로 데이터리안에서 진행하는 세..

article thumbnail
[데이터] 어노테이션 가이드 작성하는 방법

들어가며머신러닝, AI 프로젝트에서는 모델 학습을 위해서 학습 데이터를 구축합니다. 이미 잘 마련된 데이터를 바로 가져다 쓰면 너무나도 편리하겠지만, 그런 해피한 상황은 잘 없는 것 같습니다. 텍스트나 이미지처럼 비정형 데이터는 특히 더 그런 것 같구요.  "Garbage in, garbage out" 머신러닝 필드에서 유명한 격언이죠. 학습 데이터의 품질이 보장되어야 모델의 성능과 신뢰도를 보장할 수 있습니다. 학습 데이터를 잘 만들려면 적절한 가이드라인이 필요합니다. 보통 모델 학습을 위해 몇 만건 씩은 데이터가 필요한데, 한 명이서 그 많은 작업을 할 수 없으니 여러 명이서 작업을 하게 되고요. 여러 명이서 작업하는데 각자의 기준을 갖고 데이터를 만들면.. 데이터 품질이 보장되었다고 하기 어렵습니다..

article thumbnail
[python] tenacity 라이브러리를 이용해 코드 재실행하는 방법

들어가며 파이썬으로 운영을 위한 프로그램을 만들었습니다. 프로그램을 동작시키던 도중 예기치 못한 오류가 발생하여 재실행이 필요한 때는 언제든 발생할 수 있죠. 실제 운영 프로그램을 설계하면 API라던지 DB라던지 파이썬의 메인 프로그램과 다른 여러 환경들이 얽혀있다는 점을 잘 아실 겁니다. 이렇게 파이썬 밖에 있는 환경이 얽혀있을 때는 특히 통신 오류가 발생할 수 있는데요. 정확한 원인을 알 수 없는 오류가 발생하여 잠시 대기한 후에 재실행을 하면 다시 잘 되는 경우도 있죠. 이런 경우를 대비하기 위해 Tenacity 라이브러리를 적용하여 쉽게 코드를 재실행 할 수 있습니다. Tenacity 사용하기 Tenacity는 예외가 발생하는 경우에 다시 함수를 실행시켜서 사용자가 원하는 결과를 받고 안정적으로 ..

article thumbnail
[독서] 실무로 통하는 인과추론 with 파이썬 후기
일상다반사/독서 2024. 3. 24. 14:11

한빛미디어 '나는리뷰어다2024' 서평단으로서 선정한 두 번째 도서는 '실무로 통하는 인과추론 with 파이썬' 입니다. https://www.hanbit.co.kr/store/books/look.php?p_code=B6208936856 실무로 통하는 인과추론 with 파이썬 데이터 기반의 통찰력 있는 의사결정을 위한 인과추론, 효율적인 영향력 분석을 통한 성공적인 비즈니스 정책 결정 www.hanbit.co.kr 도서 선정 이유 머신러닝 모델을 학습하기 위해 많은 변수를 수집할 때마다 생각합니다. 이거 진짜 결과에 영향 주는 변수 맞아..? 일단 활용 가능한 것들 다 넣어보는 거 아녀..? 사실 하나하나의 변수가 결과와 직접적인 관련이 없어 보이더라도 다른 변수들과의 상호 작용으로 인해 결과와 연관이 ..

article thumbnail
[독서] 쉽고 빠르게 익히는 실전 LLM 리뷰
일상다반사/독서 2024. 2. 23. 21:23

1월 중순 쯤 글쓰기 동호회 지인을 통해 한빛미디어에서 나는리뷰어다2024 모집을 한다는 것을 알게 되었습니다. 한번쯤은 지원 받은 도서를 리뷰해보고 싶다!! 생각했는데, 기회가 닿아 서평단에 선정이 되었네요.🎉🎉 제가 서평단으로서 선정한 첫 번째 도서는 입니다. https://www.hanbit.co.kr/store/books/look.php?p_code=B7077705203 쉽고 빠르게 익히는 실전 LLM LLM 입문자도 당장 시작할 수 있게 해 주는 단계별 가이드 www.hanbit.co.kr 도서 선정 이유 AI 업계에서 일하다보니 가만히 있어도 산업 동향이 들립니다. 특히 챗지피티 등장 이후로 급격하게 판도가 바뀌고 있는 것을 느끼고 있습니다. 챗지피티 이후로 1년이 지났는데 영향력은 더 강해지..

article thumbnail
[IR] RRF(Reciprocal Rank Fusion) 설명과 파이썬 코드

본 포스트에서는 정보 검색과 랭킹에서 사용되는 알고리즘인 RRF(Reciprocal Rank Fusion)에 대해 알아보겠습니다. 먼저 정의를 살펴본 후, 파이썬에서 구현하며 어떻게 결과가 바뀔 수 있는지 함께 확인하겠습니다. RRF(Reciprocal Rank Fusion) 알고리즘이란? RRF를 우리말로 옮기면 "상호간의 순위 융합" 정도가 되겠습니다. 말그대로, 다양한 검색 결과의 순위를 종합하여(있어보이는 표현으로는 "하이브리드하게"라는 표현이 있음) 검색 순위를 다시 매기는 하이브리드 알고리즘입니다. 다양한 검색 결과를 종합하는 이유는, 한 가지 방법론을 사용해 얻은 검색 결과만으로는 사용자들의 다양한 요구사항을 두루두루 만족시킬 수 없기 때문입니다. 여러 방법론으로 검색 결과를 얻게 되는 경우..

article thumbnail
[IR] BM25 랭킹 알고리즘 / rank_bm25 라이브러리 사용하기

본 포스트에서는 정보 검색(Information Retrieval)에서 사용되는 BM25 알고리즘에 대해 알아보고, 파이썬에서 사용할 수 있도록 구현된 rank_bm25 라이브러리를 통해 알고리즘을 적용해보겠습니다. BM25(Best Match 25) BM25(or Okapi BM25)는 검색하고자 하는 쿼리와 다른 문서들과의 연관성을 평가하는 알고리즘입니다. 키워드 기반의 랭킹 알고리즘으로, 엘라스틱서치는 5.0부터 유사도 알고리즘으로 이 BM25를 디폴트로 적용했다고 합니다. BM25는 TF-IDF 기반으로, TF-IDF를 알고 있다면 크게 어렵지 않게 이해할 수 있습니다! TF-IDF(Term Frequency-Inverse Document Frequency) 먼저 간단하게 TF-IDF에 짚고 가겠..

반응형