오늘 할 일: 끝내주게 숨쉬기
article thumbnail
[데이터] 어노테이션 가이드 작성하는 방법

들어가며머신러닝, AI 프로젝트에서는 모델 학습을 위해서 학습 데이터를 구축합니다. 이미 잘 마련된 데이터를 바로 가져다 쓰면 너무나도 편리하겠지만, 그런 해피한 상황은 잘 없는 것 같습니다. 텍스트나 이미지처럼 비정형 데이터는 특히 더 그런 것 같구요.  "Garbage in, garbage out" 머신러닝 필드에서 유명한 격언이죠. 학습 데이터의 품질이 보장되어야 모델의 성능과 신뢰도를 보장할 수 있습니다. 학습 데이터를 잘 만들려면 적절한 가이드라인이 필요합니다. 보통 모델 학습을 위해 몇 만건 씩은 데이터가 필요한데, 한 명이서 그 많은 작업을 할 수 없으니 여러 명이서 작업을 하게 되고요. 여러 명이서 작업하는데 각자의 기준을 갖고 데이터를 만들면.. 데이터 품질이 보장되었다고 하기 어렵습니다..

article thumbnail
[python] tenacity 라이브러리를 이용해 코드 재실행하는 방법

들어가며 파이썬으로 운영을 위한 프로그램을 만들었습니다. 프로그램을 동작시키던 도중 예기치 못한 오류가 발생하여 재실행이 필요한 때는 언제든 발생할 수 있죠. 실제 운영 프로그램을 설계하면 API라던지 DB라던지 파이썬의 메인 프로그램과 다른 여러 환경들이 얽혀있다는 점을 잘 아실 겁니다. 이렇게 파이썬 밖에 있는 환경이 얽혀있을 때는 특히 통신 오류가 발생할 수 있는데요. 정확한 원인을 알 수 없는 오류가 발생하여 잠시 대기한 후에 재실행을 하면 다시 잘 되는 경우도 있죠. 이런 경우를 대비하기 위해 Tenacity 라이브러리를 적용하여 쉽게 코드를 재실행 할 수 있습니다. Tenacity 사용하기 Tenacity는 예외가 발생하는 경우에 다시 함수를 실행시켜서 사용자가 원하는 결과를 받고 안정적으로 ..

article thumbnail
[독서] 실무로 통하는 인과추론 with 파이썬 후기
일상다반사 2024. 3. 24. 14:11

한빛미디어 '나는리뷰어다2024' 서평단으로서 선정한 두 번째 도서는 '실무로 통하는 인과추론 with 파이썬' 입니다. https://www.hanbit.co.kr/store/books/look.php?p_code=B6208936856 실무로 통하는 인과추론 with 파이썬 데이터 기반의 통찰력 있는 의사결정을 위한 인과추론, 효율적인 영향력 분석을 통한 성공적인 비즈니스 정책 결정 www.hanbit.co.kr 도서 선정 이유 머신러닝 모델을 학습하기 위해 많은 변수를 수집할 때마다 생각합니다. 이거 진짜 결과에 영향 주는 변수 맞아..? 일단 활용 가능한 것들 다 넣어보는 거 아녀..? 사실 하나하나의 변수가 결과와 직접적인 관련이 없어 보이더라도 다른 변수들과의 상호 작용으로 인해 결과와 연관이 ..

article thumbnail
[독서] 쉽고 빠르게 익히는 실전 LLM 리뷰
일상다반사 2024. 2. 23. 21:23

1월 중순 쯤 글쓰기 동호회 지인을 통해 한빛미디어에서 나는리뷰어다2024 모집을 한다는 것을 알게 되었습니다. 한번쯤은 지원 받은 도서를 리뷰해보고 싶다!! 생각했는데, 기회가 닿아 서평단에 선정이 되었네요.🎉🎉 제가 서평단으로서 선정한 첫 번째 도서는 입니다. https://www.hanbit.co.kr/store/books/look.php?p_code=B7077705203 쉽고 빠르게 익히는 실전 LLM LLM 입문자도 당장 시작할 수 있게 해 주는 단계별 가이드 www.hanbit.co.kr 도서 선정 이유 AI 업계에서 일하다보니 가만히 있어도 산업 동향이 들립니다. 특히 챗지피티 등장 이후로 급격하게 판도가 바뀌고 있는 것을 느끼고 있습니다. 챗지피티 이후로 1년이 지났는데 영향력은 더 강해지..

article thumbnail
[IR] RRF(Reciprocal Rank Fusion) 설명과 파이썬 코드

본 포스트에서는 정보 검색과 랭킹에서 사용되는 알고리즘인 RRF(Reciprocal Rank Fusion)에 대해 알아보겠습니다. 먼저 정의를 살펴본 후, 파이썬에서 구현하며 어떻게 결과가 바뀔 수 있는지 함께 확인하겠습니다. RRF(Reciprocal Rank Fusion) 알고리즘이란? RRF를 우리말로 옮기면 "상호간의 순위 융합" 정도가 되겠습니다. 말그대로, 다양한 검색 결과의 순위를 종합하여(있어보이는 표현으로는 "하이브리드하게"라는 표현이 있음) 검색 순위를 다시 매기는 하이브리드 알고리즘입니다. 다양한 검색 결과를 종합하는 이유는, 한 가지 방법론을 사용해 얻은 검색 결과만으로는 사용자들의 다양한 요구사항을 두루두루 만족시킬 수 없기 때문입니다. 여러 방법론으로 검색 결과를 얻게 되는 경우..

article thumbnail
[IR] BM25 랭킹 알고리즘 / rank_bm25 라이브러리 사용하기

본 포스트에서는 정보 검색(Information Retrieval)에서 사용되는 BM25 알고리즘에 대해 알아보고, 파이썬에서 사용할 수 있도록 구현된 rank_bm25 라이브러리를 통해 알고리즘을 적용해보겠습니다. BM25(Best Match 25) BM25(or Okapi BM25)는 검색하고자 하는 쿼리와 다른 문서들과의 연관성을 평가하는 알고리즘입니다. 키워드 기반의 랭킹 알고리즘으로, 엘라스틱서치는 5.0부터 유사도 알고리즘으로 이 BM25를 디폴트로 적용했다고 합니다. BM25는 TF-IDF 기반으로, TF-IDF를 알고 있다면 크게 어렵지 않게 이해할 수 있습니다! TF-IDF(Term Frequency-Inverse Document Frequency) 먼저 간단하게 TF-IDF에 짚고 가겠..

article thumbnail
[NLP] 텍스트 전처리: 파이썬에서 띄어쓰기, 문장 분리 라이브러리 사용하기

들어가며 자연어 처리 모델은 입력 데이터의 형태에 굉장히 의존합니다. 동일한 의미를 가진 단어임에도 매번 형태가 달라진다면 모델의 성능을 보장할 수 없습니다. 텍스트를 최대한 규칙적이고 일관된 형태로 변환하기 위해 불필요한 정보들(불용어, 이모티콘, 특수기호, 이메일, 전화번호, 주소 등)를 제거하고, 맞춤법과 띄어쓰기 교정하기, 문장을 분리하기 등 다양한 전처리를 거치는데요,본 포스트에서는 텍스트 전처리 중 띄어쓰기와 문장 분리를 하는 방법들을 알아보겠습니다! 파이썬 ver: 3.8.10 띄어쓰기 적용하기: PyKoSpacing 띄어쓰기가 아예 되어있지 않은 한국어 문장 "아버지가방에들어가신다"는 두 가지 의미로 이해될 수 있습니다. "아버지가 방에 들어가신다"와 "아버지 가방에 들어가신다"로요. 띄어..

article thumbnail
[공연] 실리카겔 <POWER ANDRE 99> 콘서트 관람 후기
일상다반사 2023. 11. 12. 14:30

왜 실리카겔인가(소제목의 비장함에 비해 내용없음 주의) 현대인들이 갖고 있는 취미 중 가장 흔한 것을 꼽으라면 음악 감상이 아닐까 생각한다. 유튜브, 멜론, 스포티파이, 애플뮤직 등 다양한 플랫폼을 통해 음악을 들을 수 있으니 접근성이 좋고 장소에 구애받지 않고 이어폰만 있으면 되고. 나또한 출퇴근길에서 무료함을 해소하기 위해, 많은 인파들 사이에서 조금이나마 숨통을 트이고 나의 공간을 만들기 위해 음악 감상을 취미로 갖고 있다. 올해 알게 된 가수 중 가장 인상적인 가수는 단연 실리카겔이다. 우연히 추천을 받아 NO PAIN 을 들었는데 시작할 때부터 몰아치는 밴드 사운드가 먼저 집중도를 높이는 데에 큰 공헌을 했다. 이어서 ‘소외됐던 사람들 모두 함께 노래를 합시다‘라는 가사도 따뜻함이 느껴져 굉장히..

article thumbnail
[체험] 2023 현대 롱기스트런 10km 마라톤 후기
일상다반사 2023. 10. 29. 19:21

마라톤 신청 / 준비하기 5월에 5km 마라톤을 처음 도전한 후로 올해 중에 한두번 정도 더 해보면 좋겠다고 생각했다. 5km로 말이다. 10km는 생각도 안하고 있었는데, 역시 사람일은 모른다고. 정신을 차려보니 10km 마라톤을 신청한 뒤였다. 보험도 같이 해주니 기댈 구석이 생겨 안심도 됐다. 런데이에서 진행하는 '롱기스트런' 이벤트에 참여하면 선착순 무료로 10km 파이널런에 참여할 수 있다고 들었다. 무료라는 것에 순간 혹해서 신청을 하게 되었다. '롱기스트런' 이벤트는 크게 어렵지 않았다. 15분씩 5회 달리기를 하는 것이 전부였다. 9월 초에 신청했는데 당시 달리기를 오래 하지 않은 상태였어서 그냥 산책 겸 걸었다.. ㅎㅎ 파이널런을 신청하고나니 조금 위기감을 느껴 다시 달리기 연습을 시작했..

article thumbnail
[체험] 제8회 베지노믹스페어 비건페스타&그린페스타 후기
일상다반사 2023. 10. 18. 12:18

들어가며 나는 내가 원하는 때에만 채식을 한다. 플렉시테리언이라고 주장할 수도 있겠지만 아직 채식 위주의 식사를 한다기엔 부족한 점이 많다. 밖에서 음식을 먹을 때는 육류나 생선을 피하기 어렵고 그 맛을 잘 알기에 찾아 먹기도 한다. 대신 혼자 밥을 먹어야할 때는 채식을 하려고 신경을 쓴다. 일주일에 한 두번 정도는 버섯 샐러드, CJ 플랜테이블, 풀무원 지구식단 라인 제품 등으로 채식 식단을 하고 있다. “비건 한 명이 제대로 된 비건 식단을 하는 것보다 완전하지 않은 비건들이 가끔 비건 식단을 챙겨먹는 것이 훨씬 현실적이고 그 문화가 널리 퍼지는 데에도 도움이 된다”고 한다. 옛날에는 막연하게 비건은 어렵고 접근성도 높다고 생각했는데, 이 의견을 들은 후로부터는 작게라도 실천하자는 생각이 들었다. 다..

반응형