오늘 할 일: 끝내주게 숨쉬기
article thumbnail
[데이터] 어노테이션 가이드 작성하는 방법

들어가며머신러닝, AI 프로젝트에서는 모델 학습을 위해서 학습 데이터를 구축합니다. 이미 잘 마련된 데이터를 바로 가져다 쓰면 너무나도 편리하겠지만, 그런 해피한 상황은 잘 없는 것 같습니다. 텍스트나 이미지처럼 비정형 데이터는 특히 더 그런 것 같구요.  "Garbage in, garbage out" 머신러닝 필드에서 유명한 격언이죠. 학습 데이터의 품질이 보장되어야 모델의 성능과 신뢰도를 보장할 수 있습니다. 학습 데이터를 잘 만들려면 적절한 가이드라인이 필요합니다. 보통 모델 학습을 위해 몇 만건 씩은 데이터가 필요한데, 한 명이서 그 많은 작업을 할 수 없으니 여러 명이서 작업을 하게 되고요. 여러 명이서 작업하는데 각자의 기준을 갖고 데이터를 만들면.. 데이터 품질이 보장되었다고 하기 어렵습니다..

article thumbnail
[NLP] 감성 분석과 ABSA(Aspect-Based Sentiment Analysis) 개념

최근 새로운 자연어 처리라는 새로운 태스크를 접하게 되었습니다. 자연어 처리 과제 중에서도 텍스트에 내포된 감성에 대해 분석하는 과제인 "감성 분석(Sentiment Analysis)"과 "ABSA(Aspect-Based Sentiment Analysis)"에 대해 알아보았고, 간단하게 개념을 정리하기 위해 포스트로 남깁니다. 감성분석 ABSA에 대해 이해하기 위해서는 감성 분석에 대해 먼저 알아야겠습니다. 감성 분석이란, "텍스트에서 감정을 파악하는 자연어 처리(NLP, Natural Language Processing) 과제"입니다. 여기서 얘기하는 "텍스트"는 사람의 의견이 담긴 소비자 리뷰, 설문조사 응답, 채팅 등이 될 수 있습니다. 그 의견이 긍정적인지 부정적인지 혹은 중립적인지를 판단하는 것..

article thumbnail
[모니터링] 1) model drift의 개념과 원인(data drift, label drift, concept drift)

들어가며 머신러닝 프로젝트을 수행할 때 성능이 좋은 모델을 개발하고 배포했다고 해서 할 일이 다 끝난 것은 아닙니다. 배포한 모델이 잘 돌아가고 있는지, 예상한대로 결과를 주고 있는지 관찰하는 "모니터링"은 유지보수를 위해 필수적인 과정이죠. 본 포스트에서는 머신러닝 모델을 모니터링할 때 사용하는 "드리프트(drift)"라는 개념과 그 원인에 대해 알아보겠습니다. 모델 드리프트 우리가 개발한 머신러닝 모델이 항상 완벽한 데이터를 입력으로 받지는 않습니다. 모델을 개발할 때 수행하는 여러 전처리 과정들을 생각하면 바로 이해가 되죠. 이런 전처리를 수행하고도 완전히 비어있거나 불완전하거나 혹은 개발 때 학습하지 못했었던 데이터들이 들어올 수도 있습니다. 데이터 엔지니어링 절차에 문제가 없었고 데이터가 만들어..

article thumbnail
[MLOps] 2) ML의 생애주기와 구성요소

지난 MLOps 개념에 이어 이번 포스팅에서는 ML 생애주기를 알아보겠습니다. ML 프로젝트는 모델을 만드는 것만이 전부가 아닙니다. 가장 먼저 문제를 정의하는 과정이 필요하고, 데이터를 정의/수집/준비하는 과정을 진행합니다. 이후 모델을 어떻게 만들 것인지 살펴보게 되고, 모델이 만들어지면 평가를 하고, 이걸 서비스로 만드는 것입니다. 모델이 만들어지면 운영으로 올라갔다고 끝나지 않습니다. 지속적으로 서비스를 모니터링하고, 다시 루프를 돌아 재학습을 하고 재배포를 하는 일련의 과정 전체가 MLOps를 이루는 것이죠. ML 생애주기는 크게 3단계로 구성되어 있습니다. 데이터 준비 실험과 학습 배포와 서빙 각 단계마다 차근차근 구성요소를 알아보겠습니다. 1. 데이터 준비 데이터 준비는 데이터 가져오기, 데..

article thumbnail
[MLOps] 1) MLOps의 개념

머신러닝은 데이터의 숨어잇는 패턴을 감지하여 함수(모델)로 나타내고 미래 사건을 예측하는 알고리즘입니다. 그렇다면 머신러닝 프로젝트는 예측을 잘하는 모델을 만드는 것이 전부일까요? 그렇지 않습니다. 흩어져있는 데이터들을 어떻게 가져올 것이며, 그 중 어떤 데이터들을 가져올 것인지, 어떻게 가공할 것인지, 모델은 어떻게 만들고 평가는 어떤 방식으로 할지, 모델을 만든 뒤에는 서비스로 어떻게 연결할 것인지까지 모두 머신러닝 프로젝트에서 고민해야 되는 문제입니다. MLOps는 머신러닝 모델 자동화 프로세스로, 우리가 만든 모델이 실제 서비스로 이어질 수 있도록 해주는 파이프라인입니다. 본 포스팅에서는 MLOps가 무엇인지, 역할과 중요성에 대해 알아보겠습니다. MLOps(Machine Learning Oper..

반응형