머신러닝은 입력 데이터의 스트림(stream)으로부터 점진적으로 학습할 수 있는지에 따라 배치학습 또는 온라인학습으로 분류될 수 있습니다. 아래에서 각각에 대해 알아보겠습니다.
1. 배치 학습(Batch Learning) = 오프라인 학습
- 시스템이 점진적으로 학습할 수 없는 학습입니다.
- 이용 가능한 데이터를 학습할 시점에 모두 사용하여 훈련시켜야 합니다.
- 시간과 자원을 많이 소모하므로 보통 오프라인에서 수행됩니다.
- 모델을 훈련시키고 적용하면 더 이상의 학습없이 실행됩니다.
- 새로운 데이터에 대해 학습하려면 새로운 데이터뿐만 아니라 이전 데이터도 모두 포함한 전체 데이터를 사용해 처음부터 다시 학습시켜야 합니다.
- 데이터를 업데이트하고 시스템의 새 버전을 서비스 운영에 필요한 만큼 자주 훈련시키면 됩니다.
- 다만 데이터가 빠르게 변화하여 모델이 이에 신속하게 대응해야 하는 경우에는 적절하지 않습니다.
2. 온라인 학습(Online Learning)
- 데이터 양이 너무 많아 배치 학습 알고리즘을 사용하기 어려운 경우에 적용합니다.
- 데이터를 순차적으로 한 개씩 혹은 미니배치(mini-batch)라 부르는 작은 묶음 단위로 주입해 시스템을 훈련시킵니다.
- 매 학습 단계가 빠르고 비용이 적게 들어 시스템은 데이터가 도착하는 대로 즉시 학습할 수 있씁니다.
- 연속적으로 데이터를 받고 빠른 변화에 스스로 적응해야 하는 시스템에 적합합니다.
- 컴퓨터 자원이 제한된 경우 적절한 선택이 될 수 있습니다.
- 온라인 학습에서 중요한 파라미터는 학습률(learning rate)로, 변화하는 데이터에 얼마나 빠르게 적응할 것인지를 의미합니다.
- 학습률을 높게하면, 시스템이 최신 데이터에 빠르게 적응하지만 과거 데이터를 금방 잊습니다.
- 학습률을 낮게하면, 시스템의 관성이 커져 느리게 학습됩니다. 하지만 최신 데이터에 존재하는 잡음이나 대표성 없는 데이터에 덜 민감합니다.
출처
'繩鋸木斷水滴石穿 > AI | 머신러닝' 카테고리의 다른 글
[AutoML] pycaret 패키지를 이용한 분류모델 학습 (1) setup, add_metrics, compare_models (0) | 2022.03.27 |
---|---|
이진분류 모형평가 방법: confusion matrix와 정확도, 재현율, 정밀도, F1 score (0) | 2022.03.20 |
[추천시스템] 4) 협업필터링 - 이웃기반 협업필터링 (0) | 2021.10.16 |
[추천시스템] 3) 컨텐츠 기반 필터링(Contents-based Filtering) (0) | 2021.09.11 |
[추천시스템] 2) 사용하는 데이터와 추천알고리즘의 종류 (0) | 2021.07.10 |