머신러닝 프로젝트의 주요 단계
1. 큰 그림 보기
2. 데이터 수집하기
3. 데이터로부터 insight 를 얻기 위해 탐색, 시각화하기
4. 머신러닝 알고리즘을 위한 데이터 준비하기
5. 모델을 선택하고 훈련시키기
6. 모델을 상세하게 조정하기
7. 솔루션 제시
8. 시스템 론칭, 모니터링하고 유지 보수하기
1. 실제 데이터로 작업하기
-데이터를 구하기 좋은 곳
1) 유명한 공개 데이터 저장소
2) 메타 포털(공개 데이터 저장소 나열)
- quandl
3) 기타
#문제 정의: 머신러닝 프로젝트를 비즈니스에 적용할 때
- 비즈니스의 목적을 정확히 인지
- 기존 솔루션은 어떻게 구성되어 있는지 인지
* 파이프라인: 데이터 처리 컴포넌트(component)들이 연속되어 있는 것. 머신러닝 시스템은 데이터를 조작/변환할 일이 많아서 파이프라인을 흔하게 사용. 각 컴포넌트들은 보통 비동기적으로 동작하며 독립적 -> 시스템이 견고해짐.
- 문제 성격에 따라 지도/비지도, 회귀/분류/기타, 온라인/배치 학습 등 모델의 성격을 정함
#성능 측정 지표 선택
- 회귀 문제는 전형적으로 평균 제곱근 오차(Root Mean Square Error, RMSE)를 사용.
- n: RMSE를 측정할 데이터셋에 있는 샘플 수
- x^i: 데이터셋에 있는 i번째 샘플(레이블 제외)의 전체 특성값의 벡터, y^i는 해당 레이블(샘플의 기대 출력값).
- h : 시스템의 예측 함수, 가설(hypothesis). 하나의 샘플 특성 벡터 x^i를 받으면 그 샘플에 대한 예측값 y-hat^i = h(x^i) 를 출력함.
- 경우에 따라 다른 함수를 사용할 수도 있음. 예를 들어 이상치로 보이는 구역이 많을 때 평균 절대 오차(Mean Absolute Error, MAE)를 사용
* RMSE, MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법. RMSE는 유클리디안 노름(k=2), MAE는 맨해튼 노름(k=1). 노름의 지수가 클수록 큰 값의 원소에 치우치며 작은 값은 무시됨. 따라서 MAE가 RMSE보다 이상치에 민감. 그러나 이상치가 매우 드물면 RMSE가 잘 맞아 일반적으로 널리 사용됨.
'Artificial Intelligence > Machine Learning' 카테고리의 다른 글
핸즈온 머신러닝(3) - 머신러닝 프로젝트 4 (0) | 2020.01.21 |
---|---|
핸즈온 머신러닝(3) - 머신러닝 프로젝트 3 (0) | 2020.01.20 |
핸즈온 머신러닝(3) - 머신러닝 프로젝트 2 (0) | 2020.01.20 |
핸즈온 머신러닝(2)- 머신러닝의 주요 도전 과제 요약 (0) | 2020.01.20 |
핸즈온 머신러닝(1) - 머신러닝 시스템의 종류 (0) | 2020.01.20 |
댓글