본문 바로가기
  • 조금 느려도, 꾸준히
Artificial Intelligence/Machine Learning

핸즈온 머신러닝(3) - 머신러닝 프로젝트 1

by chan 2020. 1. 20.
반응형

머신러닝 프로젝트의 주요 단계

 1. 큰 그림 보기

 2. 데이터 수집하기

 3. 데이터로부터 insight 를 얻기 위해 탐색, 시각화하기

 4. 머신러닝 알고리즘을 위한 데이터 준비하기

 5. 모델을 선택하고 훈련시키기

 6. 모델을 상세하게 조정하기

 7. 솔루션 제시

 8. 시스템 론칭, 모니터링하고 유지 보수하기

 

1. 실제 데이터로 작업하기

 -데이터를 구하기 좋은 곳

  1) 유명한 공개 데이터 저장소

    - UC 얼바인 머신러닝 저장소

    - Kaggle 데이터셋

    - 아마존 AWS 데이터셋

  2) 메타 포털(공개 데이터 저장소 나열)

    - dataportlas

    - opendatamonitor

    - quandl

  3) 기타

    - 위키백과 머신러닝 데이터셋 목록

    - Quora.com 질문

    - 데이터셋 서브레딧

 

#문제 정의: 머신러닝 프로젝트를 비즈니스에 적용할 때

 - 비즈니스의 목적을 정확히 인지

 - 기존 솔루션은 어떻게 구성되어 있는지 인지

  * 파이프라인: 데이터 처리 컴포넌트(component)들이 연속되어 있는 것. 머신러닝 시스템은 데이터를 조작/변환할 일이 많아서 파이프라인을 흔하게 사용. 각 컴포넌트들은 보통 비동기적으로 동작하며 독립적 -> 시스템이 견고해짐.

 - 문제 성격에 따라 지도/비지도, 회귀/분류/기타, 온라인/배치 학습 등 모델의 성격을 정함

 

#성능 측정 지표 선택

 - 회귀 문제는 전형적으로 평균 제곱근 오차(Root Mean Square Error, RMSE)를 사용. 

RMSE를 계산하는 공식, 이때 y-hat^i = h(x^i)

- n: RMSE를 측정할 데이터셋에 있는 샘플 수

- x^i: 데이터셋에 있는 i번째 샘플(레이블 제외)의 전체 특성값의 벡터, y^i는 해당 레이블(샘플의 기대 출력값).

- h : 시스템의 예측 함수, 가설(hypothesis). 하나의 샘플 특성 벡터 x^i를 받으면 그 샘플에 대한 예측값 y-hat^i = h(x^i) 를 출력함. 

 

- 경우에 따라 다른 함수를 사용할 수도 있음. 예를 들어 이상치로 보이는 구역이 많을 때 평균 절대 오차(Mean Absolute Error, MAE)를 사용

MAE 공식. 이때 y-hat^i = h(x^i)

* RMSE, MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법. RMSE는 유클리디안 노름(k=2), MAE는 맨해튼 노름(k=1). 노름의 지수가 클수록 큰 값의 원소에 치우치며 작은 값은 무시됨. 따라서 MAE가 RMSE보다 이상치에 민감. 그러나 이상치가 매우 드물면 RMSE가 잘 맞아 일반적으로 널리 사용됨.

 

반응형

댓글