[ML] Lec 1. Intro
Big Data
Data는 random하지 않고 항상 structure를 찾을 수 있다. 그 관계를 extract하는 것이 필요하다.
Data Mining
CRM에서 customer의 구매 통계, 신용등급 등을 수많은 데이터를 통해서 추정하는 것.
Why Learn?
- 사람이 자신의 경험을 설명하기 어려울때
- 해답이 계속 바뀔때
- 해답이 특정적일때(개개인에게 맞춰진 해답) 학습을 통해서 결론을 도출한다.
Algorithm
- Association
- Supervised learning
- Unsupervised learning
- Reinforcement learning
1. Association
Association은 경향성이다. 예를 들어 X를 구매한 고객은 Y를 구매할 가능성을 따지는 것이다.
2. Supervised Learning
Classification
신용등급 추정을 예시로 low-risk와 high-risk를 income과 savings를 기준으로 판단하도록 분류하는 것. 특정 parameter를 기반으로 분류하는 것이 이에 해당한다.
그 외에도 패턴 인식, 얼굴 인식, speech recognition 등이 있다.
Regression
여러 Data point를 기준으로 특정 함수(모델)을 가정해 연속적인 함수를 추정하는 것.
경로 탐색이나 제어 분야(robot kinetics)에 사용된다.
이 방식을 통해 미래의 입력에 대한 출력을 예상하거나, 정보를 추출하거나, 사실을 추론하거나, 이상치 탐색에 사용될 수 있다.
3. Unsupervised Learning
supervised learning과 unsupervised learning의 큰 차이점은 dataset에 대한 label이 없다는 것이다. 따라서 dataset의 structure를 배우는 것이고 output이 따로 존재하지는 않는다. 다시 말해서 clustering, 즉 군집화라고 할 수 있다.
CRM에서의 customer segmentation, Color quantization, learning motifs 등에 사용될 수 있다.
4. Reinforcement Learning
Policy, 즉 행동하는 근거를 학습하는 것. Delayed reward에 의해 학습이 진행된다. 주로 game playing, multi agents problem 등에 적용된다.
Data Science
Field composed of
- Machine learning
- High-performance computation
- data collection, analysis, data-driven decision making