[ML] Lec 1. Intro

1 minute read

Big Data

Data는 random하지 않고 항상 structure를 찾을 수 있다. 그 관계를 extract하는 것이 필요하다.

Data Mining

CRM에서 customer의 구매 통계, 신용등급 등을 수많은 데이터를 통해서 추정하는 것.

Why Learn?

사람이 자신의 경험을 설명하기 어려울때
해답이 계속 바뀔때
해답이 특정적일때(개개인에게 맞춰진 해답) 학습을 통해서 결론을 도출한다.

Algorithm

Association
Supervised learning
Unsupervised learning
Reinforcement learning

1. Association

Association은 경향성이다. 예를 들어 X를 구매한 고객은 Y를 구매할 가능성을 따지는 것이다.

2. Supervised Learning

Classification

신용등급 추정을 예시로 low-risk와 high-risk를 income과 savings를 기준으로 판단하도록 분류하는 것. 특정 parameter를 기반으로 분류하는 것이 이에 해당한다.
그 외에도 패턴 인식, 얼굴 인식, speech recognition 등이 있다.

Regression

여러 Data point를 기준으로 특정 함수(모델)을 가정해 연속적인 함수를 추정하는 것.
경로 탐색이나 제어 분야(robot kinetics)에 사용된다.

이 방식을 통해 미래의 입력에 대한 출력을 예상하거나, 정보를 추출하거나, 사실을 추론하거나, 이상치 탐색에 사용될 수 있다.

3. Unsupervised Learning

supervised learning과 unsupervised learning의 큰 차이점은 dataset에 대한 label이 없다는 것이다. 따라서 dataset의 structure를 배우는 것이고 output이 따로 존재하지는 않는다. 다시 말해서 clustering, 즉 군집화라고 할 수 있다.
CRM에서의 customer segmentation, Color quantization, learning motifs 등에 사용될 수 있다.

4. Reinforcement Learning

Policy, 즉 행동하는 근거를 학습하는 것. Delayed reward에 의해 학습이 진행된다. 주로 game playing, multi agents problem 등에 적용된다.

Data Science

Field composed of

Machine learning
High-performance computation
data collection, analysis, data-driven decision making

Share on

Twitter Facebook LinkedIn

hokuma