1 minute read

Big Data

Data는 random하지 않고 항상 structure를 찾을 수 있다. 그 관계를 extract하는 것이 필요하다.

Data Mining

CRM에서 customer의 구매 통계, 신용등급 등을 수많은 데이터를 통해서 추정하는 것.

Why Learn?

  • 사람이 자신의 경험을 설명하기 어려울때
  • 해답이 계속 바뀔때
  • 해답이 특정적일때(개개인에게 맞춰진 해답) 학습을 통해서 결론을 도출한다.

Algorithm

  • Association
  • Supervised learning
  • Unsupervised learning
  • Reinforcement learning

1. Association

Association은 경향성이다. 예를 들어 X를 구매한 고객은 Y를 구매할 가능성을 따지는 것이다.

2. Supervised Learning

Classification

신용등급 추정을 예시로 low-risk와 high-risk를 income과 savings를 기준으로 판단하도록 분류하는 것. 특정 parameter를 기반으로 분류하는 것이 이에 해당한다.
그 외에도 패턴 인식, 얼굴 인식, speech recognition 등이 있다.

Regression

여러 Data point를 기준으로 특정 함수(모델)을 가정해 연속적인 함수를 추정하는 것.
경로 탐색이나 제어 분야(robot kinetics)에 사용된다.

이 방식을 통해 미래의 입력에 대한 출력을 예상하거나, 정보를 추출하거나, 사실을 추론하거나, 이상치 탐색에 사용될 수 있다.

3. Unsupervised Learning

supervised learning과 unsupervised learning의 큰 차이점은 dataset에 대한 label이 없다는 것이다. 따라서 dataset의 structure를 배우는 것이고 output이 따로 존재하지는 않는다. 다시 말해서 clustering, 즉 군집화라고 할 수 있다.
CRM에서의 customer segmentation, Color quantization, learning motifs 등에 사용될 수 있다.

4. Reinforcement Learning

Policy, 즉 행동하는 근거를 학습하는 것. Delayed reward에 의해 학습이 진행된다. 주로 game playing, multi agents problem 등에 적용된다.

Data Science

Field composed of

  1. Machine learning
  2. High-performance computation
  3. data collection, analysis, data-driven decision making

Categories:

Updated: