2020. 7. 10. 16:58

Data Mining Definition

정의 : bigdata로부터 의미있고 상관관계, 패턴, 경향을 찾아내는 프로세스

background : data의 양은 증가함에도 불구하고 분석과 예측에 사용되는 유용한 정보는 브적

 

Comprehensive study

database technology

statistics

viusalization

AI

information science

machine learning

 

data mining and intelligent business

end user : making decisions

business analyst : data presentation, viusalization techniques

data analyst : data mining, information discovery, data exploration, data warehouses

dba : data sources

 

process of data mining

problem definition

data exploration

data preparation

mdeling

 

Supervised data vs Unsupervised data

- supervised data : training datainput과 그에 대한 output값이 라벨링이 되어 있는 targets를 포함

supervised leanring : supervised data와 계산되는 error를 이용하여 모델을 학습

unsupervised data : input에 대해 output값이 라벨링 되어 있지 않는 data

 

Supervised data prediction

decision tree

neural network

regression analysis

logistic regression

case-based reasoning

 

Unsupervised data prediction

- association rule discovery

market basket analysis

clustering

 

Techniques of data mining

association rule

- sequential pattern

clustering

 

Association rule

Support, Confidence등을 통해서 공통적인 규칙을 찾아나간다.

Support(지지도) - 전체 경우의 수 중 관계를 설정하기 위한 상품들이 동시에 발생될 확률.

- Confidence(신뢰도) - 특정 상품이 선택되었을 경우 다른 상품이 선택될 확률.

 

Sequential pattern

Orderd data: 데이터 개체의 속성이 시간적인 순서와 연관되는 데이터 집합 (ex) customer shopping sequences)

orderd data에서 연속되는 패턴을 발견한다

 

Clustering

data들에 대한 사전 정보가 없는 경우, data들 사이의 유사성 을 이용하여, 전체를 몇 개의 집단으로 그룹화

cluster(그룹) 내부의 member들은 다른 clustermember들 보다 유사점이 많다

 

K-mean algorithm

정의 : K Mean Clustering Algorithm은 임의의 데이터 집단을 K개의 Cluster로 나누어주는 알고리즘

과정

1. Clustering 하고자 하는 K를 결정한다.

2. K가 결정되면 그 K개의 수만큼의 임의의 중심점 C를 결정한다. => C1, C2 , C3 ....., Ck

3. 각 중심에서 각 데이터의 거리를 계산하고 가장 가까운 것들을 그 데이터그룹에 소속시킨다.

ex) C1에 가장 가까운 데이터들은 Group 1, Ck에 가장 가까운 데이터들은 Group K.

4. 각 그룹에 대하여 다시 새로운 중심값을 계산한다.

ex) 1그룹에 속한 모든 데이터의 평균을 통해 중심값을 계산하고 그것을 새로운 C1이 되게 한다.

5. 새로운 중심값으로 부터 3번과정(Regroup)을 실행한다.

6. 데이터의 그룹이 변하지 않을 때 까지 3~5번 과정을 반복한다.

 

'CS > AI' 카테고리의 다른 글

7. Semantic web 과 Knowledge representation  (0) 2020.07.10
6. Game Playing  (0) 2020.07.10
5. Heuristic Search  (0) 2020.07.10
4. Intelligent Software Agent 와 Symbolic AI  (0) 2020.07.10
3. Convolutional Neural Network  (0) 2020.07.10
Posted by yongminLEE