Data Mining Definition
정의 : bigdata로부터 의미있고 상관관계, 패턴, 경향을 찾아내는 프로세스
background : data의 양은 증가함에도 불구하고 분석과 예측에 사용되는 유용한 정보는 브적
Comprehensive study
database technology
statistics
viusalization
AI
information science
machine learning
data mining and intelligent business
end user : making decisions
business analyst : data presentation, viusalization techniques
data analyst : data mining, information discovery, data exploration, data warehouses
dba : data sources
process of data mining
problem definition
data exploration
data preparation
mdeling
Supervised data vs Unsupervised data
- supervised data : training data는 input과 그에 대한 output값이 라벨링이 되어 있는 targets를 포함
supervised leanring : supervised data와 계산되는 error를 이용하여 모델을 학습
unsupervised data : input에 대해 output값이 라벨링 되어 있지 않는 data
Supervised data prediction
decision tree
neural network
regression analysis
logistic regression
case-based reasoning
Unsupervised data prediction
- association rule discovery
market basket analysis
clustering
Techniques of data mining
association rule
- sequential pattern
clustering
Association rule
Support, Confidence등을 통해서 공통적인 규칙을 찾아나간다.
Support(지지도) - 전체 경우의 수 중 관계를 설정하기 위한 상품들이 동시에 발생될 확률.
- Confidence(신뢰도) - 특정 상품이 선택되었을 경우 다른 상품이 선택될 확률.
Sequential pattern
Orderd data: 데이터 개체의 속성이 시간적인 순서와 연관되는 데이터 집합 (ex) customer shopping sequences)
orderd data에서 연속되는 패턴을 발견한다
Clustering
data들에 대한 사전 정보가 없는 경우, data들 사이의 유사성 을 이용하여, 전체를 몇 개의 집단으로 그룹화
cluster(그룹) 내부의 member들은 다른 cluster의 member들 보다 유사점이 많다
K-mean algorithm
정의 : K Mean Clustering Algorithm은 임의의 데이터 집단을 K개의 Cluster로 나누어주는 알고리즘
과정
1. Clustering 하고자 하는 K를 결정한다.
2. K가 결정되면 그 K개의 수만큼의 임의의 중심점 C를 결정한다. => C1, C2 , C3 ....., Ck
3. 각 중심에서 각 데이터의 거리를 계산하고 가장 가까운 것들을 그 데이터그룹에 소속시킨다.
ex) C1에 가장 가까운 데이터들은 Group 1, Ck에 가장 가까운 데이터들은 Group K.
4. 각 그룹에 대하여 다시 새로운 중심값을 계산한다.
ex) 1그룹에 속한 모든 데이터의 평균을 통해 중심값을 계산하고 그것을 새로운 C1이 되게 한다.
5. 새로운 중심값으로 부터 3번과정(Regroup)을 실행한다.
6. 데이터의 그룹이 변하지 않을 때 까지 3~5번 과정을 반복한다.
'CS > AI' 카테고리의 다른 글
7. Semantic web 과 Knowledge representation (0) | 2020.07.10 |
---|---|
6. Game Playing (0) | 2020.07.10 |
5. Heuristic Search (0) | 2020.07.10 |
4. Intelligent Software Agent 와 Symbolic AI (0) | 2020.07.10 |
3. Convolutional Neural Network (0) | 2020.07.10 |