데이터 마이닝 분석절차
데이터 마이닝 분석절차
적용 업무 정의 : 어느 분야의 어떤 이슈거리를 문제로 삼을건지 정의 원천데이터 선택 : 문제 해결에 대한 데이터 선택 Data Cleaning, Coding, Enrichment : 데이터베이스로부터 선택된 데이터를 가져오는 방법, 데이터 정제 Data Mining Tool 선정 : 데이터 마이닝 툴을 선정
- Data Mining Tool
- supervised
- unsupervised
결과가 좋으면 Action 을 취하고 결과가 좋지않으면 다시 데이터를 가져오는 순환구조로 이루어져 있음.
적용 업무 정의
- 어떤 문제를 가장 먼저 해결하고 어떤 결과를 얻을 것인지 목표 설정
- 적용업무의 범위가 특정한 분야로 한정되는것이 성공가능성 높음
- 현재 가지고 있는 데이터의 종류가 무엇인지 , 데이터의 성격은 무엇인지 판단
- 적용업무에 더 필요한 데이터가 있는지 판단
-
분석 목적을 위해 다음과 같은 질문을 할 필요가 있음
- 연관성 분석 : 특정 제품과 서비스 사이에 판매 관련성을 알기 위할 때
- 순처 유사성 분석 : 시간이 경과한 후 특정한 구매 패턴을 확인하고 싶을 때
- 분류 : 잠재 고객 유형을 확인하거나 분류하고 싶을 때
- 클러스터링 : 제품 판매 동향을 원할 때
데이터 선택
- Mining 되어질 데이터베이스나 데이터를 선택
- 관계형 DB, Flat file
- 데이터 변환 작업이 필요
- Flat File -> 관계형 테이블
- Hierarchical System -> Relational System
- Operational Data를 DB에 다시 저장
아래는 데이터를 선택하고 가져오는 과정을 설명한다.
Data Cleaning
부정학환 값이나 중복된 레코드를 제거하고 Null 값이 존재하는 경우에는 대체할지 삭제할지 결정을 해야한다.
Enrichment
데이터에 더 자세한 정보를 담기 위해 기존의 데이터에 새 정보를 첨가하거나 연결한다.
원래의 DB는 데이터베이스를 정규화 하여 중복된 데이터를 가지지 않게 하지만, 데이터 마이닝은 필요에 주제에 맞게 하나의 테이블로 모아놓기 때문에 중복이 가능하다. 새로운 데이터들을 테이블에 추가로 첨가하는 과정이다.
Coding
분석에 불필요한 데이터를 삭제하고 기존 필드들도 필요에 따라 정리하거나 조정을 한다.
Coding 방법의 예를 위의 테이블로 들자면 주소를 지역 코드로 변환 (ex : 서울 1, 부산 2 ) 하거나 생년월일은 나이로 환산하여 숫자로 나타내고, Y/N 는 1,0 또는 구매일자는 월로 환산하여 코딩화 시킨다.
데이터베이스에서 꺼내와 Data WareHouse 에 저장하는 과정중에 데이터 클리닝으로 필요없는 데이터 삭제하고(Data Cleaning), 필요한 데이터를 추가하고 (Enrichment), 문자화 된 데이터를 숫자로 바꿔주는 코딩화 (Coidng)가 필요한다.
데이터 마이닝 툴 선정
Predictive : 예측할 수 있는 것 ( supervised learning) Descriptive : 예측은 하지 않고 기존에 있는 현상을 보여주는 것 (unsupervised learning)
용어 설명
Artificial Neural Network : 인공신경망 분석
Case-based Reasoning : CBR(사례분석)
Tree induction : 의사결정 나무
Regression : 회귀
Association Rule : 연관성 분석
Clustering : 군집 분석
Mining Model 분류
- Predictive vs Descriptive
- 트랜잭션 데이터 (거래 데이터) 가 아닌 경우 vs 트랜잭션 데이터 인 경우
- Continious vs Categorical ( EX : 키 ,뭄무게 vs 남자/여자,혈액형)
결과 분석
- 분석된 결과가 적용 업무에 부합되는지 판단하기 위해 해당 분에야 대한 전문가나 사용자와 토론해 잘못된 결과를 찾아 원인을 분석하고 다시 새 모델을 구축한다.
- 분석 결과를 사용자에게 쉽게 전달하기 위해 데이터 시각화 도구나 Reporting Tool 을 사용
- DSS / EIS 구축
데이터 분석 절차의 예 (SAS 의 SEMMA)
- 표본 추출 (Sampling) : 데이터를 가져옴
- 데이터 탐색 (Exploration) : Cleaning 하는 과정
- 데이터 변환 (Modificaion) 및 변수 선정 : Enrichment 와 Coding 하는 방법
- 데이터 모델링 ( Modeling )
- 모델 평가 (Assessment)
supervised 와 unsupervised 의 차이가 많이 사용된다. 한마디로 목표변수의 유무에 따라 분류된다.