데이터 마이닝(Data Mining)
데이터 마이닝이란 ?
데이터 마이닝은 대용량의 데이터로부터 자동 또는 반 자동적인 방법을 통하여 의미있는 패턴 , 규칙 ,관계를 찾아내는 것을 의미한다.
웹 마이닝이란?
- 웹에서 발생하거나 웹 사이트에 저장한 데이터를 대상으로 유용한 패턴을 찾아내는 것
- 웹 마이닝은 웹에서 발생하는 모든 데이터를 분석 대상으로 함
- 이러한 데이터는 서버 접속 로그 데이터, 사용자 등록 정보, 트랜잭션 등을 말함
웹 마이닝의 종류
- 웹 구조 마이닝 : 웹 사이트와 웹 페이지의 구조적 요약 정보를 얻는 것을 목표로 함
- 웹 내용 마이닝 : 실제 웹 사이트를 구성하고 있는 페이지로부터 의미 있는 내용을 추출하는 기법
- 웹 사용 마이닝 :웹 사용자의 사용 패턴을 분석하는 것
비정형 데이터 마이닝
비정형 데이터(Unstructured data)란?
- 형태와 구조가 다른 구조화 되지 않은 데이터
- 규격화된 데이터 필드에 저장되지 않은 데이터
=> 분석이 불가능하고 의미를 읽어낼 수 없는 데이터
Ex ) 책 ,잡지, 문서, 영상정보, 음성정보 ,SNS
비정형 데이터(Unstructured data) 특징
- 정형 데이터에 비해 DBMS 에서 차지하는 저장 공간이 넓음
- 각 각의 비정형 데이터를 구분하기 위해서는 별도의 태그 정보를 추가해야 함
비정형 데이터(Unstructured data) 분석 기법
- 텍스트 마이닝: 텍스트 마이닝은 텍스트 형태로 이루어진 비정형 데이터들을 자연어 처리 (NLP) 방식을 이용하여 정보를 추출하는 기법
- 오피니언 마이닝 : 텍스트 마이닝에서 발전된 분석 기법으로, sns 등에서 여론의 향방을 긍정 ,부정 , 중립으로 구분하여 선허도를 판별하는 기술
- 소셜 네트워크 분석 : SNS에 내포되어 있는 정보들과 시스템을 분석하는 기법
- 군집 분석 : 변화가 많은 대상 집단을 일정한 군집으로 나누어 특성을 분석하고, 각 데이터간의 거리를 분석하여 비슷한 유형에 대한 성향을 파악하거나 타 집단과의 차이점을 관측하기 위한 목적으로 활용되는기법
군집분석
군집 분석은 비지도학습 (Unsupervised learning) 분석 기법 중 하나
K-means 군집 분석
유사한 대상끼리 그룹핑(Grouping) 하기 위해서는 대상간의 유사도, 거리를 측정해야할 필요가 있는데, 이를 하는 방법 중 하나가 K-means 군집분석
K-means 군집 분석의 알고리즘
- 분석자가 설정한 K개의 군집 중심점을 랜덤하게 선정
- 관측치를 가장 가까운 군집 중심에 할당한 후 군집 중심을 새로 계산
- 기존의 중심과 새로 계산된 군집 중심이 같아질 때 까지 반복
K-means 군집 분석 알고리즘은 다음 게시글에서 더 자세하게 알아볼 예정이다.