빅 데이터 용 마이닝 - 더미

비디오: 1101.빅데이터와 데이터마이닝 이해1 2025

데이터 마이닝은 대용량 데이터의 패턴을 찾기 위해 많은 양의 데이터를 탐색하고 분석하는 것을 포함합니다. 이 기술은 통계 및 인공 지능 (AI) 분야에서 나온 것으로, 데이터베이스 관리가 약간 혼재되어 있습니다.

일반적으로 데이터 마이닝의 목표는 분류 또는 예측입니다. 분류에서는 데이터를 그룹으로 정렬하는 것이 좋습니다. 예를 들어 마케팅 담당자는 응답 한 사람의 특성과 홍보에 응답하지 않은 사람의 특성에 관심이있을 수 있습니다.

두 클래스입니다. 예측에서 아이디어는 연속 변수의 값을 예측하는 것입니다. 예를 들어 마케팅 담당자는 프로모션에 응답 할 사람을 예측하는 데 관심이있을 수 있습니다. 데이터 마이닝에 사용되는 일반적인 알고리즘은 다음과 같습니다. 분류 트리:

하나 이상의 예측 변수의 측정을 기반으로 종속 카테고리 변수를 분류하는 데 사용되는 널리 사용되는 데이터 마이닝 기술입니다. 결과는 if-then 규칙을 형성하기 위해 읽을 수있는 노드 사이의 링크와 노드가있는 트리입니다.

로지스틱 회귀:
표준 회귀의 변형이지만 분류를 다루는 개념을 확장 한 통계 기법. 독립 변수의 함수로 발생 확률을 예측하는 공식을 생성합니다.
Neural networks: 동물 두뇌의 병렬 구조를 모델로 한 소프트웨어 알고리즘. 네트워크는 입력 노드, 숨겨진 레이어 및 출력 노드로 구성됩니다. 각 단위에는 가중치가 지정됩니다. 데이터는 입력 노드에 주어지며 시행 착오 체계에 의해 알고리즘은 특정 정지 기준을 충족 할 때까지 가중치를 조정합니다. 어떤 사람들은 이것을 블랙 박스 방식에 비유했습니다.
K- 가장 가까운 이웃과 같은 클러스터링 기술:
유사한 레코드 그룹을 식별하는 기술. K- 가장 가까운 이웃 기술은 기록 (훈련) 데이터에서 기록과 점 사이의 거리를 계산합니다. 그런 다음이 레코드를 데이터 세트의 가장 가까운 이웃 클래스에 할당합니다.
다음은 분류 트리 예제입니다. 전화 회사가 어떤 주거용 고객이 서비스를 중단 할 가능성이 있는지를 결정하려는 상황을 고려하십시오. 전화 회사는 다음과 같은 속성으로 구성된 정보를 가지고 있습니다. 서비스를받은 기간, 서비스에 소비 한 금액, 서비스가 문제가 있는지 여부, 그가 가장 필요로하는 전화 플랜이 있는지 여부, 다른 서비스를 번들로 묶어 놓았는지 여부, 다른 통신 사업자 계획에 관한 경쟁력있는 정보, 그리고 그가 서비스를 제공하고 있는지 여부 등이 포함됩니다.

물론, 이것보다 더 많은 속성을 찾을 수 있습니다. 마지막 속성은 결과 변수입니다. 이것이 소프트웨어가 고객을 두 그룹 중 하나로 분류하는 데 사용하는 것입니다 - 아마도 체류자 및 비행 위험이라고합니다.

데이터 세트는 학습 데이터와 테스트 데이터 세트로 나뉩니다. 훈련 데이터는 관찰 (속성이라고 함) 및 결과 변수 (분류 모델의 경우 2 진수) -이 경우 체류자 또는 비행 위험으로 구성됩니다.

알고리즘은 트레이닝 데이터를 통해 실행되며 일련의 규칙처럼 읽을 수있는 트리가 표시됩니다. 예를 들어, 고객이 10 년 이상 회사에 있었고 55 세 이상인 고객은 충성도가 높은 고객으로 남을 수 있습니다.

이 규칙은 테스트 데이터 세트를 통해 실행되어이 모델이 "새 데이터"에 얼마나 좋은지를 결정합니다. "모델에 대한 정확도 측정이 제공됩니다. 예를 들어, 널리 사용되는 기술은 혼동 행렬입니다. 이 행렬은 얼마나 많은 사례가 올바르게 분류 되었는가에 대한 정보를 제공하는 표입니다.

모델이 좋으면 사용 가능한 다른 데이터 (즉, 비행 위험의 새로운 경우를 예측하는 데 사용)로 전개 할 수 있습니다. 이 모델을 기반으로 회사는 예를 들어 비행 위험이라고 생각하는 고객에게 특별 제안을 보내도록 결정할 수 있습니다.