비디오: Ch01_05.데이터마이닝의 이해(분석방법 로드맵)05 2024
데이터 마이닝은 데이터 구성에 대한 매우 엄격한 요구 사항을 가지고 있습니다. 그들은 외래종, 복잡하거나 어려운 요구 사항을 충족하지 않지만 엄격합니다. 그림은 데이터 마이닝 소프트웨어에서 표로 본 데이터 샘플을 보여줍니다.
각 행은 부동산 중 하나를 표시합니다. 부동산 소포에 관한 정보는 기둥으로 정리되어 있습니다. 첫 번째 열에는 세금 식별 번호 (TAXKEY)가 포함되고 두 번째 열에는 이전 평가 (P_A_LAND)의 토지 평가 가격이 포함됩니다.
한 행의 모든 항목은 특정 토지의 한 구획에 속합니다. 한 열의 모든 항목은 동일한 유형의 정보입니다. 스타일이나 가독성과 관련된 이유 때문에 빈 행이 없습니다. 이 데이터는 부동산 소포 간의 차이점을 조사하기 위해 적절하게 구성되었습니다.
부동산 대신 사람을 조사하면 각 사람이 데이터에서 한 행으로 표시되고 사람에 대한 모든 세부 정보는 열로 구성됩니다. 흉부 엑스선을 조사 할 경우 각 흉부 엑스레이는 데이터에서 한 행으로 표시되고 흉부 엑스선에 대한 모든 세부 정보는 세로 열로 구성됩니다.
데이터 분석 용어에서 연구중인 내용 (행에있는 것)을 사례 또는 레코드라고합니다. 그리고 열에있는 그들에 대한 세부 사항을 변수 라고합니다. 특히 데이터베이스의 컨텍스트에서 필드, 라는 열을들을 수 있습니다.
따라서 데이터 마이닝에서는 각 사례에 대해 단일 행과 각 변수에 대해 단일 열로 구성된 데이터가 필요합니다. 많은 데이터 소스가 이미 이러한 방식으로 구성되어 있습니다. 통계 학자들은 습관적으로 이러한 방식으로 데이터를 구성합니다. 데이터베이스 전문가는 대부분의 작업에서이 방법을 사용할 수 없지만 일반적으로 플랫 테이블이라고 부르는 경우 원하는 것을 이해합니다.
데이터 구조에 미묘한 차이가 있습니다. 일부 유형의 소프트웨어는 Orange 및 Weka 데이터 마이닝 응용 프로그램과 관련된 특정 특수 형식과 같이 데이터 앞에 머리글에 설명 정보를 사용합니다. 일부 복잡한 분석 절차에는 추가 또는 약간 다양한 요구 사항이 있습니다 (이는 매우 드뭅니다). 그러나 데이터의 핵심 부분에는 열과 행의 변수가 있습니다.