예측 분석에서 구조화 된 데이터와 구조화되지 않은 데이터의 기본

비디오: Summit Seoul '19 T1-3. BigQuery와 함께 새롭게 정의하는 데이터 웨어하우징 (박기택) 2024

예측 분석을위한 데이터베이스, 문서, 전자 메일 및 기타 데이터 파일에 포함 된 데이터는 구조적 또는 비 구조적 데이터로 분류 할 수 있습니다. 구조화 된 데이터는 체계적으로 구성되어 있으며, 일관된 순서를 따르고 검색 및 쿼리가 비교적 쉬우 며 사람이나 컴퓨터 프로그램에서 쉽게 액세스하고 이해할 수 있습니다. 구조화 된 데이터의 전형적인 예는 레이블이 지정된 열이있는 Excel 스프레드 시트입니다. 그러한 구조화 된 데이터는 일관성이 있습니다. 열 머리글 - 일반적으로 각 열의 내용에 대한 간략하고 정확한 설명 - 정확히 어떤 종류의 콘텐츠를 기대하는지 알려줍니다.

구조화 된 데이터는 일반적으로 데이터베이스와 같이 잘 정의 된 스키마에 저장됩니다. 대개 열과 행이 속성을 명확하게 정의하는 표 형식입니다. 반면에 비 구조화 된

데이터는 자유형, 표 형식이 아닌 분산 형이며 쉽게 검색 할 수없는 경향이 있습니다. 그러한 데이터는 그것을 이해하기 위해 고의적 인 개입이 필요합니다. 분산 된 위치에있는 기타 전자 메일, 문서, 웹 페이지 및 파일 (텍스트, 오디오 및 / 또는 비디오)은 구조화되지 않은 데이터의 예입니다.

구조화되지 않은 데이터의 내용을 분류하는 것은 어렵습니다. 주로 텍스트 인 경향이 있습니다. 일반적으로 자유 형식 스타일로 복잡하게 얽혀 있으며, 설명하거나 그룹화하는 데 사용할 수있는 특성을 찾는 일은 결코 간단한 작업이 아닙니다.

구조화되지 않은 데이터의 내용은 프로그래밍 방식으로 작동하거나 이해하기 어렵습니다. 컴퓨터 프로그램은 구조가 결여되고, 지배적 인 특성이없고, 개별 데이터 항목에 공통점이 없기 때문에 그러한 데이터에 대한 보고서를 분석하거나 생성 할 수 없습니다.

구조화 된 데이터의 중요성과 그것이 분석에 가져다주는 힘을 과소 평가하지 마십시오. 구조화되지 않은 데이터를 분석하는 것보다 구조화 된 데이터를 분석하는 것이 훨씬 효율적입니다. 비정형 데이터는 예측 분석 프로젝트를 구축 할 때 분석을 위해 사전 처리하는 데 비용이 많이 소요될 수 있습니다. 관련 데이터의 선택, 클렌징 및 후속 변환은 길고 지루할 수 있습니다. 필요한 전처리 단계들로부터 결과적으로 새롭게 조직화 된 데이터는 예측 분석 모델에서 사용될 수있다. 그러나 구조화되지 않은 데이터의 전체적인 변형은 예측 분석 모델을 가동 할 때까지 기다려야 할 수도 있습니다.

데이터 마이닝과 텍스트 분석은 텍스트 문서를 구조화하고, 내용을 연결하고, 데이터를 그룹화하고 요약하고, 데이터의 패턴을 밝히는 두 가지 방법입니다. 두 분야 모두 문서의 바다에 흩어져있는 텍스트를 채굴하는 알고리즘과 기술의 풍부한 프레임 워크를 제공합니다.

검색 엔진 플랫폼은 데이터 인덱싱 및 검색 가능 도구를 쉽게 제공한다는 점도 주목할 가치가 있습니다.

구조화 된 데이터와 비 구조화 된 데이터를 비교해 보겠습니다.

특성

구조화 된

구조화되지 않은

연관성

조직화 된	분산 및 분산	모양
공식적으로 정의 된	자유 형식	접근성
액세스 및 쿼리	액세스 및 쿼리가 어려움	가용성
백분율이 더 낮음	백분율이 더 높음	분석
분석 효율성	추가 사전 처리가 필요함	구조가 부족합니다 - 당신은 단지 그것을 내쫓아 야합니다. 디지털 파일 내부의 텍스트조차도 메타 데이터와 관련이있는 구조가 있습니다. 예를 들어 문서 제목, 파일이 마지막으로 수정 된 날짜, 작성자 이름 등이 메타 데이터에 나타납니다.
전자 메일에도 똑같은 내용이 적용됩니다. 내용은 구조화되지 않았지만 구조화 된 데이터 (예: 보낸 날짜와 시간, 보낸 사람과받는 사람의 이름, 첨부 파일 포함 여부)와 관련되어 있습니다.	두 데이터 유형 간의 분리 선이 항상 명확하지는 않습니다. 일반적으로 구조화 된 데이터로 간주 될 수있는 비정형 데이터의 일부 속성을 항상 찾을 수 있습니다. 해당 구조가 해당 데이터의 내용을 반영하는지 또는 데이터 분석에 유용한 지 여부는 잘 모릅니다. 그 이유는 구조화 된 데이터가 구조화되지 않은 데이터를 보유 할 수 있기 때문입니다. 예를 들어, 웹 양식에서 사용자는 여러 선택 항목 중 하나를 선택하여 제품에 대한 피드백을 제공하도록 요청할 수 있지만 추가 피드백을 제공 할 수있는 설명 상자가 제공됩니다.	여러 선택 사항의 답은 구조화되어 있습니다. 주석 필드는 자유 형식의 특성으로 인해 구조화되지 않았습니다. 이러한 경우는 구조화 된 데이터와 비 구조화 된 데이터가 혼합 된 것으로 가장 잘 이해할 수 있습니다. 대부분의 데이터는이 둘의 합성어입니다.