차례:
비디오: '빅데이터' 효율적인 관리 위해선... 2024
비 구조적 데이터 는 큰 데이터에 대해 지정된 형식을 따르지 않는 데이터입니다. 기업에서 사용할 수있는 데이터의 20 %가 구조화 된 데이터이면 다른 80 %는 구조화되지 않은 것입니다. 구조화되지 않은 데이터는 실제로 발생할 수있는 대부분의 데이터입니다. 그러나 최근까지는 기술을 저장하거나 수동으로 분석하는 것 외에는 그다지 많은 도움이되지 않았습니다.
구조가없는 큰 데이터의 출처
비 구조적인 데이터는 어디 에나 있습니다. 실제로 대부분의 개인과 조직은 구조화되지 않은 데이터를 통해 삶을 영위합니다. 구조화 된 데이터와 마찬가지로 구조화되지 않은 데이터는 기계 생성 또는 사람 생성으로 생성됩니다.
컴퓨터에서 생성 된 비정형 데이터의 예는 다음과 같습니다.
-
위성 이미지: 기상 데이터 또는 정부가 위성 감시 이미지에서 캡처 한 데이터가 포함됩니다. Google 어스에 대해 생각해 보면 그림을 얻을 수 있습니다.
-
과학 데이터: 여기에는 지진 이미지, 대기 데이터 및 고 에너지 물리학이 포함됩니다.
-
사진 및 비디오: 여기에는 보안, 감시 및 교통 비디오가 포함됩니다.
-
레이더 또는 수중 음파 탐지기 데이터: 여기에는 차량, 기상 및 해양 지진 프로파일이 포함됩니다.
다음 목록은 사람이 생성 한 비정형 데이터의 몇 가지 예를 보여줍니다.
-
귀사의 내부 텍스트: 문서, 로그, 조사 결과 및 전자 메일 내의 모든 텍스트를 생각하십시오. 기업 정보는 실제로 세계에서 텍스트 정보의 큰 비율을 나타냅니다.
-
소셜 미디어 데이터: 이 데이터는 YouTube, Facebook, Twitter, LinkedIn 및 Flickr과 같은 소셜 미디어 플랫폼에서 생성됩니다.
-
모바일 데이터: 여기에는 문자 메시지 및 위치 정보와 같은 데이터가 포함됩니다.
-
웹 사이트 콘텐츠: YouTube, Flickr 또는 Instagram과 같은 비정형 콘텐츠를 제공하는 모든 사이트에서 제공됩니다.
그리고 그 목록은 계속됩니다.
어떤 사람들은 각 문서가 문서를 만든 소프트웨어를 기반으로하는 특정 구조 나 형식을 포함 할 수 있으므로 비정형 데이터 라는 용어가 잘못된 것이라고 생각하는 경우가 있습니다. 그러나 문서의 내부는 진정으로 구조화되어 있지 않습니다.
구조화되지 않은 데이터는 데이터 방정식 중 가장 큰 부분이며, 구조화되지 않은 데이터의 사용 사례는 급속히 확대되고 있습니다. 텍스트 측면에서만 텍스트 분석을 사용하여 구조화되지 않은 텍스트를 분석하고 관련 데이터를 추출하여 다양한 방식으로 사용할 수있는 구조화 된 정보로 변환 할 수 있습니다.
예를 들어, 대용량 데이터 사용 사례는 대용량 고객 대화 용 소셜 미디어 분석입니다. 또한 콜센터 메모, 전자 메일, 설문서의 서면 의견 및 기타 문서의 비정형 데이터를 분석하여 고객 행동을 이해합니다. 이는 수천만 가지 소스의 소셜 미디어와 결합하여 고객 경험을 이해할 수 있습니다.
대용량 데이터 관리에서 CMS의 역할
조직은 비정형 데이터를 데이터베이스에 저장합니다. 그러나 이들은 또한 콘텐츠의 전체 라이프 사이클을 관리 할 수있는 엔터프라이즈 콘텐츠 관리 시스템 (CMS)을 활용합니다. 여기에는 웹 콘텐츠, 문서 콘텐츠 및 기타 양식 미디어가 포함될 수 있습니다.
교육, 연구 및 모범 사례를 제공하는 비영리 단체 인 정보 및 이미지 관리 협회 (AIIM)에 따르면 ECM (Enterprise Content Management)은 다음과 같은 "전략, 방법 및 도구를 포함합니다. 조직 프로세스와 관련된 컨텐츠 및 문서를 저장, 보존 및 전달할 수 있습니다. "ECM에 포함 된 기술에는 문서 관리, 기록 관리, 이미징, 워크 플로우 관리, 웹 콘텐츠 관리 및 공동 작업이 포함됩니다.
전체 산업은 컨텐츠 관리와 관련하여 성장해 왔으며 많은 컨텐츠 관리 업체들은 방대한 양의 비정형 데이터를 처리하기 위해 솔루션을 확장하고 있습니다. 그러나 새로운 기술은 구조화되지 않은 데이터와 구조화되지 않은 데이터의 분석을 지원하기 위해 진화하고 있습니다. 이들 중 일부는 구조화 된 데이터와 비정형 화 된 데이터를 모두 지원합니다. 일부는 실시간 스트림을 지원합니다. 여기에는 Hadoop, MapReduce 및 스트리밍과 같은 기술이 포함됩니다.
콘텐츠 관리 시스템의 형태로 콘텐츠를 저장하도록 설계된 시스템은 더 이상 독립 실행 형 솔루션이 아닙니다. 오히려 전체 데이터 관리 솔루션의 일부가 될 가능성이 큽니다. 예를 들어 조직에서 프로그래밍 방식으로 CMS 검색을 시작할 수있는 Twitter 피드를 모니터링 할 수 있습니다.
이제 트윗을 실행 한 사람이 답을 얻고 나면 사용자가 찾고있는 제품을 찾을 수있는 위치를 제공합니다. 가장 큰 이점은이 유형의 상호 작용이 실시간으로 발생할 수있는 경우입니다. 또한 구조화되지 않은 실시간 (트위터 사용자에 대한 고객 데이터) 및 세미 구조 (CMS의 실제 내용) 데이터를 활용하는 가치를 보여줍니다.
실제로는 큰 데이터 문제를 해결하기 위해 하이브리드 방식을 사용하게 될 것입니다. 예를 들어, 구조화되지 않은 데이터를 관리하는 데 도움이되기 때문에 모든 뉴스 콘텐츠를 예를 들어 건물의 Hadoop으로 이동하는 것은 의미가 없습니다.