빅 데이터에 필요한 데이터 식별 - 더미

대용량 데이터 프로젝트에서 다루는 데이터 유형을 고려하십시오. 많은 조직에서는 과거에 많은 내부적으로 생성 된 데이터가 최대한의 잠재력을 발휘하지 못했다는 사실을 인식하고 있습니다.

새로운 도구를 활용하여 조직은 전자 메일, 고객 서비스 레코드, 센서 데이터 및 보안 로그에서 이전에 사용되지 않은 비 체계적인 데이터 소스를 통해 새로운 통찰력을 얻고 있습니다. 또한 소셜 미디어, 휴대 전화 위치, 트래픽 및 날씨와 같이 조직 외부에서 주로 발생하는 데이터 분석을 기반으로하는 새로운 통찰력을 찾는 데 많은 관심이 있습니다.

대용량 데이터의 탐색 단계

분석 초기 단계에서 데이터의 패턴을 검색하려고합니다. 매우 많은 양의 데이터를 검토하여 요소간에 예기치 않은 새 관계와 상관 관계가 분명해질 수 있습니다. 이러한 패턴은 예를 들어 새로운 제품에 대한 고객 선호도에 대한 통찰력을 제공 할 수 있습니다. 이러한 패턴을 찾기 위해 큰 데이터를 구성하기위한 플랫폼이 필요합니다.

Hadoop은 큰 데이터를 캡처하고 처리하기위한 기본 빌딩 블록으로 널리 사용됩니다. Hadoop은 대용량 데이터의 처리 속도를 높이고 비교적 짧은 시간에 엄청난 양의 데이터 패턴을 식별 할 수 있도록 설계되었습니다. Hadoop의 두 가지 주요 구성 요소 인 Hadoop 분산 파일 시스템 (HDFS)과 MapReduce는 큰 데이터를 관리하고 처리하는 데 사용됩니다.

대용량 데이터에서 숨겨진 패턴을 검색하기 위해 매우 많은 양의 스트리밍 데이터를 수집, 집계 및 이동해야하는 경우가 있습니다. ETL과 같은 기존의 통합 도구는 실시간 사기 탐지와 같은 분석 결과를 제 시간에 제공하기 위해 대량의 데이터 스트림을 이동할만큼 빠르지 않습니다. FlumeNG는 데이터를 Hadoop으로 스트리밍하여 실시간으로 데이터를로드합니다. 일반적으로 Flume은 분산 서버에서 많은 양의 로그 데이터를 수집하는 데 사용됩니다. Flume 설치에서 모든 실제 및 논리 노드를 추적합니다. 에이전트 노드는 서버에 설치되며 데이터의 단일 스트림이 시작 지점에서 대상 지점으로 전송되고 처리되는 방식을 관리합니다. 또한 콜렉터는 데이터 스트림을 Hadoop 파일 시스템이나 다른 대형 데이터 스토리지 컨테이너에 기록 할 수있는 더 큰 스트림으로 그룹화하는 데 사용됩니다. Flume은 확장 성을 위해 설계되었으며 시스템에 더 많은 자원을 지속적으로 추가하여 대용량 데이터를 효율적으로 처리 할 수 있습니다.Flume의 출력물은 Hadoop 및 Hive와 통합되어 데이터를 분석 할 수 있습니다.

Flume에는 데이터에 사용할 변환 요소가 있으며 Hadoop 인프라를 구조화되지 않은 데이터의 스트리밍 소스로 변환 할 수 있습니다.

대용량 데이터의 패턴

대용량 데이터 분석으로 경쟁 우위를 점하기 시작한 기업의 사례를 많이 볼 수 있습니다. 많은 기업에서 소셜 미디어 데이터 스트림은 점점 더 디지털 마케팅 전략의 필수 구성 요소가되고 있습니다. 탐색 단계에서는이 기술을 사용하여 방대한 양의 스트리밍 데이터를 빠르게 검색하고 특정 제품이나 고객과 관련된 동향 패턴을 추출 할 수 있습니다.

거대한 데이터를위한 목록 화 단계

수백 개의 상점과 수천 명의 고객을 통해 패턴 식별에서 신제품 선택 및보다 타켓 화 된 마케팅 구현에 이르기까지 반복적 인 프로세스가 필요합니다. 큰 데이터 분석에서 흥미로운 것을 발견하면이를 체계화하여 비즈니스 프로세스의 일부로 만드십시오.

대형 데이터 분석과 운영 데이터 간의 관계를 성문화하려면 데이터를 통합해야합니다.

대용량 데이터 통합 및 통합 단계

대용량 데이터는 데이터 통합을 비롯한 다양한 데이터 관리 측면에 큰 영향을 미치고 있습니다. 전통적으로 데이터 통합은 메시지 전달에 대한 사양 및 API (Application Programming Interface) 요구 사항을 포함하여 미들웨어를 통한 데이터 이동에 중점을 두었습니다. 이러한 데이터 통합의 개념은 모션중인 데이터가 아닌 데이터를 관리하는 데 더 적합합니다.

새로운 세계의 비정형 데이터 및 스트리밍 데이터로의 이전은 기존의 데이터 통합 개념을 변화시킵니다. 스트리밍 데이터 분석을 비즈니스 프로세스에 통합하려는 경우 실시간으로 의사 결정을 내릴 수있을만큼 빠른 최신 기술이 필요합니다.

큰 데이터 분석이 완료되면 큰 데이터 분석 결과를 비즈니스 프로세스 및 실시간 비즈니스 활동에 통합하거나 통합 할 수있는 접근 방식이 필요합니다.

기업은 대용량 데이터 분석을 통해 실제 비즈니스 가치를 창출 할 수있는 높은 기대치를 가지고 있습니다. 실제로 많은 기업들은 기술 제한으로 인해 이전에는 불가능했던 보안 로그 데이터와 같은 내부적으로 생성 된 대용량 데이터를 더 자세히 분석하기를 원합니다. 대규모의 빠른 데이터를 고속으로 전송하기위한 기술은 분산 된 대용량 데이터 소스와 큰 데이터와 운영 데이터간에 통합하기위한 요구 사항입니다. 비 구조적인 데이터 소스는 공유 및 협업을 위해 넓은 지리적 거리에서 신속하게 이동해야하는 경우가 있습니다.

전통적인 소스를 큰 데이터와 연결하는 것은 큰 데이터 소스를 스트리밍하는 데 필요한 모든 데이터를보고 관련 패턴을 식별 한 후에 다단계 프로세스입니다. 관리 및 분석해야하는 데이터의 양을 줄인 후 이제 통합에 대해 생각해야합니다.