Hadoop을 이용한 로그 분석 - 더미

로그 분석은 초기 Hadoop 프로젝트의 일반적인 사용 사례입니다. 사실, Hadoop의 초기 사용은 클릭 스트림 로그의 대규모 분석을위한 것이 었습니다 - 사람들이 방문하는 웹 페이지 및 방문 순서에 대한 데이터를 기록하는 로그.

IT 인프라에서 생성되는 모든 데이터 로그는 종종 데이터 배출량이라고합니다. 로그는 작동중인 엔진의 배기 파이프에서 오는 연기와 같이 작동하는 서버의 부산물입니다. 데이터 배출은 오염이나 낭비를 의미하며, 많은 기업들이 의심 할 여지없이 이러한 생각을 염두에두고 이러한 종류의 데이터에 접근합니다.

로그 데이터는 종종 빠르게 커지며 대량 생산으로 인해 분석이 지루할 수 있습니다. 그리고이 데이터의 잠재적 인 가치는 종종 불분명합니다. 따라서 IT 부서의 유혹은 합리적으로 가능한 한 짧은 시간 동안이 로그 데이터를 저장하는 것입니다. (결국, 데이터를 보유하는 데 비용이 들며, 비즈니스 가치가 없다면 왜 저장해야합니까?)

하지만 Hadoop은 계산을 변경합니다. 데이터 저장 비용은 비교적 저렴하며 Hadoop은 원래 로그 데이터의 대량 일괄 처리

로그 데이터 분석 유스 케이스는 작업하는 데이터가 삭제되거나 바닥에 떨어질 가능성이 있기 때문에 Hadoop 여행을 시작하는 데 유용한 곳입니다. "1 주일에 1 테라 바이트 (TB) 이상의 고객 웹 활동을 지속적으로 기록하는 일부 회사는 분석하지 않고 데이터를 버립니다. 이로 인해 왜 수집해야하는지 궁금해집니다.

신속한 시작을 위해이 유스 케이스의 데이터는 쉽게 얻을 수 있으며 일반적으로 다른 (관할) 데이터로 Hadoop 여행을 시작하면 발생할 수있는 동일한 문제를 포괄하지 않습니다.

대부분의 가정에는 현재 전기 사용량을 기록하는 스마트 미터기가 있습니다. 최신 자동차에는 수천 가지 센서가있어 자신의 상태와 사용 측면을 기록합니다. 인터넷을 탐색하는 동안 사용자가 클릭하고 마우스를 움직이면 모든 로그 항목이 생성됩니다.

신용 카드 또는 직불 카드를 사용하지 않아도 무언가를 구매할 때마다 시스템은 활동을 데이터베이스 및 로그에 기록합니다.보다 일반적인 로그 데이터 소스 (IT 서버, 웹 클릭 스트림, 센서 및 트랜잭션 시스템)를 볼 수 있습니다.

모든 산업 (방금 설명한 모든 로그 유형뿐 아니라)은 귀중한 분석을위한 거대한 잠재력을 가지고 있습니다. 특히 특정 활동에 집중할 수 있고 결과를 다른 데이터 세트와 연관시켜 상황을 제공 할 수있는 경우 특히 그렇습니다.

예를 들어 다음과 같은 일반적인 웹 기반 탐색 및 구매 경험을 고려하십시오.

사이트를 서핑하고 구매할 제품을 찾습니다.

눈을 끈 제품에 대한 설명을 보려면 클릭하십시오.
결국, 장바구니에 항목을 추가하고 결제 (구매 작업)로 진행합니다.
배송 비용을 확인한 후에는 품목 가격이 저렴하고 브라우저 창을 닫을 수 있습니다. 귀하가 만든 모든 클릭 - 그리고 그만 두는 -은이 전자 상거래 사이트 뒤에있는 회사에 귀중한 통찰력을 제공 할 수 있습니다.

이 예에서는이 비즈니스가 고객에게 더 나은 서비스를 제공하는 방법을 이해하기 위해 클릭 스트림 데이터 (방문자가 "터치하는 모든 마우스 클릭 및 페이지 뷰에 대한 데이터)를 수집한다고 가정합니다. 전자 상거래 비즈니스 중 하나의 공통 과제는 버려진 장바구니의 핵심 요소를 인식하는 것입니다. 클릭 스트림 데이터에 대한 심층적 인 분석을 수행하고 사이트에서의 사용자 동작을 검사하면 패턴이 출현해야합니다.

귀사는 겉보기에 간단한 질문에 대한 답을 알고 있습니까? "특정 제품이 다른 제품보다 더 많이 버려 졌습니까? "아니면 카트 포기 율을 10 % 낮추면 얼마나 많은 수익을 얻을 수 있을까요? "다음은 비즈니스 리더가 Hadoop 원인에 대한 투자를 유도 할 수 있음을 보여주는 보고서의 예입니다.

표시된 그래프를 작성하기 위해 데이터를 생성 할 수있는 시점까지 개별 사용자의 웹 탐색 세션을 분리 (

세션 화) 라고하며, 장바구니의 내용을 식별합니다 클릭 스트림 데이터를 검토하여 세션 종료시 트랜잭션 상태를 설정할 수 있습니다. 다음은 모든 클릭 수와 URL 주소를 IP 주소별로 그룹화하여 사용자의 웹 브라우징 세션을 구성하는 방법의 예입니다.

Hadoop 컨텍스트에서는 항상 키와 값으로 작업합니다. MapReduce의 각 단계는 키와 값 집합으로 데이터를 입력 및 출력합니다. 키는 IP 주소이며 값은 타임 스탬프와 URL로 구성됩니다. 맵 단계에서 사용자 세션은 Hadoop 클러스터에 저장된 클릭 스트림 데이터 세트의 모든 파일 블록에 대해 병렬로 어셈블됩니다.

방문한 최종 페이지