개인 재정 Hadoop을 이용한 로그 분석 - 더미

Hadoop을 이용한 로그 분석 - 더미

비디오: MongoDB 프로그래밍 12강 MapReduce 개념 살펴보기 | T아카데미 2024

비디오: MongoDB 프로그래밍 12강 MapReduce 개념 살펴보기 | T아카데미 2024
Anonim

로그 분석은 초기 Hadoop 프로젝트의 일반적인 사용 사례입니다. 사실, Hadoop의 초기 사용은 클릭 스트림 로그의 대규모 분석을위한 것이 었습니다 - 사람들이 방문하는 웹 페이지 및 방문 순서에 대한 데이터를 기록하는 로그.

IT 인프라에서 생성되는 모든 데이터 로그는 종종 데이터 배출량이라고합니다. 로그는 작동중인 엔진의 배기 파이프에서 오는 연기와 같이 작동하는 서버의 부산물입니다. 데이터 배출은 오염이나 낭비를 의미하며, 많은 기업들이 의심 할 여지없이 이러한 생각을 염두에두고 이러한 종류의 데이터에 접근합니다.

로그 데이터는 종종 빠르게 커지며 대량 생산으로 인해 분석이 지루할 수 있습니다. 그리고이 데이터의 잠재적 인 가치는 종종 불분명합니다. 따라서 IT 부서의 유혹은 합리적으로 가능한 한 짧은 시간 동안이 로그 데이터를 저장하는 것입니다. (결국, 데이터를 보유하는 데 비용이 들며, 비즈니스 가치가 없다면 왜 저장해야합니까?)

하지만 Hadoop은 계산을 변경합니다. 데이터 저장 비용은 비교적 저렴하며 Hadoop은 원래 로그 데이터의 대량 일괄 처리

로그 데이터 분석 유스 케이스는 작업하는 데이터가 삭제되거나 바닥에 떨어질 가능성이 있기 때문에 Hadoop 여행을 시작하는 데 유용한 곳입니다. "1 주일에 1 테라 바이트 (TB) 이상의 고객 웹 활동을 지속적으로 기록하는 일부 회사는 분석하지 않고 데이터를 버립니다. 이로 인해 왜 수집해야하는지 궁금해집니다.

신속한 시작을 위해이 유스 케이스의 데이터는 쉽게 얻을 수 있으며 일반적으로 다른 (관할) 데이터로 Hadoop 여행을 시작하면 발생할 수있는 동일한 문제를 포괄하지 않습니다.

대부분의 가정에는 현재 전기 사용량을 기록하는 스마트 미터기가 있습니다. 최신 자동차에는 수천 가지 센서가있어 자신의 상태와 사용 측면을 기록합니다. 인터넷을 탐색하는 동안 사용자가 클릭하고 마우스를 움직이면 모든 로그 항목이 생성됩니다.

신용 카드 또는 직불 카드를 사용하지 않아도 무언가를 구매할 때마다 시스템은 활동을 데이터베이스 및 로그에 기록합니다.보다 일반적인 로그 데이터 소스 (IT 서버, 웹 클릭 스트림, 센서 및 트랜잭션 시스템)를 볼 수 있습니다.

모든 산업 (방금 설명한 모든 로그 유형뿐 아니라)은 귀중한 분석을위한 거대한 잠재력을 가지고 있습니다. 특히 특정 활동에 집중할 수 있고 결과를 다른 데이터 세트와 연관시켜 상황을 제공 할 수있는 경우 특히 그렇습니다.

예를 들어 다음과 같은 일반적인 웹 기반 탐색 및 구매 경험을 고려하십시오.

사이트를 서핑하고 구매할 제품을 찾습니다.

  1. 눈을 끈 제품에 대한 설명을 보려면 클릭하십시오.

  2. 결국, 장바구니에 항목을 추가하고 결제 (구매 작업)로 진행합니다.

  3. 배송 비용을 확인한 후에는 품목 가격이 저렴하고 브라우저 창을 닫을 수 있습니다. 귀하가 만든 모든 클릭 - 그리고 그만 두는 -은이 전자 상거래 사이트 뒤에있는 회사에 귀중한 통찰력을 제공 할 수 있습니다.

이 예에서는이 비즈니스가 고객에게 더 나은 서비스를 제공하는 방법을 이해하기 위해 클릭 스트림 데이터 (방문자가 "터치하는 모든 마우스 클릭 및 페이지 뷰에 대한 데이터)를 수집한다고 가정합니다. 전자 상거래 비즈니스 중 하나의 공통 과제는 버려진 장바구니의 핵심 요소를 인식하는 것입니다. 클릭 스트림 데이터에 대한 심층적 인 분석을 수행하고 사이트에서의 사용자 동작을 검사하면 패턴이 출현해야합니다.

귀사는 겉보기에 간단한 질문에 대한 답을 알고 있습니까? "특정 제품이 다른 제품보다 더 많이 버려 졌습니까? "아니면 카트 포기 율을 10 % 낮추면 얼마나 많은 수익을 얻을 수 있을까요? "다음은 비즈니스 리더가 Hadoop 원인에 대한 투자를 유도 할 수 있음을 보여주는 보고서의 예입니다.

표시된 그래프를 작성하기 위해 데이터를 생성 할 수있는 시점까지 개별 사용자의 웹 탐색 세션을 분리 (

세션 화) 라고하며, 장바구니의 내용을 식별합니다 클릭 스트림 데이터를 검토하여 세션 종료시 트랜잭션 상태를 설정할 수 있습니다. 다음은 모든 클릭 수와 URL 주소를 IP 주소별로 그룹화하여 사용자의 웹 브라우징 세션을 구성하는 방법의 예입니다.

Hadoop 컨텍스트에서는 항상 키와 값으로 작업합니다. MapReduce의 각 단계는 키와 값 집합으로 데이터를 입력 및 출력합니다. 키는 IP 주소이며 값은 타임 스탬프와 URL로 구성됩니다. 맵 단계에서 사용자 세션은 Hadoop 클러스터에 저장된 클릭 스트림 데이터 세트의 모든 파일 블록에 대해 병렬로 어셈블됩니다.

방문한 최종 페이지

장바구니에있는 항목 목록

  • 각 사용자 세션에 대한 트랜잭션 상태 (IP 주소 키로 인덱싱 됨)

  • 감속기는이 기록을 수집하고 월간 포기 된 카트의 수와 가치를 합산하고 집계를 수행하여 사용자 세션을 종료하기 전에 누군가가 본 가장 일반적인 최종 페이지의 총계를 제공합니다.

Hadoop을 이용한 로그 분석 - 더미

편집자의 선택

JavaScript에서 HTML 양식 요소에 액세스하는 방법 - 다른 HTML 요소와 마찬가지로

JavaScript에서 HTML 양식 요소에 액세스하는 방법 - 다른 HTML 요소와 마찬가지로

자바 스크립트에서 HTML5 요소와 직접 상호 작용할 수 있습니다. 트릭은 선택한 요소가 지원해야하는 브라우저 및 플랫폼에서 작동하는지 확인하는 것입니다. 이 예제에서는 및 태그를 다음과 같은 솔루션의 일부로 사용하는 방법을 보여줍니다.

CSS 값 정의에 대한 빠른 가이드 구문 - 인형

CSS 값 정의에 대한 빠른 가이드 구문 - 인형

W3C (World Wide Web Consortium)에서 모든 CSS 속성의 구문과 가능한 값을 정의합니다. 정의를 가능한 한 정확하게 만들기 위해 W3C는 CSS 값 정의 구문이라는 공식 시스템을 사용합니다. 정의 구문은 가능한 값을 매우 정확하게 정의하지만 CSS 값 정의 구문을 읽는 중 ...

JavaScript로 동적 HTML 요소를 작성하는 방법 - 더미

JavaScript로 동적 HTML 요소를 작성하는 방법 - 더미

모든 페이지에 대한 특수 효과는 페이지에 동적 HTML 변경 기능을 제공하는 것입니다. 예를 들어 다음 예제와 같이 선택한 요소에 특수 효과를 만들 수 있습니다. function ChangeStyles (event) {// 요소에 대한 참조를 얻습니다. var ThisElement ...

편집자의 선택

Excel 2013 통합 문서의 변경 내용 수락 또는 거부 방법 - 변경 내용 추적을 설정하면 더미

Excel 2013 통합 문서의 변경 내용 수락 또는 거부 방법 - 변경 내용 추적을 설정하면 더미

Excel 2013 통합 문서의 경우 리본의 검토 탭에있는 변경 내용 추적 명령 단추의 드롭 다운 메뉴에서 Alt / RGC를 눌러 변경 내용 적용 / 거부 옵션을 선택하여 수락 또는 거부 할 변경 내용을 결정할 수 있습니다. 이렇게하면 Excel이 강조 표시된 모든 변경 내용을 검토합니다 ...

Excel에서 셀에 설명을 추가하는 방법 2016 - 문자

Excel에서 셀에 설명을 추가하는 방법 2016 - 문자

Excel 2016 워크 시트의 특정 셀에 주석을 달 수 있습니다. 댓글은 스티커 메모의 전자 팝업 버전과 유사합니다. 셀에 주석을 추가하려면 다음과 같이하십시오. 셀 포인터를 이동하거나 주석을 추가 할 셀을 클릭하십시오. 새 주석을 클릭하십시오.

Excel 피벗 테이블에 계산 된 필드를 추가하는 방법 - 더미

Excel 피벗 테이블에 계산 된 필드를 추가하는 방법 - 더미

피벗 테이블 내부의 값을 계산합니다. 계산 된 필드 및 항목을 표에 추가 할 수 있습니다. 계산 된 필드를 추가하면 새로운 행이나 열을 피벗 테이블에 삽입 한 다음 수식을 사용하여 새 행이나 열을 채울 수 있습니다. 예를 들어 다음과 같이 나타납니다.

편집자의 선택

포토샵 CS6에서 히스토리 기능으로 채우기를 사용하는 방법 - 더미

포토샵 CS6에서 히스토리 기능으로 채우기를 사용하는 방법 - 더미

채우기 Adobe Photoshop의 기능 Creative Suite 6는 선택을 원할 때 유용합니다. 특정 상태로 바꿀 영역을 쉽게 선택할 수 있으면 기록으로 채우기 기능을 사용할 수 있습니다. 특정 이미지에서 하늘이 마음에 들지 않는다고 가정 해보십시오. 선택한 항목 ...

Photoshop CS6에서 패싯 필터를 사용하는 방법 -

Photoshop CS6에서 패싯 필터를 사용하는 방법 -

Photoshop CS6의 이미지는 먼지와 스크래치를 줄이거 나 날카로운 모서리를 부드럽게하는 것입니다. 패싯 필터는 포스터 라이징 효과를 사용하여 이미지를 분할합니다. Photoshop CS6에서 이미지를 흐리게 처리하려는 한 가지 이유는 먼지 및 스크래치를 줄이거 나 밝기를 비슷하게하는 픽셀 블록을 모아서 기하학적 모양을 사용하여 단일 값으로 변환하기 때문입니다.

Photoshop CS6에서 손 도구 사용 방법 - 인형

Photoshop CS6에서 손 도구 사용 방법 - 인형

Photoshop CS6 손 도구는 이미지 문서에서 빠르게 이동하고 스크롤 막대와 유사하게 작업하여 작업을보다 신속하게 수행 할 수 있습니다. 손 도구는 손 도구를 클릭 할 필요가 거의 없기 때문에 실제 도구보다 기능이 더 많습니다. 간단히 ...