개인 재정 하둡 마당에서의 학습 - 인형

하둡 마당에서의 학습 - 인형

차례:

비디오: 하둡(HDFS) 의 파일 읽기, 쓰기 과정 쉽게 요약 2024

비디오: 하둡(HDFS) 의 파일 읽기, 쓰기 과정 쉽게 요약 2024
Anonim

기계 학습 은 이전 사건을 바탕으로 컴퓨터가 분석을 향상시킬 수있는 도구를 제공하는 인공 지능 기술의 한 부문을 말합니다. 이러한 컴퓨터 시스템은 유사한 작업에서 향후 시도의 성능을 향상시키기 위해 작업 해결에 대한 이전 시도의 이력 데이터를 활용합니다.

예상되는 결과 측면에서 기계 학습은 다른 전문 용어 인 "데이터 마이닝"과 비슷하게 들릴 수 있습니다. 그러나 전자는 준비된 훈련 데이터의 분석을 통한 예측에 초점을 맞추고, 후자는 처리되지 않은 원시 데이터로부터의 지식 발견에 관한 것이다. 이러한 이유 때문에 기계 학습은 통계 모델링 기술에 크게 의존하며 확률 이론 및 패턴 인식 영역을 활용합니다. 이 알고리즘은 분류, 클러스터링, 연결 규칙 분석 및 권장과 같은 고전적인 기계 학습 작업을 포함합니다. Mahout 라이브러리는 Apache Hadoop 컨텍스트에서 작동하도록 설계되었지만 MapReduce 프레임 워크를 지원하는 시스템과도 호환됩니다. 예를 들어 Mahout은 Hadoop 없이도 사용할 수있는 Java 컬렉션 및 일반적인 수학 연산 (선형 대수 및 통계) 용 Java 라이브러리를 제공합니다.

Mahout은 여러 기여자가있는 진화하는 프로젝트입니다. 이 글을 쓰는 시점까지 Mahout 라이브러리에서 사용할 수있는 알고리즘 모음은 결코 완벽한 것은 아닙니다. 그러나 사용을 위해 구현 된 알고리즘 모음은 시간이 지남에 따라 계속 확장됩니다.

통계 분석을 지원하는 Mahout 알고리즘에는 협업 필터링, 클러스터링 및 분류의 세 가지 주요 범주가 있습니다.

협업 필터링

Mahout은

협업 필터링

알고리즘을 사용하여 권장 엔진으로 사용되도록 특별히 설계되었습니다. Mahout은 풍부한 클러스터링 및 분류 알고리즘을 결합하여 입력 데이터를 기반으로보다 정확한 권장 사항을 산출합니다.

이러한 권장 사항은 사용자의 행동을 고려하여 사용자 환경 설정에 종종 적용됩니다. 사용자의 이전 선택을 비교함으로써, 해당 사용자에게 가장 가까운 이웃 (유사한 결정 이력을 가진 사람)을 식별하고 이웃 사람의 행동을 기반으로 미래의 선택을 예측할 수 있습니다. Netflix와 같은 "맛 프로필"엔진을 고려해보십시오.이 엔진은 사용자의 이전 채점 및 시청 습관을 기반으로 등급을 추천합니다. 이 예에서 사용자의 행동 패턴은 사용자의 기록 및 동일한 Netflix 커뮤니티에 속한 비슷한 취향을 가진 사용자의 추세와 비교되어 해당 사용자가 아직 보지 않은 콘텐츠에 대한 권장 사항을 생성합니다. 클러스터링

Mahout의 추천 엔진 기능에 대한 감독 학습 방법과 달리 클러스터링은 사전 감독되지 않은

학습의 형태입니다. 데이터 포인트에 대한 레이블은 미리 알 수 없으므로 데이터에서 유추해야합니다 인간 입력없이 (

감독 된

부분). 일반적으로 클러스터 내의 객체는 비슷해야합니다. 다른 클러스터의 객체는 서로 비슷해야합니다. 생성 할 클러스터의 수, "유사성"을 측정하는 기준 및 객체 표현에 대해 미리 결정한 사항은 클러스터링 알고리즘에 의해 생성 된 레이블링에 영향을 미칩니다. 예를 들어 뉴스 기사 목록이 제공되는 클러스터링 엔진은 비슷한 주제를 다루는 해당 컬렉션 내의 기사 클러스터를 정의 할 수 있어야합니다. 캐나다, 프랑스, ​​중국, 임업, 석유 및 포도주에 관한 일련의 기사가 모여 있다고 가정 해 보겠습니다. 최대 클러스터 수를 2로 설정하면 알고리즘에서 "지역"및 "업종"과 같은 범주를 생성 할 수 있습니다. "클러스터 수를 조정하면 다양한 분류가 생성됩니다. 예를 들어 3 개의 클러스터를 선택하면 국가 - 산업 카테고리를 한 쌍으로 그룹화 할 수 있습니다. 분류 (Classifications) 분류 알고리즘은 사람이 레이블을 붙인 훈련 데이터 세트를 사용하는데, 모든 미래 입력의 범주화와 분류는 이러한 알려진 레이블에 의해 규율된다. 이러한 분류 기준은 기계 학습 세계에서 감독 학습 이라고 알려진 것을 구현합니다. 도메인 전문가가 사전에 분류 한 교육 데이터에 의해 설정된 분류 규칙은 적절한 레이블 지정을 가장 잘 판단 할 수 있도록 처리되지 않은 원시 데이터에 적용됩니다.

이러한 기술은 스팸 전자 메일을받은 편지함을 통과하기 전에 분류하는 전자 메일 서비스에서 주로 사용됩니다. 특히 알려진 봇넷에 속한 주소에서 배달되는 스팸 메일의 특정 클래스에서 공통적으로 발생하는 것으로 알려진 문구 집합이 포함 된 전자 메일의 경우 분류 알고리즘이 전자 메일을 악의적으로 식별 할 수 있습니다.

Mahout이 기본적으로 제공하는 풍부한 통계 알고리즘 외에도 지원 알고리즘

사용자 정의 알고리즘

(UDA) 모듈도 사용할 수 있습니다. 사용자는 기존 알고리즘을 무시하거나 UDA 모듈을 통해 자체 알고리즘을 구현할 수 있습니다. 이 강력한 사용자 정의 기능을 통해 고유 Mahout 알고리즘의 성능 튜닝 및 고유 한 통계 분석 문제를 해결할 수있는 유연성을 확보 할 수 있습니다.

Mahout이 Hadoop에 대한 통계 분석 확장으로 간주 될 수 있다면 UDA는 Mahout의 통계 기능을 확장 한 것으로 볼 수 있습니다. 전통적인 통계 분석 애플리케이션 (예: SAS, SPSS 및 R)에는 워크 플로우 생성에 강력한 도구가 있습니다. 이러한 응용 프로그램은 더 나은 데이터 시각화를 가능하게하는 직관적 인 그래픽 사용자 인터페이스를 사용합니다. Mahout 스크립트는 통계 분석 워크 플로를 생성하기위한 다른 도구와 비슷한 패턴을 따릅니다. 최종 데이터 탐색 및 시각화 단계에서 사용자는 사람이 읽을 수있는 형식 (JSON, CSV)으로 내보내거나 Tableau Desktop과 같은 시각화 도구를 활용할 수 있습니다.

Mahout의 아키텍처는 하둡 플랫폼 위에 있습니다. Hadoop은 분산 파일 시스템에서 병렬 처리를 관리하는 데 필요한 복잡한 부기에서 MapReduce 작업을 프로그래밍하는 작업을 분리하여 프로그래머의 부담을 덜어줍니다. 같은 정신으로 Mahout은 복잡한 통계 알고리즘을 프로그래머에게 알기 쉽게 추상화하여 Hadoop 프레임 워크로 구현할 준비가되었습니다.

하둡 마당에서의 학습 - 인형

편집자의 선택

JavaScript에서 HTML 양식 요소에 액세스하는 방법 - 다른 HTML 요소와 마찬가지로

JavaScript에서 HTML 양식 요소에 액세스하는 방법 - 다른 HTML 요소와 마찬가지로

자바 스크립트에서 HTML5 요소와 직접 상호 작용할 수 있습니다. 트릭은 선택한 요소가 지원해야하는 브라우저 및 플랫폼에서 작동하는지 확인하는 것입니다. 이 예제에서는 및 태그를 다음과 같은 솔루션의 일부로 사용하는 방법을 보여줍니다.

CSS 값 정의에 대한 빠른 가이드 구문 - 인형

CSS 값 정의에 대한 빠른 가이드 구문 - 인형

W3C (World Wide Web Consortium)에서 모든 CSS 속성의 구문과 가능한 값을 정의합니다. 정의를 가능한 한 정확하게 만들기 위해 W3C는 CSS 값 정의 구문이라는 공식 시스템을 사용합니다. 정의 구문은 가능한 값을 매우 정확하게 정의하지만 CSS 값 정의 구문을 읽는 중 ...

JavaScript로 동적 HTML 요소를 작성하는 방법 - 더미

JavaScript로 동적 HTML 요소를 작성하는 방법 - 더미

모든 페이지에 대한 특수 효과는 페이지에 동적 HTML 변경 기능을 제공하는 것입니다. 예를 들어 다음 예제와 같이 선택한 요소에 특수 효과를 만들 수 있습니다. function ChangeStyles (event) {// 요소에 대한 참조를 얻습니다. var ThisElement ...

편집자의 선택

Excel 2013 통합 문서의 변경 내용 수락 또는 거부 방법 - 변경 내용 추적을 설정하면 더미

Excel 2013 통합 문서의 변경 내용 수락 또는 거부 방법 - 변경 내용 추적을 설정하면 더미

Excel 2013 통합 문서의 경우 리본의 검토 탭에있는 변경 내용 추적 명령 단추의 드롭 다운 메뉴에서 Alt / RGC를 눌러 변경 내용 적용 / 거부 옵션을 선택하여 수락 또는 거부 할 변경 내용을 결정할 수 있습니다. 이렇게하면 Excel이 강조 표시된 모든 변경 내용을 검토합니다 ...

Excel에서 셀에 설명을 추가하는 방법 2016 - 문자

Excel에서 셀에 설명을 추가하는 방법 2016 - 문자

Excel 2016 워크 시트의 특정 셀에 주석을 달 수 있습니다. 댓글은 스티커 메모의 전자 팝업 버전과 유사합니다. 셀에 주석을 추가하려면 다음과 같이하십시오. 셀 포인터를 이동하거나 주석을 추가 할 셀을 클릭하십시오. 새 주석을 클릭하십시오.

Excel 피벗 테이블에 계산 된 필드를 추가하는 방법 - 더미

Excel 피벗 테이블에 계산 된 필드를 추가하는 방법 - 더미

피벗 테이블 내부의 값을 계산합니다. 계산 된 필드 및 항목을 표에 추가 할 수 있습니다. 계산 된 필드를 추가하면 새로운 행이나 열을 피벗 테이블에 삽입 한 다음 수식을 사용하여 새 행이나 열을 채울 수 있습니다. 예를 들어 다음과 같이 나타납니다.

편집자의 선택

포토샵 CS6에서 히스토리 기능으로 채우기를 사용하는 방법 - 더미

포토샵 CS6에서 히스토리 기능으로 채우기를 사용하는 방법 - 더미

채우기 Adobe Photoshop의 기능 Creative Suite 6는 선택을 원할 때 유용합니다. 특정 상태로 바꿀 영역을 쉽게 선택할 수 있으면 기록으로 채우기 기능을 사용할 수 있습니다. 특정 이미지에서 하늘이 마음에 들지 않는다고 가정 해보십시오. 선택한 항목 ...

Photoshop CS6에서 패싯 필터를 사용하는 방법 -

Photoshop CS6에서 패싯 필터를 사용하는 방법 -

Photoshop CS6의 이미지는 먼지와 스크래치를 줄이거 나 날카로운 모서리를 부드럽게하는 것입니다. 패싯 필터는 포스터 라이징 효과를 사용하여 이미지를 분할합니다. Photoshop CS6에서 이미지를 흐리게 처리하려는 한 가지 이유는 먼지 및 스크래치를 줄이거 나 밝기를 비슷하게하는 픽셀 블록을 모아서 기하학적 모양을 사용하여 단일 값으로 변환하기 때문입니다.

Photoshop CS6에서 손 도구 사용 방법 - 인형

Photoshop CS6에서 손 도구 사용 방법 - 인형

Photoshop CS6 손 도구는 이미지 문서에서 빠르게 이동하고 스크롤 막대와 유사하게 작업하여 작업을보다 신속하게 수행 할 수 있습니다. 손 도구는 손 도구를 클릭 할 필요가 거의 없기 때문에 실제 도구보다 기능이 더 많습니다. 간단히 ...