개인 재정 기계 학습 : 데이터 더미에서 자신의 기능 만들기

기계 학습 : 데이터 더미에서 자신의 기능 만들기

차례:

비디오: 3-4. numpy를 사용한 데이터 분석 맛보기: MovieLens 1M 데이터셋 분석 2024

비디오: 3-4. numpy를 사용한 데이터 분석 맛보기: MovieLens 1M 데이터셋 분석 2024
Anonim

다양한 소스에서 얻은 원시 데이터에 기계 학습 작업을 수행하는 데 필요한 기능이없는 경우가 있습니다. 이 경우 원하는 결과를 얻으려면 자신의 기능을 만들어야합니다. 지형지 물을 만드는 것이 허공에서 데이터를 만드는 것을 의미하지는 않습니다. 기존 데이터에서 새 기능을 만듭니다.

기능 작성의 필요성 이해

기계 학습 알고리즘의 한 가지 큰 한계는 사용중인 기능에 응답 할 수있는 수식을 추측하는 것이 불가능할 수 있다는 것입니다. 때로는이 정보를 사용하여 응답을 매핑 할 수 없기 때문에 추측 할 수없는 경우가 있습니다 (올바른 정보가 없음을 의미). 다른 경우, 귀하가 제공 한 정보는 알고리즘이 올바르게 학습하는 데 도움이되지 않습니다.

이 문제의 해답은 피쳐 생성입니다. 피쳐 생성은 기존 피쳐를 창조적으로 혼합하는 인간의 개입을 의미하기 때문에 과학보다 더 예술이라고 여겨지는 기계 학습의 일부입니다. 더하기, 빼기, 곱하기 및 비율을 사용하여이 작업을 수행하여 원본보다 더 많은 예측 능력으로 새로운 파생 된 피쳐를 생성합니다.

문제를 잘 알고 인간이 어떻게 해결할 것인지를 알아내는 것은 피처 생성의 일부입니다. 따라서 앞의 예와 연결하면 지표면이 부동산 가격에 연결된다는 사실은 일반적인 지식입니다. 프로퍼티의 값을 추측하려고 할 때 화면에 서페이스가없는 경우 기존 데이터에서 해당 정보를 복구 할 수 있습니다. 이렇게하면 예측의 성능이 향상됩니다.

자동으로 기능 만들기

일부 새 기능을 자동으로 만들 수 있습니다.자동 피쳐 생성을 달성하는 한 가지 방법은 다항식 확장을 사용하는 것입니다. R과 Python에서 자동으로 피쳐를 생성 할 수 있도록 다항식 확장을 수행하는 특정 방법이 있습니다. 당분간 다항식 확장의 개념을 이해해야합니다.

다항식 확장에서 자동으로 피쳐 간의 상호 작용을 만들뿐 아니라 힘을 생성합니다 (예: 피쳐의 사각형 계산). 상호 작용은 피쳐의 곱셈에 의존합니다. 곱셈을 사용하여 새 지형지 물을 생성하면 지형지 물이 전체적으로 어떻게 행동하는 경향이 있는지 추적 할 수 있습니다. 따라서 특별한 상황을 암시 할 수있는 기능간에 복잡한 관계를 매핑하는 것이 좋습니다.

상호 작용의 좋은 예는 자동차에서 방출되는 소음과 자동차 가격입니다. 소비자는 스포츠카를 사지 않는 한 시끄러운 자동차를 좋아하지 않습니다.이 경우 엔진 소음은 자동차의 주인을 생각 나게하는 플러스입니다. 방관자는 차가운 차를 눈치 챈다. 그래서 소음이 다른 사람들의 관심을 끌기 때문에 소음은 과시하는 데 큰 역할을한다. 다른 한편으로, 가족 차를 운전할 때의 소음이 그다지 시원하지는 않습니다. 기계 학습 응용 프로그램에서 특정 차량의 선호 속도를 예측할 때 소음 및 자동차 가격과 같은 기능은 스스로 예측할 수 있습니다. 그러나 두 값을 곱하고이를 피쳐 집합에 추가하면 목표가 스포츠카라는 학습 알고리즘을 분명히 암시 할 수 있습니다 (높은 노이즈 레벨을 높은 가격으로 곱하면 됨).

응답은 특정 상황을 암시하면서 응답과 특징 간의 비선형 관계를 만들어줌으로써 도움이된다.

다른 예를 들자면, 사람의 연간 지출을 예측해야한다고 상상해보십시오. 사람들이 오래되고 성숙 해짐에 따라 그들의 삶과 가족 상황도 바뀌기 때문에 나이는 좋은 예측 인자입니다. 학생들은 가난하지만 직장을 찾아 가족을 만들 수 있습니다. 일반적인 관점에서, 지출은 특정 시점까지 연령이 증가하는 경향이 있습니다. 은퇴는 대개 비용이 줄어드는 경향이 있음을 나타냅니다. 나이에는 그러한 정보가 포함되어 있지만 성장하는 경향이있는 기능이며 성장에 비용을 관련시키는 것은 특정 연령대에서 발생하는 반전을 설명하는 데 도움이되지 않습니다.

제곱 된 기능을 추가하면 나이가 들수록 작은 영향을 미치지 만 나이가 들면 빨리 커집니다. 최종 효과는 일종의 포물선으로, 특정 연령대의 지출이 최고조에 이른 초기 성장을 기록한 다음 감소합니다.

앞서 언급했듯이, 사전에 역학 (소음 및 스포츠카, 소비 및 노령)을 알면 올바른 기능을 만들 수 있습니다. 그러나 이러한 역학을 미리 알지 못한다면 다항식 확장은 자동으로 생성됩니다. 특정 순서가 주어지면 그 순서의 상호 작용과 힘을 생성하기 때문입니다. 명령은 기존 피처에 적용 할 곱셈 및 최대 출력 수를 나타냅니다.따라서 차수 2의 다항식 확장은 모든 피처를 2 차 제곱으로 올리고 모든 단일 피처를 다른 모든 피처에 곱합니다. (두 가지 기능의 모든 조합의 곱셈을 얻습니다.) 분명히 숫자가 높을수록 더 많은 새로운 기능이 만들어 지지만 대부분이 중복되어 컴퓨터 학습 알고리즘을 데이터에 맞추는 데 기여합니다.

다항식 확장을 사용할 때 생성하는 기능의 폭발에주의를 기울여야합니다. 파워는 선형 적으로 증가합니다. 따라서 5 개의 피쳐가 있고 2 차 확장이 필요한 경우 각 피쳐는 두 번째 파워까지 올립니다. 하나의 순서를 늘리면 원래의 각 기능에 새로운 기능이 추가됩니다. 대신 상호 작용은 해당 순서까지 기능의 조합에 따라 증가합니다. 실제로, 5 개의 피쳐 및 2 차의 다항식 확장으로, 피쳐들의 커플 링에 대한 10 개의 고유 한 조합이 모두 생성된다. 순서를 3으로 늘리려면 두 변수의 고유 한 조합과 세 변수의 고유 한 조합, 즉 20 개의 특징을 작성해야합니다.

기계 학습 : 데이터 더미에서 자신의 기능 만들기

편집자의 선택

JavaScript에서 HTML 양식 요소에 액세스하는 방법 - 다른 HTML 요소와 마찬가지로

JavaScript에서 HTML 양식 요소에 액세스하는 방법 - 다른 HTML 요소와 마찬가지로

자바 스크립트에서 HTML5 요소와 직접 상호 작용할 수 있습니다. 트릭은 선택한 요소가 지원해야하는 브라우저 및 플랫폼에서 작동하는지 확인하는 것입니다. 이 예제에서는 및 태그를 다음과 같은 솔루션의 일부로 사용하는 방법을 보여줍니다.

CSS 값 정의에 대한 빠른 가이드 구문 - 인형

CSS 값 정의에 대한 빠른 가이드 구문 - 인형

W3C (World Wide Web Consortium)에서 모든 CSS 속성의 구문과 가능한 값을 정의합니다. 정의를 가능한 한 정확하게 만들기 위해 W3C는 CSS 값 정의 구문이라는 공식 시스템을 사용합니다. 정의 구문은 가능한 값을 매우 정확하게 정의하지만 CSS 값 정의 구문을 읽는 중 ...

JavaScript로 동적 HTML 요소를 작성하는 방법 - 더미

JavaScript로 동적 HTML 요소를 작성하는 방법 - 더미

모든 페이지에 대한 특수 효과는 페이지에 동적 HTML 변경 기능을 제공하는 것입니다. 예를 들어 다음 예제와 같이 선택한 요소에 특수 효과를 만들 수 있습니다. function ChangeStyles (event) {// 요소에 대한 참조를 얻습니다. var ThisElement ...

편집자의 선택

Excel 2013 통합 문서의 변경 내용 수락 또는 거부 방법 - 변경 내용 추적을 설정하면 더미

Excel 2013 통합 문서의 변경 내용 수락 또는 거부 방법 - 변경 내용 추적을 설정하면 더미

Excel 2013 통합 문서의 경우 리본의 검토 탭에있는 변경 내용 추적 명령 단추의 드롭 다운 메뉴에서 Alt / RGC를 눌러 변경 내용 적용 / 거부 옵션을 선택하여 수락 또는 거부 할 변경 내용을 결정할 수 있습니다. 이렇게하면 Excel이 강조 표시된 모든 변경 내용을 검토합니다 ...

Excel에서 셀에 설명을 추가하는 방법 2016 - 문자

Excel에서 셀에 설명을 추가하는 방법 2016 - 문자

Excel 2016 워크 시트의 특정 셀에 주석을 달 수 있습니다. 댓글은 스티커 메모의 전자 팝업 버전과 유사합니다. 셀에 주석을 추가하려면 다음과 같이하십시오. 셀 포인터를 이동하거나 주석을 추가 할 셀을 클릭하십시오. 새 주석을 클릭하십시오.

Excel 피벗 테이블에 계산 된 필드를 추가하는 방법 - 더미

Excel 피벗 테이블에 계산 된 필드를 추가하는 방법 - 더미

피벗 테이블 내부의 값을 계산합니다. 계산 된 필드 및 항목을 표에 추가 할 수 있습니다. 계산 된 필드를 추가하면 새로운 행이나 열을 피벗 테이블에 삽입 한 다음 수식을 사용하여 새 행이나 열을 채울 수 있습니다. 예를 들어 다음과 같이 나타납니다.

편집자의 선택

포토샵 CS6에서 히스토리 기능으로 채우기를 사용하는 방법 - 더미

포토샵 CS6에서 히스토리 기능으로 채우기를 사용하는 방법 - 더미

채우기 Adobe Photoshop의 기능 Creative Suite 6는 선택을 원할 때 유용합니다. 특정 상태로 바꿀 영역을 쉽게 선택할 수 있으면 기록으로 채우기 기능을 사용할 수 있습니다. 특정 이미지에서 하늘이 마음에 들지 않는다고 가정 해보십시오. 선택한 항목 ...

Photoshop CS6에서 패싯 필터를 사용하는 방법 -

Photoshop CS6에서 패싯 필터를 사용하는 방법 -

Photoshop CS6의 이미지는 먼지와 스크래치를 줄이거 나 날카로운 모서리를 부드럽게하는 것입니다. 패싯 필터는 포스터 라이징 효과를 사용하여 이미지를 분할합니다. Photoshop CS6에서 이미지를 흐리게 처리하려는 한 가지 이유는 먼지 및 스크래치를 줄이거 나 밝기를 비슷하게하는 픽셀 블록을 모아서 기하학적 모양을 사용하여 단일 값으로 변환하기 때문입니다.

Photoshop CS6에서 손 도구 사용 방법 - 인형

Photoshop CS6에서 손 도구 사용 방법 - 인형

Photoshop CS6 손 도구는 이미지 문서에서 빠르게 이동하고 스크롤 막대와 유사하게 작업하여 작업을보다 신속하게 수행 할 수 있습니다. 손 도구는 손 도구를 클릭 할 필요가 거의 없기 때문에 실제 도구보다 기능이 더 많습니다. 간단히 ...