개인 재정 기계 학습 : 데이터 더미에서 자신의 기능 만들기

기계 학습 : 데이터 더미에서 자신의 기능 만들기

차례:

비디오: 3-4. numpy를 사용한 데이터 분석 맛보기: MovieLens 1M 데이터셋 분석 2024

비디오: 3-4. numpy를 사용한 데이터 분석 맛보기: MovieLens 1M 데이터셋 분석 2024
Anonim

다양한 소스에서 얻은 원시 데이터에 기계 학습 작업을 수행하는 데 필요한 기능이없는 경우가 있습니다. 이 경우 원하는 결과를 얻으려면 자신의 기능을 만들어야합니다. 지형지 물을 만드는 것이 허공에서 데이터를 만드는 것을 의미하지는 않습니다. 기존 데이터에서 새 기능을 만듭니다.

기능 작성의 필요성 이해

기계 학습 알고리즘의 한 가지 큰 한계는 사용중인 기능에 응답 할 수있는 수식을 추측하는 것이 불가능할 수 있다는 것입니다. 때로는이 정보를 사용하여 응답을 매핑 할 수 없기 때문에 추측 할 수없는 경우가 있습니다 (올바른 정보가 없음을 의미). 다른 경우, 귀하가 제공 한 정보는 알고리즘이 올바르게 학습하는 데 도움이되지 않습니다.

이 문제의 해답은 피쳐 생성입니다. 피쳐 생성은 기존 피쳐를 창조적으로 혼합하는 인간의 개입을 의미하기 때문에 과학보다 더 예술이라고 여겨지는 기계 학습의 일부입니다. 더하기, 빼기, 곱하기 및 비율을 사용하여이 작업을 수행하여 원본보다 더 많은 예측 능력으로 새로운 파생 된 피쳐를 생성합니다.

문제를 잘 알고 인간이 어떻게 해결할 것인지를 알아내는 것은 피처 생성의 일부입니다. 따라서 앞의 예와 연결하면 지표면이 부동산 가격에 연결된다는 사실은 일반적인 지식입니다. 프로퍼티의 값을 추측하려고 할 때 화면에 서페이스가없는 경우 기존 데이터에서 해당 정보를 복구 할 수 있습니다. 이렇게하면 예측의 성능이 향상됩니다.

자동으로 기능 만들기

일부 새 기능을 자동으로 만들 수 있습니다.자동 피쳐 생성을 달성하는 한 가지 방법은 다항식 확장을 사용하는 것입니다. R과 Python에서 자동으로 피쳐를 생성 할 수 있도록 다항식 확장을 수행하는 특정 방법이 있습니다. 당분간 다항식 확장의 개념을 이해해야합니다.

다항식 확장에서 자동으로 피쳐 간의 상호 작용을 만들뿐 아니라 힘을 생성합니다 (예: 피쳐의 사각형 계산). 상호 작용은 피쳐의 곱셈에 의존합니다. 곱셈을 사용하여 새 지형지 물을 생성하면 지형지 물이 전체적으로 어떻게 행동하는 경향이 있는지 추적 할 수 있습니다. 따라서 특별한 상황을 암시 할 수있는 기능간에 복잡한 관계를 매핑하는 것이 좋습니다.

상호 작용의 좋은 예는 자동차에서 방출되는 소음과 자동차 가격입니다. 소비자는 스포츠카를 사지 않는 한 시끄러운 자동차를 좋아하지 않습니다.이 경우 엔진 소음은 자동차의 주인을 생각 나게하는 플러스입니다. 방관자는 차가운 차를 눈치 챈다. 그래서 소음이 다른 사람들의 관심을 끌기 때문에 소음은 과시하는 데 큰 역할을한다. 다른 한편으로, 가족 차를 운전할 때의 소음이 그다지 시원하지는 않습니다. 기계 학습 응용 프로그램에서 특정 차량의 선호 속도를 예측할 때 소음 및 자동차 가격과 같은 기능은 스스로 예측할 수 있습니다. 그러나 두 값을 곱하고이를 피쳐 집합에 추가하면 목표가 스포츠카라는 학습 알고리즘을 분명히 암시 할 수 있습니다 (높은 노이즈 레벨을 높은 가격으로 곱하면 됨).

응답은 특정 상황을 암시하면서 응답과 특징 간의 비선형 관계를 만들어줌으로써 도움이된다.

다른 예를 들자면, 사람의 연간 지출을 예측해야한다고 상상해보십시오. 사람들이 오래되고 성숙 해짐에 따라 그들의 삶과 가족 상황도 바뀌기 때문에 나이는 좋은 예측 인자입니다. 학생들은 가난하지만 직장을 찾아 가족을 만들 수 있습니다. 일반적인 관점에서, 지출은 특정 시점까지 연령이 증가하는 경향이 있습니다. 은퇴는 대개 비용이 줄어드는 경향이 있음을 나타냅니다. 나이에는 그러한 정보가 포함되어 있지만 성장하는 경향이있는 기능이며 성장에 비용을 관련시키는 것은 특정 연령대에서 발생하는 반전을 설명하는 데 도움이되지 않습니다.

제곱 된 기능을 추가하면 나이가 들수록 작은 영향을 미치지 만 나이가 들면 빨리 커집니다. 최종 효과는 일종의 포물선으로, 특정 연령대의 지출이 최고조에 이른 초기 성장을 기록한 다음 감소합니다.

앞서 언급했듯이, 사전에 역학 (소음 및 스포츠카, 소비 및 노령)을 알면 올바른 기능을 만들 수 있습니다. 그러나 이러한 역학을 미리 알지 못한다면 다항식 확장은 자동으로 생성됩니다. 특정 순서가 주어지면 그 순서의 상호 작용과 힘을 생성하기 때문입니다. 명령은 기존 피처에 적용 할 곱셈 및 최대 출력 수를 나타냅니다.따라서 차수 2의 다항식 확장은 모든 피처를 2 차 제곱으로 올리고 모든 단일 피처를 다른 모든 피처에 곱합니다. (두 가지 기능의 모든 조합의 곱셈을 얻습니다.) 분명히 숫자가 높을수록 더 많은 새로운 기능이 만들어 지지만 대부분이 중복되어 컴퓨터 학습 알고리즘을 데이터에 맞추는 데 기여합니다.

다항식 확장을 사용할 때 생성하는 기능의 폭발에주의를 기울여야합니다. 파워는 선형 적으로 증가합니다. 따라서 5 개의 피쳐가 있고 2 차 확장이 필요한 경우 각 피쳐는 두 번째 파워까지 올립니다. 하나의 순서를 늘리면 원래의 각 기능에 새로운 기능이 추가됩니다. 대신 상호 작용은 해당 순서까지 기능의 조합에 따라 증가합니다. 실제로, 5 개의 피쳐 및 2 차의 다항식 확장으로, 피쳐들의 커플 링에 대한 10 개의 고유 한 조합이 모두 생성된다. 순서를 3으로 늘리려면 두 변수의 고유 한 조합과 세 변수의 고유 한 조합, 즉 20 개의 특징을 작성해야합니다.

기계 학습 : 데이터 더미에서 자신의 기능 만들기

편집자의 선택

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

로 자동 채우기 Word 2003의 상용구 기능은 자동으로 단어 쓰기를 완료합니다. 철자하기 시작 했어. 당신이 영웅으로 크리스토퍼를 특징으로하는 다음 Great American Novel을 쓰고 있다고합시다. Christopher 철자를 반복해서 쓰는 대신 이름의 몇 글자 만 입력하면 팝업 상자가 나타납니다. 그것은 말한다 : 크리스토퍼 : (삽입하려면 Enter 키를 누릅니다). ...

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항은 파일 탭을 클릭하면 파일 메뉴가 열립니다. Backstage보기라고합니다. Backstage보기는 작업중인 데이터 파일과 관련된 명령 (예 : 저장, 열기, 인쇄, 우편 발송 및 속성 확인)에 대한 액세스를 제공합니다. Backstage보기를 종료하려면 다른 탭을 클릭하거나 ...

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

당신은 여러모로 그 모양을 조정할 수 있습니다. 가장 쉬운 방법은 다이어그램에 적용된 빠른 스타일을 변경하는 것입니다. 빠른 스타일은 단순히 색상 및 모양 효과와 같은 서식 요소 모음을 구성하는 요소 중 일부에 할당됩니다.

편집자의 선택

실습 초등 교육 시험 - 실습 - 실습

실습 초등 교육 시험 - 실습 - 실습

Praxis 초등 교육 시험에는 commutative, associative, distributive 및 substitution의 4 가지 주요 속성을 이해해야합니다. 교환 가능 속성 및 결합 속성에는 더하기 및 곱하기 버전이 있습니다. 세 개 이상의 숫자가 추가되면 추가되는 순서는 중요하지 않습니다. 그 합계 ...

초등 교육 시험 문장 구조 - 더미

초등 교육 시험 문장 구조 - 더미

초등학교 교사는 문장의 다른 부분뿐만 아니라 문장의 다른 종류. 예를 들어, Praxis 초등 교육 시험에 나오는 문장 구조에 관한 질문은 주제와 술어 또는 화합물과의 차이점을 알아야 할 수도 있습니다.

초등 교육 시험 작문 구조 - 인형

초등 교육 시험 작문 구조 - 인형

학생들은 공통 구조를 사용하여 작문을 구성한다. 인과 관계, 연대순, 비교 및 ​​계약. Praxis Elementary Education 시험은 귀하가 이러한 구조를 잘 알고 있어야합니다. 다음 목록에는 공통 구조 (사용되는 경우)와 자주 사용되는 단어가 링크되어 있습니다. 원인과 결과 ...

편집자의 선택

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 도면에는 여섯 가지 종류의 시트가 표시됩니다. 한 가지 방법은 모두를 대표하는 세 가지 표준 블록을 만드는 것입니다. 또는 단일 동적 블록을 만들고 세 가지 유형 모두를 포괄하는 가시성 상태를 정의 할 수 있습니다. 다음 단계에서는 블록을 두 배로 만드는 방법을 보여줍니다 (또는 트리플 ...).

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014를 사용하면 다중 지시선 MLeaDer 명령을 사용하여 동시에 지시선과 여러 줄 문자로 구성된 객체; 다음과 같은 간단한 단계를 따르십시오. 사용자의 필요에 따라 적절한 다중 지시선 스타일을 설정하십시오. 홈 탭의 다중 지시선 스타일 드롭 다운 목록에서 기존 스타일 선택 ...