개인 재정 기계 학습 모델을 향상시키는 10 가지 방법 - 기계 학습 알고리즘이 완료 됨으로써 이제 더미

기계 학습 모델을 향상시키는 10 가지 방법 - 기계 학습 알고리즘이 완료 됨으로써 이제 더미

차례:

비디오: 개발자가 알아두면 좋은 5가지 AWS 인공지능 서비스 깨알 지식 - 윤석찬 테크에반젤리스트(AWS) 2024

비디오: 개발자가 알아두면 좋은 5가지 AWS 인공지능 서비스 깨알 지식 - 윤석찬 테크에반젤리스트(AWS) 2024
Anonim

이제 기계 학습 알고리즘이 Python 또는 R을 사용하여 얻은 데이터로부터 학습을 마쳤으므로 테스트 세트의 결과와이를 향상시킬 수 있는지 또는 가능한 최상의 결과에 도달했는지 궁금해 할 때 컴퓨터 학습 성능을 향상시키고 테스트 세트 나 새로운 데이터로 동등하게 잘 작동 할 수있는보다 일반적인 예측자를 달성하는 데 사용할 수있는 방법을 알려주는 여러 가지 점검 및 조치가 있습니다. 이 10 가지 기술 목록은 기계 학습 알고리즘을 사용하여 얻은 결과를 향상시킬 수있는 기회를 제공합니다.

학습 곡선 학습

결과를 ​​개선하기위한 첫 번째 단계는 모델의 문제를 결정해야합니다. 학습 곡선을 사용하면 학습 인스턴스의 수를 다양하게 설정할 때 테스트 세트를 검증해야합니다. 샘플 내 및 샘플 외 오류가 많은 차이를 발견했는지 즉시 알 수 있습니다. 넓은 초기 차이는 추정 분산의 표시입니다. 반대로, 높거나 비슷한 오류가있는 것은 편향된 모델로 작업하고 있다는 신호입니다.

Python은 Scikit-learn () 함수를 사용하여 학습 곡선을 쉽게 그릴 수 있도록 도와줍니다. 또한 Revolution 분석 블로그에서 설명한대로 사용자 정의 함수를 사용하여 R을 사용하여 동일한 결과를 쉽게 얻을 수 있습니다.

교차 유효성 검사를 올바르게 사용

교차 유효성 검사 (CV) 추정치와 결과 간의 큰 차이가 테스트 세트 또는 최신 데이터와 함께 나타나는 공통적 인 문제임을 알 수 있습니다. 이 문제가 발생하면 상호 인증에 문제가있는 것입니다. 이력서가 좋은 성과 예측 자라는 사실 외에도,이 문제는 오해의 소지가있는 지표로 인해 문제를 잘못 모델링하고 불만족스러운 결과를 얻을 수 있음을 의미합니다.

교차 검증은 취한 조치가 올바른 경우 힌트를 제공합니다. 중요한 것은 중요하지만 중요하지 않은 것은 이력서가 샘플 밖의 오류 측정치를 정확하게 복제한다고 추정하는 것입니다. 그러나 모델링 결정으로 인해 CV 측정치가 테스트 단계에서 개선되거나 악화되는 것을 정확하게 반영하는 것이 중요합니다. 일반적으로 크로스 밸리데이션 추정치가 실제 오류 결과와 다를 수있는 두 가지 이유가 있습니다.

  • 스누핑
  • 잘못된 샘플링

Python은 층화 k 폴드 CV 샘플러를 제공합니다. R은 y 매개 변수를 인수로 제공 할 때 캐럿 라이브러리의 createFolds 메소드를 사용하여 샘플을 계층화 할 수 있습니다.

올바른 오류 또는 스코어 메트릭 선택

평균 오류를 기반으로 한 학습 알고리즘을 사용하여 중간 오류를 기반으로 오류 메트릭을 최적화하려는 경우 다음에서 최적화 프로세스를 관리하지 않으면 최상의 결과를 얻을 수 없습니다. 당신이 선택한 척도에 찬성하여 일하는 패션.데이터 및 기계 학습을 사용하여 문제를 해결할 때 문제를 분석하고 최적화 할 이상적인 측정 기준을 결정해야합니다.

예제가 많이 도움이 될 수 있습니다. 데이터 및 오류 / 점수 통계 측면에서 특정 문제를 신중하게 정의하는 학술 논문 및 공공 기계 학습 대회에서 많은 것을 얻을 수 있습니다. 목표와 데이터가 귀하의 것과 유사한 컨테스트를 찾은 다음 요청 된 측정 항목을 확인하십시오.

최상의 하이퍼 매개 변수 검색

대부분의 알고리즘은 기본 매개 변수 설정을 사용하여 즉시 사용할 수 있습니다. 그러나 다른 하이퍼 매개 변수를 테스트하여 더 나은 결과를 얻을 수 있습니다. 매개 변수가 취할 수있는 가능한 값 중에서 그리드 검색을 작성하고 올바른 오류 또는 스코어 메트릭을 사용하여 결과를 평가하기 만하면됩니다. 검색에는 시간이 걸리지 만 검색 결과가 향상 될 수 있습니다.

검색을 완료하는 데 너무 오래 걸리면 원래 데이터의 샘플을 작업하여 동일한 결과를 얻을 수 있습니다. 무작위로 선택되는 사례는 적지 만 계산은 더 적지 만 대개 동일한 솔루션을 암시합니다. 시간과 노력을 절약 할 수있는 또 다른 트릭은 무작위 검색을 수행하여 테스트 할 하이퍼 파라미터 조합 수를 제한하는 것입니다.

여러 모델 테스트

모범 사례로, 기본 모델부터 시작하여 여러 모델을 테스트합니다. 즉, 분산보다 더 편중 된 모델입니다. 복잡한 솔루션보다 항상 간단한 솔루션을 선호해야합니다. 간단한 솔루션이 더 효과적이라는 것을 알 수 있습니다.

동일한 차트를 사용하여 여러 모델의 실적을 나타내려면 문제를 해결하기 위해 최선의 차트를 선택하기 전에 도움이됩니다. 특수 이득 차트 및 리프트 차트에서 상업용 제안에 대한 응답과 같은 소비자 행동을 예측하는 데 사용되는 모델을 배치 할 수 있습니다. 이 차트는 결과를 십진수 또는 더 작은 부분으로 나누어 모델이 수행하는 방식을 보여줍니다.

귀하의 제안에 가장 많이 반응하는 소비자에게만 관심이있을 수 있기 때문에 가장 예측 가능성이 높은 순서대로 예측을 나열하면 가장 유망한 고객을 예측하는 데 귀하의 모델이 얼마나 좋은지 강조하게됩니다. 이 Quora 해답은 차트가 어떻게 작동 하는지를 확인하는 데 도움이됩니다. ROC 곡선이란 무엇입니까? 리프트 커브는 무엇입니까?.

여러 모델을 테스트하고 인트로 스팅 하면 피쳐 생성을 위해 변환 할 피쳐 또는 피쳐를 선택할 때 제외 할 피쳐에 대한 제안을 제공 할 수 있습니다.

평균화 모델

기계 학습은 다양한 모델을 구축하고 많은 다른 예측을 생성하며, 모두 예상되는 다른 오류 수행을 포함합니다. 모델을 평균하여 더 나은 결과를 얻을 수 있다는 것을 알고 놀랄 수도 있습니다. 원리는 매우 간단합니다. 분산을 추정하는 것은 무작위 적이므로 여러 모델을 평균하여 신호 를 향상시키고 종종 소멸되는 소음을 배제 할 수 있습니다.

때로는 제대로 작동하지 않는 간단한 알고리즘의 결과와 잘 어울리는 알고리즘의 결과가 단일 알고리즘을 사용하는 것보다 더 나은 예측을 생성 할 수 있습니다.그라디언트 증폭과 같은보다 정교한 알고리즘의 결과를 사용하여 결과를 평균 할 때 선형 모델과 같은 간단한 모델에서 제공된 기여도를 과소 평가하지 마십시오.

스태킹 모델

평균화가 작동하는 것과 동일한 이유로 스태킹을 사용하면 성능을 향상시킬 수 있습니다. 스태킹에서는 두 단계로 기계 학습 모델을 작성합니다. 처음에는이 알고리즘을 사용하여 여러 알고리즘을 사용하여 여러 결과를 예측했으며 모두 데이터에있는 기능을 통해 학습합니다. 두 번째 단계에서는 새 모델이 배울 기능을 제공하는 대신 이전에 숙련 된 다른 모델의 예측을 해당 모델에 제공합니다. 복잡한 목표 함수를 추측 할 때 2 단계 접근법을 사용하는 것이 타당합니다. 여러 모델을 함께 사용하고 곱셈 결과를 스마트하게 결합하여 근사값을 구할 수 있습니다. 2 단계 모델로 간단한 로지스틱 회귀 또는 복잡한 트리 앙상블을 사용할 수 있습니다.

넷플 릭스 (Netflix) 경쟁은 더 강력한 모델을 형성하기 위해 이기종 모델을 어떻게 쌓을 수 있는지에 대한 증거와 상세한 일러스트를 제공합니다. 그러나이 솔루션을 작동중인 응용 프로그램으로 구현하는 것은 상당히 번거로울 수 있습니다.

기능 엔지니어링 적용

편향이 여전히 모델에 영향을 미친다고 생각되는 경우 모델 성능을 향상시키는 새로운 기능을 만드는 것 외에 선택할 수있는 방법이 거의 없습니다. 새로운 기능을 추가 할 때마다 대상 응답을 더 쉽게 추측 할 수 있습니다.

자동 특징 생성은 다항식 확장 또는 기계 학습 알고리즘의 지원 벡터 기계 클래스를 사용하여 가능합니다. 지원 벡터 머신은 계산 속도가 빠르고 메모리가 최적 인 방식으로 고차원 형상 공간에서 더 우수한 기능을 자동으로 찾을 수 있습니다.

그러나 알고리즘이 배우려고하는 데이터 문제를 해결하는 데 필요한 방법에 대한 전문 지식과 이해를 실제로 대체 할 수있는 것은 없습니다. 세계에서 일하는 방식에 대한 지식과 아이디어를 기반으로 기능을 만들 수 있습니다. 인간은 여전히 ​​그렇게하기에 탁월하며 기계는 쉽게 대체 할 수 없습니다.

기능 및 예제 선택

예상 분산이 높고 알고리즘이 많은 기능을 사용하는 경우 더 나은 결과를 위해 일부 기능을 정리해야합니다. 이러한 맥락에서 가장 높은 예측치를 가진 데이터 매트릭스를 선택하여 데이터 매트릭스의 피쳐 수를 줄이는 것이 좋습니다. 선형 모델, 선형지지 벡터 머신 또는 신경망으로 작업 할 때, 정규화는 항상 옵션입니다. L1과 L2 모두 중복 변수의 영향을 줄이거 나 모델에서 변수를 제거 할 수 있습니다. 안정성 선택은 덜 유용한 변수를 제외하는 L1 기능을 활용합니다. 이 기술은 배제를 확인하기 위해 교육 데이터를 다시 샘플링합니다.

Scikit-learn 웹 사이트에서 예제를 보면 안정성 선택에 대해 더 자세히 알 수 있습니다. 또한 linear_model 모듈에서 RandomizedLogisticRegression 및 RandomizedLasso Scikit-learn 함수를 사용하여 연습 할 수 있습니다.

더 많은 데이터 찾기

이전 제안을 모두 시도한 후에도 여전히 높은 예측 결과를 얻을 수 있습니다. 이 경우 트레이닝 세트 크기를 늘리는 것만 선택할 수 있습니다. 새로운 데이터를 제공하여 샘플을 늘리십시오. 그러면 새로운 사례 또는 새로운 기능으로 변환 될 수 있습니다.

사례를 더 추가하려면 유사한 데이터가 있는지 확인하십시오. 새 기능을 추가하려면 가능한 경우 데이터와 항목을 일치시키는 오픈 소스 데이터 소스를 찾습니다. 새로운 사례와 새로운 기능을 모두 얻는 또 다른 좋은 방법은 웹에서 데이터를 스크랩하는 것입니다. 데이터는 다양한 출처에서 또는 응용 프로그램 프로그래밍 인터페이스 (API)를 통해 사용할 수 있습니다. 예를 들어 Google API는 많은 지리적 및 비즈니스 정보 소스를 제공합니다.

기계 학습 모델을 향상시키는 10 가지 방법 - 기계 학습 알고리즘이 완료 됨으로써 이제 더미

편집자의 선택

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

로 자동 채우기 Word 2003의 상용구 기능은 자동으로 단어 쓰기를 완료합니다. 철자하기 시작 했어. 당신이 영웅으로 크리스토퍼를 특징으로하는 다음 Great American Novel을 쓰고 있다고합시다. Christopher 철자를 반복해서 쓰는 대신 이름의 몇 글자 만 입력하면 팝업 상자가 나타납니다. 그것은 말한다 : 크리스토퍼 : (삽입하려면 Enter 키를 누릅니다). ...

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항은 파일 탭을 클릭하면 파일 메뉴가 열립니다. Backstage보기라고합니다. Backstage보기는 작업중인 데이터 파일과 관련된 명령 (예 : 저장, 열기, 인쇄, 우편 발송 및 속성 확인)에 대한 액세스를 제공합니다. Backstage보기를 종료하려면 다른 탭을 클릭하거나 ...

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

당신은 여러모로 그 모양을 조정할 수 있습니다. 가장 쉬운 방법은 다이어그램에 적용된 빠른 스타일을 변경하는 것입니다. 빠른 스타일은 단순히 색상 및 모양 효과와 같은 서식 요소 모음을 구성하는 요소 중 일부에 할당됩니다.

편집자의 선택

실습 초등 교육 시험 - 실습 - 실습

실습 초등 교육 시험 - 실습 - 실습

Praxis 초등 교육 시험에는 commutative, associative, distributive 및 substitution의 4 가지 주요 속성을 이해해야합니다. 교환 가능 속성 및 결합 속성에는 더하기 및 곱하기 버전이 있습니다. 세 개 이상의 숫자가 추가되면 추가되는 순서는 중요하지 않습니다. 그 합계 ...

초등 교육 시험 문장 구조 - 더미

초등 교육 시험 문장 구조 - 더미

초등학교 교사는 문장의 다른 부분뿐만 아니라 문장의 다른 종류. 예를 들어, Praxis 초등 교육 시험에 나오는 문장 구조에 관한 질문은 주제와 술어 또는 화합물과의 차이점을 알아야 할 수도 있습니다.

초등 교육 시험 작문 구조 - 인형

초등 교육 시험 작문 구조 - 인형

학생들은 공통 구조를 사용하여 작문을 구성한다. 인과 관계, 연대순, 비교 및 ​​계약. Praxis Elementary Education 시험은 귀하가 이러한 구조를 잘 알고 있어야합니다. 다음 목록에는 공통 구조 (사용되는 경우)와 자주 사용되는 단어가 링크되어 있습니다. 원인과 결과 ...

편집자의 선택

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 도면에는 여섯 가지 종류의 시트가 표시됩니다. 한 가지 방법은 모두를 대표하는 세 가지 표준 블록을 만드는 것입니다. 또는 단일 동적 블록을 만들고 세 가지 유형 모두를 포괄하는 가시성 상태를 정의 할 수 있습니다. 다음 단계에서는 블록을 두 배로 만드는 방법을 보여줍니다 (또는 트리플 ...).

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014를 사용하면 다중 지시선 MLeaDer 명령을 사용하여 동시에 지시선과 여러 줄 문자로 구성된 객체; 다음과 같은 간단한 단계를 따르십시오. 사용자의 필요에 따라 적절한 다중 지시선 스타일을 설정하십시오. 홈 탭의 다중 지시선 스타일 드롭 다운 목록에서 기존 스타일 선택 ...