기계 학습 모델을 향상시키는 10 가지 방법 - 기계 학습 알고리즘이 완료 됨으로써 이제 더미

이제 기계 학습 알고리즘이 Python 또는 R을 사용하여 얻은 데이터로부터 학습을 마쳤으므로 테스트 세트의 결과와이를 향상시킬 수 있는지 또는 가능한 최상의 결과에 도달했는지 궁금해 할 때 컴퓨터 학습 성능을 향상시키고 테스트 세트 나 새로운 데이터로 동등하게 잘 작동 할 수있는보다 일반적인 예측자를 달성하는 데 사용할 수있는 방법을 알려주는 여러 가지 점검 및 조치가 있습니다. 이 10 가지 기술 목록은 기계 학습 알고리즘을 사용하여 얻은 결과를 향상시킬 수있는 기회를 제공합니다.

학습 곡선 학습

결과를 개선하기위한 첫 번째 단계는 모델의 문제를 결정해야합니다. 학습 곡선을 사용하면 학습 인스턴스의 수를 다양하게 설정할 때 테스트 세트를 검증해야합니다. 샘플 내 및 샘플 외 오류가 많은 차이를 발견했는지 즉시 알 수 있습니다. 넓은 초기 차이는 추정 분산의 표시입니다. 반대로, 높거나 비슷한 오류가있는 것은 편향된 모델로 작업하고 있다는 신호입니다.

Python은 Scikit-learn () 함수를 사용하여 학습 곡선을 쉽게 그릴 수 있도록 도와줍니다. 또한 Revolution 분석 블로그에서 설명한대로 사용자 정의 함수를 사용하여 R을 사용하여 동일한 결과를 쉽게 얻을 수 있습니다.

교차 유효성 검사를 올바르게 사용

교차 유효성 검사 (CV) 추정치와 결과 간의 큰 차이가 테스트 세트 또는 최신 데이터와 함께 나타나는 공통적 인 문제임을 알 수 있습니다. 이 문제가 발생하면 상호 인증에 문제가있는 것입니다. 이력서가 좋은 성과 예측 자라는 사실 외에도,이 문제는 오해의 소지가있는 지표로 인해 문제를 잘못 모델링하고 불만족스러운 결과를 얻을 수 있음을 의미합니다.

교차 검증은 취한 조치가 올바른 경우 힌트를 제공합니다. 중요한 것은 중요하지만 중요하지 않은 것은 이력서가 샘플 밖의 오류 측정치를 정확하게 복제한다고 추정하는 것입니다. 그러나 모델링 결정으로 인해 CV 측정치가 테스트 단계에서 개선되거나 악화되는 것을 정확하게 반영하는 것이 중요합니다. 일반적으로 크로스 밸리데이션 추정치가 실제 오류 결과와 다를 수있는 두 가지 이유가 있습니다.

스누핑
잘못된 샘플링

Python은 층화 k 폴드 CV 샘플러를 제공합니다. R은 y 매개 변수를 인수로 제공 할 때 캐럿 라이브러리의 createFolds 메소드를 사용하여 샘플을 계층화 할 수 있습니다.

올바른 오류 또는 스코어 메트릭 선택

평균 오류를 기반으로 한 학습 알고리즘을 사용하여 중간 오류를 기반으로 오류 메트릭을 최적화하려는 경우 다음에서 최적화 프로세스를 관리하지 않으면 최상의 결과를 얻을 수 없습니다. 당신이 선택한 척도에 찬성하여 일하는 패션.데이터 및 기계 학습을 사용하여 문제를 해결할 때 문제를 분석하고 최적화 할 이상적인 측정 기준을 결정해야합니다.

예제가 많이 도움이 될 수 있습니다. 데이터 및 오류 / 점수 통계 측면에서 특정 문제를 신중하게 정의하는 학술 논문 및 공공 기계 학습 대회에서 많은 것을 얻을 수 있습니다. 목표와 데이터가 귀하의 것과 유사한 컨테스트를 찾은 다음 요청 된 측정 항목을 확인하십시오.

최상의 하이퍼 매개 변수 검색

대부분의 알고리즘은 기본 매개 변수 설정을 사용하여 즉시 사용할 수 있습니다. 그러나 다른 하이퍼 매개 변수를 테스트하여 더 나은 결과를 얻을 수 있습니다. 매개 변수가 취할 수있는 가능한 값 중에서 그리드 검색을 작성하고 올바른 오류 또는 스코어 메트릭을 사용하여 결과를 평가하기 만하면됩니다. 검색에는 시간이 걸리지 만 검색 결과가 향상 될 수 있습니다.

검색을 완료하는 데 너무 오래 걸리면 원래 데이터의 샘플을 작업하여 동일한 결과를 얻을 수 있습니다. 무작위로 선택되는 사례는 적지 만 계산은 더 적지 만 대개 동일한 솔루션을 암시합니다. 시간과 노력을 절약 할 수있는 또 다른 트릭은 무작위 검색을 수행하여 테스트 할 하이퍼 파라미터 조합 수를 제한하는 것입니다.

여러 모델 테스트

모범 사례로, 기본 모델부터 시작하여 여러 모델을 테스트합니다. 즉, 분산보다 더 편중 된 모델입니다. 복잡한 솔루션보다 항상 간단한 솔루션을 선호해야합니다. 간단한 솔루션이 더 효과적이라는 것을 알 수 있습니다.

동일한 차트를 사용하여 여러 모델의 실적을 나타내려면 문제를 해결하기 위해 최선의 차트를 선택하기 전에 도움이됩니다. 특수 이득 차트 및 리프트 차트에서 상업용 제안에 대한 응답과 같은 소비자 행동을 예측하는 데 사용되는 모델을 배치 할 수 있습니다. 이 차트는 결과를 십진수 또는 더 작은 부분으로 나누어 모델이 수행하는 방식을 보여줍니다.

귀하의 제안에 가장 많이 반응하는 소비자에게만 관심이있을 수 있기 때문에 가장 예측 가능성이 높은 순서대로 예측을 나열하면 가장 유망한 고객을 예측하는 데 귀하의 모델이 얼마나 좋은지 강조하게됩니다. 이 Quora 해답은 차트가 어떻게 작동 하는지를 확인하는 데 도움이됩니다. ROC 곡선이란 무엇입니까? 리프트 커브는 무엇입니까?.

여러 모델을 테스트하고 인트로 스팅 하면 피쳐 생성을 위해 변환 할 피쳐 또는 피쳐를 선택할 때 제외 할 피쳐에 대한 제안을 제공 할 수 있습니다.

평균화 모델

기계 학습은 다양한 모델을 구축하고 많은 다른 예측을 생성하며, 모두 예상되는 다른 오류 수행을 포함합니다. 모델을 평균하여 더 나은 결과를 얻을 수 있다는 것을 알고 놀랄 수도 있습니다. 원리는 매우 간단합니다. 분산을 추정하는 것은 무작위 적이므로 여러 모델을 평균하여 신호 를 향상시키고 종종 소멸되는 소음을 배제 할 수 있습니다.

때로는 제대로 작동하지 않는 간단한 알고리즘의 결과와 잘 어울리는 알고리즘의 결과가 단일 알고리즘을 사용하는 것보다 더 나은 예측을 생성 할 수 있습니다.그라디언트 증폭과 같은보다 정교한 알고리즘의 결과를 사용하여 결과를 평균 할 때 선형 모델과 같은 간단한 모델에서 제공된 기여도를 과소 평가하지 마십시오.

스태킹 모델

평균화가 작동하는 것과 동일한 이유로 스태킹을 사용하면 성능을 향상시킬 수 있습니다. 스태킹에서는 두 단계로 기계 학습 모델을 작성합니다. 처음에는이 알고리즘을 사용하여 여러 알고리즘을 사용하여 여러 결과를 예측했으며 모두 데이터에있는 기능을 통해 학습합니다. 두 번째 단계에서는 새 모델이 배울 기능을 제공하는 대신 이전에 숙련 된 다른 모델의 예측을 해당 모델에 제공합니다. 복잡한 목표 함수를 추측 할 때 2 단계 접근법을 사용하는 것이 타당합니다. 여러 모델을 함께 사용하고 곱셈 결과를 스마트하게 결합하여 근사값을 구할 수 있습니다. 2 단계 모델로 간단한 로지스틱 회귀 또는 복잡한 트리 앙상블을 사용할 수 있습니다.

넷플 릭스 (Netflix) 경쟁은 더 강력한 모델을 형성하기 위해 이기종 모델을 어떻게 쌓을 수 있는지에 대한 증거와 상세한 일러스트를 제공합니다. 그러나이 솔루션을 작동중인 응용 프로그램으로 구현하는 것은 상당히 번거로울 수 있습니다.

기능 엔지니어링 적용

편향이 여전히 모델에 영향을 미친다고 생각되는 경우 모델 성능을 향상시키는 새로운 기능을 만드는 것 외에 선택할 수있는 방법이 거의 없습니다. 새로운 기능을 추가 할 때마다 대상 응답을 더 쉽게 추측 할 수 있습니다.

자동 특징 생성은 다항식 확장 또는 기계 학습 알고리즘의 지원 벡터 기계 클래스를 사용하여 가능합니다. 지원 벡터 머신은 계산 속도가 빠르고 메모리가 최적 인 방식으로 고차원 형상 공간에서 더 우수한 기능을 자동으로 찾을 수 있습니다.

그러나 알고리즘이 배우려고하는 데이터 문제를 해결하는 데 필요한 방법에 대한 전문 지식과 이해를 실제로 대체 할 수있는 것은 없습니다. 세계에서 일하는 방식에 대한 지식과 아이디어를 기반으로 기능을 만들 수 있습니다. 인간은 여전히 그렇게하기에 탁월하며 기계는 쉽게 대체 할 수 없습니다.

기능 및 예제 선택

예상 분산이 높고 알고리즘이 많은 기능을 사용하는 경우 더 나은 결과를 위해 일부 기능을 정리해야합니다. 이러한 맥락에서 가장 높은 예측치를 가진 데이터 매트릭스를 선택하여 데이터 매트릭스의 피쳐 수를 줄이는 것이 좋습니다. 선형 모델, 선형지지 벡터 머신 또는 신경망으로 작업 할 때, 정규화는 항상 옵션입니다. L1과 L2 모두 중복 변수의 영향을 줄이거 나 모델에서 변수를 제거 할 수 있습니다. 안정성 선택은 덜 유용한 변수를 제외하는 L1 기능을 활용합니다. 이 기술은 배제를 확인하기 위해 교육 데이터를 다시 샘플링합니다.

Scikit-learn 웹 사이트에서 예제를 보면 안정성 선택에 대해 더 자세히 알 수 있습니다. 또한 linear_model 모듈에서 RandomizedLogisticRegression 및 RandomizedLasso Scikit-learn 함수를 사용하여 연습 할 수 있습니다.

더 많은 데이터 찾기

이전 제안을 모두 시도한 후에도 여전히 높은 예측 결과를 얻을 수 있습니다. 이 경우 트레이닝 세트 크기를 늘리는 것만 선택할 수 있습니다. 새로운 데이터를 제공하여 샘플을 늘리십시오. 그러면 새로운 사례 또는 새로운 기능으로 변환 될 수 있습니다.