개인 재정 기계 학습 모델을 향상시키는 10 가지 방법 - 기계 학습 알고리즘이 완료 됨으로써 이제 더미

기계 학습 모델을 향상시키는 10 가지 방법 - 기계 학습 알고리즘이 완료 됨으로써 이제 더미

차례:

비디오: 개발자가 알아두면 좋은 5가지 AWS 인공지능 서비스 깨알 지식 - 윤석찬 테크에반젤리스트(AWS) 2024

비디오: 개발자가 알아두면 좋은 5가지 AWS 인공지능 서비스 깨알 지식 - 윤석찬 테크에반젤리스트(AWS) 2024
Anonim

이제 기계 학습 알고리즘이 Python 또는 R을 사용하여 얻은 데이터로부터 학습을 마쳤으므로 테스트 세트의 결과와이를 향상시킬 수 있는지 또는 가능한 최상의 결과에 도달했는지 궁금해 할 때 컴퓨터 학습 성능을 향상시키고 테스트 세트 나 새로운 데이터로 동등하게 잘 작동 할 수있는보다 일반적인 예측자를 달성하는 데 사용할 수있는 방법을 알려주는 여러 가지 점검 및 조치가 있습니다. 이 10 가지 기술 목록은 기계 학습 알고리즘을 사용하여 얻은 결과를 향상시킬 수있는 기회를 제공합니다.

학습 곡선 학습

결과를 ​​개선하기위한 첫 번째 단계는 모델의 문제를 결정해야합니다. 학습 곡선을 사용하면 학습 인스턴스의 수를 다양하게 설정할 때 테스트 세트를 검증해야합니다. 샘플 내 및 샘플 외 오류가 많은 차이를 발견했는지 즉시 알 수 있습니다. 넓은 초기 차이는 추정 분산의 표시입니다. 반대로, 높거나 비슷한 오류가있는 것은 편향된 모델로 작업하고 있다는 신호입니다.

Python은 Scikit-learn () 함수를 사용하여 학습 곡선을 쉽게 그릴 수 있도록 도와줍니다. 또한 Revolution 분석 블로그에서 설명한대로 사용자 정의 함수를 사용하여 R을 사용하여 동일한 결과를 쉽게 얻을 수 있습니다.

교차 유효성 검사를 올바르게 사용

교차 유효성 검사 (CV) 추정치와 결과 간의 큰 차이가 테스트 세트 또는 최신 데이터와 함께 나타나는 공통적 인 문제임을 알 수 있습니다. 이 문제가 발생하면 상호 인증에 문제가있는 것입니다. 이력서가 좋은 성과 예측 자라는 사실 외에도,이 문제는 오해의 소지가있는 지표로 인해 문제를 잘못 모델링하고 불만족스러운 결과를 얻을 수 있음을 의미합니다.

교차 검증은 취한 조치가 올바른 경우 힌트를 제공합니다. 중요한 것은 중요하지만 중요하지 않은 것은 이력서가 샘플 밖의 오류 측정치를 정확하게 복제한다고 추정하는 것입니다. 그러나 모델링 결정으로 인해 CV 측정치가 테스트 단계에서 개선되거나 악화되는 것을 정확하게 반영하는 것이 중요합니다. 일반적으로 크로스 밸리데이션 추정치가 실제 오류 결과와 다를 수있는 두 가지 이유가 있습니다.

  • 스누핑
  • 잘못된 샘플링

Python은 층화 k 폴드 CV 샘플러를 제공합니다. R은 y 매개 변수를 인수로 제공 할 때 캐럿 라이브러리의 createFolds 메소드를 사용하여 샘플을 계층화 할 수 있습니다.

올바른 오류 또는 스코어 메트릭 선택

평균 오류를 기반으로 한 학습 알고리즘을 사용하여 중간 오류를 기반으로 오류 메트릭을 최적화하려는 경우 다음에서 최적화 프로세스를 관리하지 않으면 최상의 결과를 얻을 수 없습니다. 당신이 선택한 척도에 찬성하여 일하는 패션.데이터 및 기계 학습을 사용하여 문제를 해결할 때 문제를 분석하고 최적화 할 이상적인 측정 기준을 결정해야합니다.

예제가 많이 도움이 될 수 있습니다. 데이터 및 오류 / 점수 통계 측면에서 특정 문제를 신중하게 정의하는 학술 논문 및 공공 기계 학습 대회에서 많은 것을 얻을 수 있습니다. 목표와 데이터가 귀하의 것과 유사한 컨테스트를 찾은 다음 요청 된 측정 항목을 확인하십시오.

최상의 하이퍼 매개 변수 검색

대부분의 알고리즘은 기본 매개 변수 설정을 사용하여 즉시 사용할 수 있습니다. 그러나 다른 하이퍼 매개 변수를 테스트하여 더 나은 결과를 얻을 수 있습니다. 매개 변수가 취할 수있는 가능한 값 중에서 그리드 검색을 작성하고 올바른 오류 또는 스코어 메트릭을 사용하여 결과를 평가하기 만하면됩니다. 검색에는 시간이 걸리지 만 검색 결과가 향상 될 수 있습니다.

검색을 완료하는 데 너무 오래 걸리면 원래 데이터의 샘플을 작업하여 동일한 결과를 얻을 수 있습니다. 무작위로 선택되는 사례는 적지 만 계산은 더 적지 만 대개 동일한 솔루션을 암시합니다. 시간과 노력을 절약 할 수있는 또 다른 트릭은 무작위 검색을 수행하여 테스트 할 하이퍼 파라미터 조합 수를 제한하는 것입니다.

여러 모델 테스트

모범 사례로, 기본 모델부터 시작하여 여러 모델을 테스트합니다. 즉, 분산보다 더 편중 된 모델입니다. 복잡한 솔루션보다 항상 간단한 솔루션을 선호해야합니다. 간단한 솔루션이 더 효과적이라는 것을 알 수 있습니다.

동일한 차트를 사용하여 여러 모델의 실적을 나타내려면 문제를 해결하기 위해 최선의 차트를 선택하기 전에 도움이됩니다. 특수 이득 차트 및 리프트 차트에서 상업용 제안에 대한 응답과 같은 소비자 행동을 예측하는 데 사용되는 모델을 배치 할 수 있습니다. 이 차트는 결과를 십진수 또는 더 작은 부분으로 나누어 모델이 수행하는 방식을 보여줍니다.

귀하의 제안에 가장 많이 반응하는 소비자에게만 관심이있을 수 있기 때문에 가장 예측 가능성이 높은 순서대로 예측을 나열하면 가장 유망한 고객을 예측하는 데 귀하의 모델이 얼마나 좋은지 강조하게됩니다. 이 Quora 해답은 차트가 어떻게 작동 하는지를 확인하는 데 도움이됩니다. ROC 곡선이란 무엇입니까? 리프트 커브는 무엇입니까?.

여러 모델을 테스트하고 인트로 스팅 하면 피쳐 생성을 위해 변환 할 피쳐 또는 피쳐를 선택할 때 제외 할 피쳐에 대한 제안을 제공 할 수 있습니다.

평균화 모델

기계 학습은 다양한 모델을 구축하고 많은 다른 예측을 생성하며, 모두 예상되는 다른 오류 수행을 포함합니다. 모델을 평균하여 더 나은 결과를 얻을 수 있다는 것을 알고 놀랄 수도 있습니다. 원리는 매우 간단합니다. 분산을 추정하는 것은 무작위 적이므로 여러 모델을 평균하여 신호 를 향상시키고 종종 소멸되는 소음을 배제 할 수 있습니다.

때로는 제대로 작동하지 않는 간단한 알고리즘의 결과와 잘 어울리는 알고리즘의 결과가 단일 알고리즘을 사용하는 것보다 더 나은 예측을 생성 할 수 있습니다.그라디언트 증폭과 같은보다 정교한 알고리즘의 결과를 사용하여 결과를 평균 할 때 선형 모델과 같은 간단한 모델에서 제공된 기여도를 과소 평가하지 마십시오.

스태킹 모델

평균화가 작동하는 것과 동일한 이유로 스태킹을 사용하면 성능을 향상시킬 수 있습니다. 스태킹에서는 두 단계로 기계 학습 모델을 작성합니다. 처음에는이 알고리즘을 사용하여 여러 알고리즘을 사용하여 여러 결과를 예측했으며 모두 데이터에있는 기능을 통해 학습합니다. 두 번째 단계에서는 새 모델이 배울 기능을 제공하는 대신 이전에 숙련 된 다른 모델의 예측을 해당 모델에 제공합니다. 복잡한 목표 함수를 추측 할 때 2 단계 접근법을 사용하는 것이 타당합니다. 여러 모델을 함께 사용하고 곱셈 결과를 스마트하게 결합하여 근사값을 구할 수 있습니다. 2 단계 모델로 간단한 로지스틱 회귀 또는 복잡한 트리 앙상블을 사용할 수 있습니다.

넷플 릭스 (Netflix) 경쟁은 더 강력한 모델을 형성하기 위해 이기종 모델을 어떻게 쌓을 수 있는지에 대한 증거와 상세한 일러스트를 제공합니다. 그러나이 솔루션을 작동중인 응용 프로그램으로 구현하는 것은 상당히 번거로울 수 있습니다.

기능 엔지니어링 적용

편향이 여전히 모델에 영향을 미친다고 생각되는 경우 모델 성능을 향상시키는 새로운 기능을 만드는 것 외에 선택할 수있는 방법이 거의 없습니다. 새로운 기능을 추가 할 때마다 대상 응답을 더 쉽게 추측 할 수 있습니다.

자동 특징 생성은 다항식 확장 또는 기계 학습 알고리즘의 지원 벡터 기계 클래스를 사용하여 가능합니다. 지원 벡터 머신은 계산 속도가 빠르고 메모리가 최적 인 방식으로 고차원 형상 공간에서 더 우수한 기능을 자동으로 찾을 수 있습니다.

그러나 알고리즘이 배우려고하는 데이터 문제를 해결하는 데 필요한 방법에 대한 전문 지식과 이해를 실제로 대체 할 수있는 것은 없습니다. 세계에서 일하는 방식에 대한 지식과 아이디어를 기반으로 기능을 만들 수 있습니다. 인간은 여전히 ​​그렇게하기에 탁월하며 기계는 쉽게 대체 할 수 없습니다.

기능 및 예제 선택

예상 분산이 높고 알고리즘이 많은 기능을 사용하는 경우 더 나은 결과를 위해 일부 기능을 정리해야합니다. 이러한 맥락에서 가장 높은 예측치를 가진 데이터 매트릭스를 선택하여 데이터 매트릭스의 피쳐 수를 줄이는 것이 좋습니다. 선형 모델, 선형지지 벡터 머신 또는 신경망으로 작업 할 때, 정규화는 항상 옵션입니다. L1과 L2 모두 중복 변수의 영향을 줄이거 나 모델에서 변수를 제거 할 수 있습니다. 안정성 선택은 덜 유용한 변수를 제외하는 L1 기능을 활용합니다. 이 기술은 배제를 확인하기 위해 교육 데이터를 다시 샘플링합니다.

Scikit-learn 웹 사이트에서 예제를 보면 안정성 선택에 대해 더 자세히 알 수 있습니다. 또한 linear_model 모듈에서 RandomizedLogisticRegression 및 RandomizedLasso Scikit-learn 함수를 사용하여 연습 할 수 있습니다.

더 많은 데이터 찾기

이전 제안을 모두 시도한 후에도 여전히 높은 예측 결과를 얻을 수 있습니다. 이 경우 트레이닝 세트 크기를 늘리는 것만 선택할 수 있습니다. 새로운 데이터를 제공하여 샘플을 늘리십시오. 그러면 새로운 사례 또는 새로운 기능으로 변환 될 수 있습니다.

사례를 더 추가하려면 유사한 데이터가 있는지 확인하십시오. 새 기능을 추가하려면 가능한 경우 데이터와 항목을 일치시키는 오픈 소스 데이터 소스를 찾습니다. 새로운 사례와 새로운 기능을 모두 얻는 또 다른 좋은 방법은 웹에서 데이터를 스크랩하는 것입니다. 데이터는 다양한 출처에서 또는 응용 프로그램 프로그래밍 인터페이스 (API)를 통해 사용할 수 있습니다. 예를 들어 Google API는 많은 지리적 및 비즈니스 정보 소스를 제공합니다.

기계 학습 모델을 향상시키는 10 가지 방법 - 기계 학습 알고리즘이 완료 됨으로써 이제 더미

편집자의 선택

Photoshop Elements 14에서의 헤이즈 제거 방법 - 인형

Photoshop Elements 14에서의 헤이즈 제거 방법 - 인형

Photoshop Elements 14는 유용하고 쉬운 사진에서 안개를 빠르게 제거하는 기능입니다. 공기, 먼지, 흙 등에 가벼운 타격 입자로 인한 헤이즈는 날씨와 시간으로 더욱 강화 될 수 있습니다. 때로는 이미지의 대비 및 선명도를 높이면 이미지 품질을 낮추는 데 도움이 될 수 있습니다.

Photoshop Elements 9의 빠른 편집 모드에서 이미지 편집 방법 - Photoshop의 인력

Photoshop Elements 9의 빠른 편집 모드에서 이미지 편집 방법 - Photoshop의 인력

Elements, Edit Quick 모드는 이미지의 전후 미리보기와 같은 몇 가지 고유 한 기능과 함께 기본 수정 도구를 제공하는 편집 전체 모드의 축소 버전입니다. 빠른 수정 모드에서 사진을 복구 할 때 따라갈 수있는 단계별 워크 플로우는 다음과 같습니다. Photoshop Elements에서 하나 이상의 사진을 선택하십시오.

Photoshop Elements 10의 빠른 사진 편집 모드에서 편집하는 방법 - 인형

Photoshop Elements 10의 빠른 사진 편집 모드에서 편집하는 방법 - 인형

빠른 사진 편집 모드 는 전체 사진 편집 모드의 축소 버전으로 기본 고정 도구를 편리하게 제공하고 이미지의 사전 및 사후 미리보기와 같은 몇 가지 고유 한 기능을 토스합니다. 빠른 사진 편집 모드에서 사진을 복구하기 위해 따라갈 수있는 단계별 워크 플로가 있습니다.

편집자의 선택

페이스 북에서 친구가되는 것 - 인형

페이스 북에서 친구가되는 것 - 인형

여러면에서 페이스 북 친구는 실생활 친구와 같은. 이들은 당신과 어울리고, 연락하고, 관심을 가지고 있고, 친구로 공개적으로 인정하고 싶은 사람들입니다. 이들은 Facebook에서 만난 사람들이 아닙니다. 오히려, 그들은 당신이 전화로 부르는 사람들입니다; 멈추고 따라 잡으십시오.

Facebook 메신저는 무엇입니까? - 인형

Facebook 메신저는 무엇입니까? - 인형

Facebook Messenger는 Facebook에 내장 된 인스턴트 메시징 기능입니다. 메신저는 원래 2011 년에 시작되어 그 성공에 힘 입어 2014 년에 등장한 전용 응용 프로그램과 웹 사이트가 생겨났습니다. 응용 프로그램과 웹 사이트는 Facebook 데이터베이스에 연결되고 인앱 Facebook 메시징 서비스를 대신하는 인스턴트 메시징 서비스입니다. 그것은 허용합니다 ...

Aquila Facebook Drone은 무엇입니까? - 인형

Aquila Facebook Drone은 무엇입니까? - 인형

Aquila Drone은 데이터 연결이없는 세계의 외딴 지역에 인터넷을 가져 오려는 Facebook의 시도입니다. 소셜 미디어 거물에 의한이 이니셔티브는 태양열로 가동되는 특수한 무인 항공기를 사용하려고합니다. 무인 항공기는 구역 위를 가리 키도록 설계되어 있으며, 무인 항공기 없이도 웹 연결이 가능합니다. Credit : ...

편집자의 선택

코칭 풋볼 인형 용 치트 시트 - 인형

코칭 풋볼 인형 용 치트 시트 - 인형

코치 풋볼은 당신의 선수들에게 동기를 부여합니다. 연습과 게임을위한 올바른 장비 공급; 축구 경기 전, 경기 중 및 경기 후에 시설과 팀을 준비시켜야합니다.

축구 코치는 다른 시대의 어린이들에게 맞춰져 있습니다 - 인형

축구 코치는 다른 시대의 어린이들에게 맞춰져 있습니다 - 인형

축구 코칭 책임의 일부는 알고 이해하고 있습니다 특정 나이 수준에서 게임을하는 젊은이의 육체적으로나 감정적으로 모두 무엇을 기대해야합니다. 이 연령대의 6 세 이하 아동을 코칭하는 것은 아마도 전에는 축구를 해보지 않았을 것이고, 이번 시즌은 매우 잘할 것입니다.

축구 코치의 하프 타임 팀과의 대화 - 인형

축구 코치의 하프 타임 팀과의 대화 - 인형

터치 다운을 기록하고, 패스를 떨어 뜨리고, 다이빙 태클을 만들고, 공을 더듬는 등 모든 종류의 것들을 볼 수 있습니다. 선수가 하프 타임을 위해 필드에서 벗어날 때, 머리 속에 많은 정보를 갖게되며 많은 시간을 소모하지 않게됩니다 ...