개인 재정 기계 학습의 교차 유효성 검사 - 더미

기계 학습의 교차 유효성 검사 - 더미

비디오: 5 1 Model Selection I 2025

비디오: 5 1 Model Selection I 2025
Anonim

경우에 따라 기계 학습을 위해서는 교차 유효성 검사에 의존해야합니다. 열차 / 테스트 세트의 눈에 띄는 문제점은 샘플링 트레이닝 데이터의 크기를 줄이기 때문에 실제로 테스트에 편향을 도입한다는 것입니다. 데이터를 분리하면 실제로 유용한 예제를 교육에서 제외시킬 수 있습니다. 또한 데이터가 매우 복잡하여 테스트 세트가 교육 세트와 유사하지만 값 조합이 다르기 때문에 (고도의 차원 데이터 세트에서 일반적 임) 교육 세트와 유사하지는 않은 경우가 있습니다.

이러한 문제는 많은 예제가 없을 때 샘플링 결과의 불안정성을 증가시킵니다. 불리한 방식으로 데이터를 분할 할 위험은 기계 학습 전문가가 기계 학습 솔루션을 평가하고 조정해야 할 때 열차 / 테스트 분할이 선호되는 솔루션이 아닌 이유를 설명합니다.

k- 폴드에 기반한 교차 검증은 실제로 해답입니다. 랜덤 분할에 의존하지만 이번에는 데이터를 동일한 크기의 폴드 (데이터의 일부) k 개로 나눕니다. 그런 다음 각 폴드가 테스트 세트로 차례로 유지되고 나머지는 트레이닝에 사용됩니다. 각 반복은 오류 추정을 생성하는 테스트와 다른 폴드를 사용합니다.

상호 유효성 검사의 작동 방식을 그래픽으로 나타냅니다.

이 절차는 다음과 같은 이점을 제공합니다.

중고 폴드 수를 늘리면 실제로 훈련 세트의 크기가 커지기 때문에 예제의 수에 관계없이 잘 작동합니다 (큰 k, 큰 훈련 세트, 편향 감소) 및 테스트 세트의 크기 감소.

  • 개별 접기에 대한 분배의 차이는 그다지 중요하지 않습니다. 폴드가 다른 폴드에 비해 분포가 다른 경우 폴트는 테스트 세트로 한 번만 사용되며 나머지 테스트 동안 트레이닝 세트의 일부로 다른 폴드와 혼합됩니다.
  • 실제로 모든 관측을 테스트하고 있으므로 모든 데이터를 사용하여 기계 학습 가설을 완전히 테스트하고 있습니다.
  • 결과의 평균을 취함으로써 예측 성능을 기대할 수 있습니다. 또한 결과의 표준 편차는 실제 샘플 밖의 데이터에서 얼마나 많은 편차가 발생할 수 있는지 알려줍니다. 교차 검증 된 퍼포먼스의 변화가 클수록 알고리즘이 적절하게 포착 할 수없는 매우 다양한 데이터가 있음을 알려줍니다.
  • 사용하는 데이터에 중요한 순서가있는 경우가 아니면 k- 교차 교차 유효성 검사를 사용하는 것이 항상 최적의 선택입니다. 예를 들어, 판매와 같은 시계열이 필요할 수 있습니다. 이 경우, 무작위 샘플링 방법을 사용해서는 안되며 원래의 시퀀스를 기반으로 한 열차 / 테스트 분할에 의존해야 순서가 유지되고 해당 순서 시리즈의 마지막 예제를 테스트 할 수 있습니다.
기계 학습의 교차 유효성 검사 - 더미

편집자의 선택

Nikon D3100의 뷰 파인더 대신 모니터 사용 - 많은 최신 dSLR과 같은 인력

Nikon D3100의 뷰 파인더 대신 모니터 사용 - 많은 최신 dSLR과 같은 인력

Nikon D3100은 라이브 뷰를 제공합니다.이 뷰는 사진을 찍을 때 모니터를 뷰 파인더로 사용합니다. 라이브 뷰를 켜는 것은 비디오 촬영 프로세스의 첫 번째 부분이기도합니다. 사실, 동영상을 촬영할 때 뷰 파인더 대신 모니터를 사용해야합니다. 라이브 뷰 사용 ...

을 사용 - Nikon D7000의 라이브 뷰 기능을 사용하여 인물

을 사용 - Nikon D7000의 라이브 뷰 기능을 사용하여 인물

뷰 파인더 대신에 모니터를 사용하여 사진을 구성하십시오. 많은면에서 라이브 뷰 모드에서 사진을 찍는 것은 일반적인 뷰 파인더 촬영과 다르지 않습니다. 그러나 초점을 포함하여 몇 가지 중요한 단계는 라이브 뷰를 전환 할 때 매우 다르게 작동합니다. 기본 사항 ...

편집자의 선택

Photoshop CS6에서 소실점 작업 방법 - Photoshop CS6의 소실점 명령

Photoshop CS6에서 소실점 작업 방법 - Photoshop CS6의 소실점 명령

원근감 평면이있는 이미지에서 사실적인 편집을 할 수 있습니다. 소실점을 사용하면 이미지에서 평면을 지정한 다음 다양한 기법을 사용하여 해당 평면에서 객체를 추가하거나 제거 할 수 있습니다. 편집이 필요한 이미지를 엽니 다. ...

Photoshop CC 픽셀의 측정, 계산 및 분석

Photoshop CC 픽셀의 측정, 계산 및 분석

연구원 및 과학자를 위해 설계된 < Photoshop CC의 측정 기능은 매우 강력합니다. 현미경이나 망원경으로 볼 수있는 기술적 인 이미지의 Whattvers 수를 계산할 수 있습니다. 이미지의 모든 요소의 정확한 크기를 알고 있으면 거의 모든 것을 발견 할 수 있습니다.

편집자의 선택

온라인 커뮤니티가 느리고 꾸준히 승리하는 이유 - 더미

온라인 커뮤니티가 느리고 꾸준히 승리하는 이유 - 더미

온라인 커뮤니티는 정착되지 않았습니다. 잊을 수없는 일. 최선의 시나리오는 꾸준하고 유기적 인 성장을 달성하는 것이지만, 진실은 하룻밤 사이에 발생하지 않는다는 것입니다. 한 번에 소수의 회원 만 있기 때문에 처음에는 좌절 할 수 있으며 고용주는 커뮤니티가 빠르게 성장하고 있다고 생각하지 않을 수도 있지만 진실은 ...

블로그 사이트의 글꼴을 찾는 위치 - 웹상의 많은 장소에서 찾을 수있는 인형

블로그 사이트의 글꼴을 찾는 위치 - 웹상의 많은 장소에서 찾을 수있는 인형

글꼴을 사용하면 최상의 사이트를 찾기가 어려울 수 있습니다. Google Web 글꼴 외에도 다음 목록은 무료 또는 유료로 글꼴을 찾는 데 내가 가장 좋아하는 장소를 알려줍니다. 글꼴 찾기 퀘스트를 진행하면서 친숙해질 필요가 있습니다.

일부 온라인 커뮤니티 회원이 다른 사람보다 오래 머무는 이유 - 인형

일부 온라인 커뮤니티 회원이 다른 사람보다 오래 머무는 이유 - 인형

온라인 커뮤니티가 일시적인 회원을 호스트한다는 것을 이해합니다. 그들은 장기간의 참가자들이지만, 대부분의 회원들은 여러 가지 이유로 잠시 후에 떠납니다. 종종 출발점은 커뮤니티 자체와는 아무런 관련이 없으며 다음 단계로 넘어갈 시간입니다.