개인 재정 기계 학습의 교차 유효성 검사 - 더미

기계 학습의 교차 유효성 검사 - 더미

비디오: 5 1 Model Selection I 2025

비디오: 5 1 Model Selection I 2025
Anonim

경우에 따라 기계 학습을 위해서는 교차 유효성 검사에 의존해야합니다. 열차 / 테스트 세트의 눈에 띄는 문제점은 샘플링 트레이닝 데이터의 크기를 줄이기 때문에 실제로 테스트에 편향을 도입한다는 것입니다. 데이터를 분리하면 실제로 유용한 예제를 교육에서 제외시킬 수 있습니다. 또한 데이터가 매우 복잡하여 테스트 세트가 교육 세트와 유사하지만 값 조합이 다르기 때문에 (고도의 차원 데이터 세트에서 일반적 임) 교육 세트와 유사하지는 않은 경우가 있습니다.

이러한 문제는 많은 예제가 없을 때 샘플링 결과의 불안정성을 증가시킵니다. 불리한 방식으로 데이터를 분할 할 위험은 기계 학습 전문가가 기계 학습 솔루션을 평가하고 조정해야 할 때 열차 / 테스트 분할이 선호되는 솔루션이 아닌 이유를 설명합니다.

k- 폴드에 기반한 교차 검증은 실제로 해답입니다. 랜덤 분할에 의존하지만 이번에는 데이터를 동일한 크기의 폴드 (데이터의 일부) k 개로 나눕니다. 그런 다음 각 폴드가 테스트 세트로 차례로 유지되고 나머지는 트레이닝에 사용됩니다. 각 반복은 오류 추정을 생성하는 테스트와 다른 폴드를 사용합니다.

상호 유효성 검사의 작동 방식을 그래픽으로 나타냅니다.

이 절차는 다음과 같은 이점을 제공합니다.

중고 폴드 수를 늘리면 실제로 훈련 세트의 크기가 커지기 때문에 예제의 수에 관계없이 잘 작동합니다 (큰 k, 큰 훈련 세트, 편향 감소) 및 테스트 세트의 크기 감소.

  • 개별 접기에 대한 분배의 차이는 그다지 중요하지 않습니다. 폴드가 다른 폴드에 비해 분포가 다른 경우 폴트는 테스트 세트로 한 번만 사용되며 나머지 테스트 동안 트레이닝 세트의 일부로 다른 폴드와 혼합됩니다.
  • 실제로 모든 관측을 테스트하고 있으므로 모든 데이터를 사용하여 기계 학습 가설을 완전히 테스트하고 있습니다.
  • 결과의 평균을 취함으로써 예측 성능을 기대할 수 있습니다. 또한 결과의 표준 편차는 실제 샘플 밖의 데이터에서 얼마나 많은 편차가 발생할 수 있는지 알려줍니다. 교차 검증 된 퍼포먼스의 변화가 클수록 알고리즘이 적절하게 포착 할 수없는 매우 다양한 데이터가 있음을 알려줍니다.
  • 사용하는 데이터에 중요한 순서가있는 경우가 아니면 k- 교차 교차 유효성 검사를 사용하는 것이 항상 최적의 선택입니다. 예를 들어, 판매와 같은 시계열이 필요할 수 있습니다. 이 경우, 무작위 샘플링 방법을 사용해서는 안되며 원래의 시퀀스를 기반으로 한 열차 / 테스트 분할에 의존해야 순서가 유지되고 해당 순서 시리즈의 마지막 예제를 테스트 할 수 있습니다.
기계 학습의 교차 유효성 검사 - 더미

편집자의 선택

: 컴퓨터의 화상 키보드 기능 사용 방법 - 인형

: 컴퓨터의 화상 키보드 기능 사용 방법 - 인형

일반 키보드를 사용하는 것보다 마우스를 사용하여 클릭하는 것이 더 편할 수도 있습니다. 해당 그룹에 속하면 컴퓨터의 온 스크린 키보드 기능을 사용하려고합니다. 온 스크린 키보드를 사용하려면 다음과 같이하십시오. 시작 → 제어판 → 쉬운 액세스 범주를 선택하십시오. 액세스 용이성 창이 나타납니다. 쉬운 액세스 센터를 클릭하십시오 ...

: PowerPoint 슬라이드 쇼 도구 사용 방법 - 인형

: PowerPoint 슬라이드 쇼 도구 사용 방법 - 인형

Microsoft PowerPoint 슬라이드 쇼보기에서 작업하면 매우 희미한 일련의 단추가 오른쪽 아래 모서리에 나타납니다. 이 단추 위로 마우스를 가져 가면 밝아 지므로 더 잘 볼 수 있습니다. 단추는 Previous : 왼쪽 화살표입니다. 이전 슬라이드로 이동하려면이 옵션을 사용하십시오. 펜 : ...

: 일반적인 Excel 기능 사용법 - 인형

: 일반적인 Excel 기능 사용법 - 인형

Excel에는 수백 가지 기능이 있지만 대부분 그들 중 매우 전문적입니다. 일반 사용자가 사용하는 기본 Excel 기능 세트는 훨씬 관리하기 쉽습니다. 가장 단순한 함수는 인수가 없습니다. 두 가지 주요 예가 NOW입니다 : 현재 날짜와 시간을보고합니다. TODAY : 현재 날짜를보고합니다. 둘 중 어떤 것도 사용하지는 않지만 ...

편집자의 선택

데이터 전처리 엔진으로 Hadoop - 더미

데이터 전처리 엔진으로 Hadoop - 더미

기업에서 Hadoop의 가장 초기 사용 사례 중 하나는 프로그래밍 방식의 변환 엔진으로 데이터웨어 하우스에 바인딩 된 데이터를 사전 처리하는 데 사용됩니다. 기본적으로이 활용 사례는 Hadoop 에코 시스템의 힘을 활용하여 데이터웨어 하우스에로드되기 전에 데이터를 조작하고 적용합니다. 실제 변환 ... ...

Hadoop 관리 명령 - 더미

Hadoop 관리 명령 - 더미

소금을 가치있게 사용하는 Hadoop 관리자는 클러스터 관리를위한 포괄적 인 명령 집합을 습득해야합니다. 다음 목록은 가장 중요한 명령을 요약하여 명령이 수행하는 내용과 구문 및 예제를 나타냅니다. 그들을 알면 하둡 지혜의 길을 따라 먼 길을 나아갈 것입니다. balancer : 클러스터 균형 조정 유틸리티를 실행합니다. ...

빅 데이터 프로젝트를위한 Hadoop 분산 파일 시스템 (HDFS)

빅 데이터 프로젝트를위한 Hadoop 분산 파일 시스템 (HDFS)

System은 대용량 데이터 환경에서 파일을 관리하기위한 다양하고 탄력적 인 클러스터 방식입니다. HDFS는 파일의 최종 목적지가 아닙니다. 오히려 데이터 볼륨과 속도가 높을 때 필요한 고유 한 기능 세트를 제공하는 데이터 서비스입니다. 데이터는 한 번만 쓰여지고 ...

편집자의 선택

고식 다이어트 계획 : 파티에서 제공 할 것 - 인형

고식 다이어트 계획 : 파티에서 제공 할 것 - 인형

Paleo 식단에있는 동굴 남자는 파티와 휴일을 보낼 수 있습니다. 진심으로 축하하기 위해 Paleo 음식을 사용하여 몸에 영양을 공급하고 훌륭한 음식을 제공하는 메뉴를 만들고, 특별한 경우에는 타협 가치가있는 음식을 선택하십시오. 다음은 휴일 메뉴를 도와주는 몇 가지 제안입니다 ...

고지식 다이어트 플랜 1 주차 : 침대 정리 및 점프

고지식 다이어트 플랜 1 주차 : 침대 정리 및 점프

Paleo 다이어트의 30 일 리셋은 흥미롭고 낙천적 인 시간입니다. 새로운 Paleo 라이프 스타일로 곧바로 전진 할 준비가되었습니다. 욕실 거울에 부착 된 스티커 메모에 새로운 목표를 작성했으며 Paleo에서 승인 한 음식을 부엌에 비축했습니다. 아니면, 당신이 다른쪽에있을 수도 있습니다 ...

Paleo 요리 책 Dummies 치트 시트 - 인형

Paleo 요리 책 Dummies 치트 시트 - 인형

결과가 마음에 든다면 Paleo 요리가 적합합니다. Paleo를 먹는 것은 단순한 철학으로 귀결됩니다. 즉, 몸에있는 실제적이고 신선한 음식을 먹는 것입니다. 이 라이프 스타일을 바꾸는 일은 주방에 들어가는 것입니다. 양질의 음식을 조리하고 비 Paleo 재료를 교환하고 오일과 향신료를 최대한 활용하여 주방에서 조리해야합니다.