개인 재정 기계 학습에서 샘플 바이어스 및 누설 트랩 방지

기계 학습에서 샘플 바이어스 및 누설 트랩 방지

비디오: Bias Variance Trade-off Easily Explained | Machine Learning Basics 2024

비디오: Bias Variance Trade-off Easily Explained | Machine Learning Basics 2024
Anonim

기계 학습에 대한 유효성 검사 접근법은 샘플링 편차에 대한 가능한 해결책을 조사하는 것입니다. 샘플링 바이어스는 기계 학습이 실행되기 전에 데이터에 발생할 수 있으며 다음과 같은 추정치의 높은 분산을 유발합니다. 또한 샘플 밖의 일부 정보가 샘플 내 데이터로 전달 될 때 발생할 수있는 누설 트랩을 인식해야합니다. 이 문제는 데이터를 준비하거나 컴퓨터 학습 모델이 준비되고 작동 한 후에 발생할 수 있습니다.

앙상블이 어떻게 효과적인지 이해하려면 황소의 눈을 영상화하십시오. 샘플이 예측에 영향을 미치는 경우 일부 예측은 정확하고 다른 샘플은 임의의 방식으로 잘못됩니다. 샘플을 변경하면 올바른 예측이 올바르게 수행되지만 잘못된 예측은 다른 값 사이의 유사성이 시작됩니다. 일부 값은 찾고있는 정확한 예측 값입니다. 다른 것들은 단지 오른쪽 주위를 진동 할 것입니다.

결과를 ​​비교하면 되풀이되는 것이 정답이라고 추측 할 수 있습니다. 또한 평균적인 답을 취하고 올바른 답이 가치의 중간에 있어야한다고 생각할 수도 있습니다. bull's-eye 게임을 사용하면 서로 다른 게임의 사진을 겹쳐서 표시 할 수 있습니다. 문제가 분산이면 궁극적으로 목표가 가장 자주 발생하는 영역 또는 모든 샷의 중심에 있다고 추측 할 수 있습니다.

대부분의 경우 이러한 접근 방식은 정확하고 기계 학습 예측을 많이 향상시킵니다. 문제가 바이어스이고 분산이 아니라면 앙상블을 사용하면 너무 적은 샘플을 서브 샘플링하지 않는 한 실제로 해를 끼치 지 않습니다. 서브 샘플링에 대한 좋은 경험 법칙은 원래의 샘플 내 데이터와 비교하여 70-90 %의 샘플을 가져 오는 것입니다. 앙상블 작업을 원할 경우 다음을 수행해야합니다.

데이터와 모델을 통해 (최소 세 번 반복에서 이상적으로 수백 번까지) 많은 횟수 반복합니다.

  • 반복 할 때마다 샘플 데이터를 서브 샘플링 (또는 부트 스트랩)합니다.
  • 리샘플링 된 데이터의 모델에 기계 학습을 사용하고 샘플 밖의 결과를 예측합니다. 나중에 사용하기 위해 결과를 저장하십시오.
  • 반복이 끝나면 모든 예상외 사례에 대해 예상하고 예측을 수행하고 회귀 분석을 수행하는 경우 평균을 구합니다. 당신이 분류를하고 있다면 가장 빈번한 반을 택하십시오.
  • 누설 트랩은 기계 학습 프로세스에서 알 수 없거나 탐지되지 않는 문제의 원인이 될 수 있기 때문에 사용자를 놀라게 할 수 있습니다. 문제는 스누핑이나 샘플 밖의 데이터를 너무 많이 관찰하고 너무 자주 적용하는 것입니다. 간단히 말해서 스누핑은 일종의 과핑입니다. 교육 데이터뿐만 아니라 테스트 데이터에서도 새로운 데이터를 얻을 때까지 과핑 문제를보다 쉽게 ​​감지 할 수 있습니다.

일반적으로 기계 학습 알고리즘을 비즈니스에 적용하거나 일반인을위한 서비스에 적용하여 모든 사람이 볼 수있는 문제가되는 경우 문제가 스누핑된다는 것을 알고 있습니다.

두 가지 방법으로 스누핑을 피할 수 있습니다. 첫째, 데이터를 조작 할 때 교육, 검증 및 테스트 데이터를 깔끔하게 분리하십시오. 또한 처리 할 때 가장 단순하고 무고한 예제조차도 유효성 검사 또는 테스트에서 어떤 정보도 취하지 마십시오. 더 나쁜 것은 모든 데이터를 사용하여 복잡한 변환을 적용하는 것입니다. 예를 들어, 금융 분야에서 모든 교육 및 테스트 데이터에서 평균 및 표준 편차 (실제로 시장 상황 및 위험에 대해 많이 알 수 있음)를 계산하면 모델에 대한 귀중한 정보가 누설 될 수 있다는 것은 잘 알려져 있습니다. 누출이 발생하면 기계 학습 알고리즘은 시장에서 나온 샘플 밖의 데이터가 아닌 테스트 세트에 대한 예측을 수행합니다. 이는 전혀 작동하지 않아 돈이 손실되는 것을 의미합니다.

사용하지 않은 예제의 성능을 확인하십시오. 사실, 테스트 결과에 대한 정보를 스누핑 (snooping)에서 가져 와서 특정 매개 변수가 다른 매개 변수보다 우수하다는 것을 확인하거나 다른 매개 변수 대신 하나의 기계 학습 알고리즘을 선택할 수 있습니다. 모든 모델 또는 매개 변수에 대해 교차 유효성 검사 결과 또는 유효성 검사 샘플을 기반으로 선택 사항을 적용하십시오. 샘플 밖의 데이터에서 테이크 어웨이를 얻지 못하거나 나중에 후회할 것입니다.

기계 학습에서 샘플 바이어스 및 누설 트랩 방지

편집자의 선택

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

로 자동 채우기 Word 2003의 상용구 기능은 자동으로 단어 쓰기를 완료합니다. 철자하기 시작 했어. 당신이 영웅으로 크리스토퍼를 특징으로하는 다음 Great American Novel을 쓰고 있다고합시다. Christopher 철자를 반복해서 쓰는 대신 이름의 몇 글자 만 입력하면 팝업 상자가 나타납니다. 그것은 말한다 : 크리스토퍼 : (삽입하려면 Enter 키를 누릅니다). ...

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항은 파일 탭을 클릭하면 파일 메뉴가 열립니다. Backstage보기라고합니다. Backstage보기는 작업중인 데이터 파일과 관련된 명령 (예 : 저장, 열기, 인쇄, 우편 발송 및 속성 확인)에 대한 액세스를 제공합니다. Backstage보기를 종료하려면 다른 탭을 클릭하거나 ...

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

당신은 여러모로 그 모양을 조정할 수 있습니다. 가장 쉬운 방법은 다이어그램에 적용된 빠른 스타일을 변경하는 것입니다. 빠른 스타일은 단순히 색상 및 모양 효과와 같은 서식 요소 모음을 구성하는 요소 중 일부에 할당됩니다.

편집자의 선택

실습 초등 교육 시험 - 실습 - 실습

실습 초등 교육 시험 - 실습 - 실습

Praxis 초등 교육 시험에는 commutative, associative, distributive 및 substitution의 4 가지 주요 속성을 이해해야합니다. 교환 가능 속성 및 결합 속성에는 더하기 및 곱하기 버전이 있습니다. 세 개 이상의 숫자가 추가되면 추가되는 순서는 중요하지 않습니다. 그 합계 ...

초등 교육 시험 문장 구조 - 더미

초등 교육 시험 문장 구조 - 더미

초등학교 교사는 문장의 다른 부분뿐만 아니라 문장의 다른 종류. 예를 들어, Praxis 초등 교육 시험에 나오는 문장 구조에 관한 질문은 주제와 술어 또는 화합물과의 차이점을 알아야 할 수도 있습니다.

초등 교육 시험 작문 구조 - 인형

초등 교육 시험 작문 구조 - 인형

학생들은 공통 구조를 사용하여 작문을 구성한다. 인과 관계, 연대순, 비교 및 ​​계약. Praxis Elementary Education 시험은 귀하가 이러한 구조를 잘 알고 있어야합니다. 다음 목록에는 공통 구조 (사용되는 경우)와 자주 사용되는 단어가 링크되어 있습니다. 원인과 결과 ...

편집자의 선택

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 도면에는 여섯 가지 종류의 시트가 표시됩니다. 한 가지 방법은 모두를 대표하는 세 가지 표준 블록을 만드는 것입니다. 또는 단일 동적 블록을 만들고 세 가지 유형 모두를 포괄하는 가시성 상태를 정의 할 수 있습니다. 다음 단계에서는 블록을 두 배로 만드는 방법을 보여줍니다 (또는 트리플 ...).

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014를 사용하면 다중 지시선 MLeaDer 명령을 사용하여 동시에 지시선과 여러 줄 문자로 구성된 객체; 다음과 같은 간단한 단계를 따르십시오. 사용자의 필요에 따라 적절한 다중 지시선 스타일을 설정하십시오. 홈 탭의 다중 지시선 스타일 드롭 다운 목록에서 기존 스타일 선택 ...