기계 학습에서 샘플 바이어스 및 누설 트랩 방지

비디오: Bias Variance Trade-off Easily Explained | Machine Learning Basics 2024

기계 학습에 대한 유효성 검사 접근법은 샘플링 편차에 대한 가능한 해결책을 조사하는 것입니다. 샘플링 바이어스는 기계 학습이 실행되기 전에 데이터에 발생할 수 있으며 다음과 같은 추정치의 높은 분산을 유발합니다. 또한 샘플 밖의 일부 정보가 샘플 내 데이터로 전달 될 때 발생할 수있는 누설 트랩을 인식해야합니다. 이 문제는 데이터를 준비하거나 컴퓨터 학습 모델이 준비되고 작동 한 후에 발생할 수 있습니다.

앙상블이 어떻게 효과적인지 이해하려면 황소의 눈을 영상화하십시오. 샘플이 예측에 영향을 미치는 경우 일부 예측은 정확하고 다른 샘플은 임의의 방식으로 잘못됩니다. 샘플을 변경하면 올바른 예측이 올바르게 수행되지만 잘못된 예측은 다른 값 사이의 유사성이 시작됩니다. 일부 값은 찾고있는 정확한 예측 값입니다. 다른 것들은 단지 오른쪽 주위를 진동 할 것입니다.

결과를 비교하면 되풀이되는 것이 정답이라고 추측 할 수 있습니다. 또한 평균적인 답을 취하고 올바른 답이 가치의 중간에 있어야한다고 생각할 수도 있습니다. bull's-eye 게임을 사용하면 서로 다른 게임의 사진을 겹쳐서 표시 할 수 있습니다. 문제가 분산이면 궁극적으로 목표가 가장 자주 발생하는 영역 또는 모든 샷의 중심에 있다고 추측 할 수 있습니다.

대부분의 경우 이러한 접근 방식은 정확하고 기계 학습 예측을 많이 향상시킵니다. 문제가 바이어스이고 분산이 아니라면 앙상블을 사용하면 너무 적은 샘플을 서브 샘플링하지 않는 한 실제로 해를 끼치 지 않습니다. 서브 샘플링에 대한 좋은 경험 법칙은 원래의 샘플 내 데이터와 비교하여 70-90 %의 샘플을 가져 오는 것입니다. 앙상블 작업을 원할 경우 다음을 수행해야합니다.

데이터와 모델을 통해 (최소 세 번 반복에서 이상적으로 수백 번까지) 많은 횟수 반복합니다.

반복 할 때마다 샘플 데이터를 서브 샘플링 (또는 부트 스트랩)합니다.
리샘플링 된 데이터의 모델에 기계 학습을 사용하고 샘플 밖의 결과를 예측합니다. 나중에 사용하기 위해 결과를 저장하십시오.
반복이 끝나면 모든 예상외 사례에 대해 예상하고 예측을 수행하고 회귀 분석을 수행하는 경우 평균을 구합니다. 당신이 분류를하고 있다면 가장 빈번한 반을 택하십시오.
누설 트랩은 기계 학습 프로세스에서 알 수 없거나 탐지되지 않는 문제의 원인이 될 수 있기 때문에 사용자를 놀라게 할 수 있습니다. 문제는 스누핑이나 샘플 밖의 데이터를 너무 많이 관찰하고 너무 자주 적용하는 것입니다. 간단히 말해서 스누핑은 일종의 과핑입니다. 교육 데이터뿐만 아니라 테스트 데이터에서도 새로운 데이터를 얻을 때까지 과핑 문제를보다 쉽게 감지 할 수 있습니다.

일반적으로 기계 학습 알고리즘을 비즈니스에 적용하거나 일반인을위한 서비스에 적용하여 모든 사람이 볼 수있는 문제가되는 경우 문제가 스누핑된다는 것을 알고 있습니다.

두 가지 방법으로 스누핑을 피할 수 있습니다. 첫째, 데이터를 조작 할 때 교육, 검증 및 테스트 데이터를 깔끔하게 분리하십시오. 또한 처리 할 때 가장 단순하고 무고한 예제조차도 유효성 검사 또는 테스트에서 어떤 정보도 취하지 마십시오. 더 나쁜 것은 모든 데이터를 사용하여 복잡한 변환을 적용하는 것입니다. 예를 들어, 금융 분야에서 모든 교육 및 테스트 데이터에서 평균 및 표준 편차 (실제로 시장 상황 및 위험에 대해 많이 알 수 있음)를 계산하면 모델에 대한 귀중한 정보가 누설 될 수 있다는 것은 잘 알려져 있습니다. 누출이 발생하면 기계 학습 알고리즘은 시장에서 나온 샘플 밖의 데이터가 아닌 테스트 세트에 대한 예측을 수행합니다. 이는 전혀 작동하지 않아 돈이 손실되는 것을 의미합니다.

사용하지 않은 예제의 성능을 확인하십시오. 사실, 테스트 결과에 대한 정보를 스누핑 (snooping)에서 가져 와서 특정 매개 변수가 다른 매개 변수보다 우수하다는 것을 확인하거나 다른 매개 변수 대신 하나의 기계 학습 알고리즘을 선택할 수 있습니다. 모든 모델 또는 매개 변수에 대해 교차 유효성 검사 결과 또는 유효성 검사 샘플을 기반으로 선택 사항을 적용하십시오. 샘플 밖의 데이터에서 테이크 어웨이를 얻지 못하거나 나중에 후회할 것입니다.