머신 학습에서 바이어스의 한계를 알기 - 기계 학습

비디오: #1.2. "정확도 98%의 인공지능"이 거짓인 이유 2025

기계 학습은 샘플 데이터에 많이 의존합니다. 데이터의이 부분은 세계의 시점을 발견하기를 원하고 모든 관점에서와 마찬가지로 잘못되었거나 왜곡되거나 부분적 일 수 있기 때문에 중요합니다. 학습 프로세스가 작동하는지 여부를 확인하기 위해 샘플이 아닌 예제가 필요하다는 것도 알고 있습니다. 그러나 이러한 측면은 그림의 일부일뿐입니다.

특정 응답을 추측하기 위해 데이터에 기계 알고리즘 학습 알고리즘을 적용하게되면 효과적으로 도박을하고 있으며 그 도박은 학습을 위해 사용하는 샘플 때문 만이 아닙니다. 더있다. 잠시 동안 적합하고 편향되지 않은 샘플 내 데이터에 자유롭게 액세스 할 수 있다고 가정하면 데이터가 문제가되지 않습니다. 대신 학습하고 예측하는 방법에 집중해야합니다.

예를 들어, 이전의 역사와 행동을 알면 인간의 행동을 완전히 결정할 수 없습니다. 어쩌면 무작위 효과가 우리 행동의 생성 과정 (예를 들어 우리의 비합리적인 부분)에 관련되어 있거나 문제가 자유 의지로 내려갈 수 있습니다 (문제는 철학적 / 종교적 문제이기도하며 불일치 의견이 많습니다.). 따라서 일부 유형의 응답 만 추측 할 수 있으며 사람들의 행동을 예측하려고 할 때와 같이 운이 좋으면 일정 수준의 불확실성을 받아 들여야합니다.

일부 알고리즘은 거의 모든 것을 추측 할 수 있습니다. 다른 사람들은 사실 제한된 옵션을 가지고 있습니다. 알고리즘이 추측 할 수있는 가능한 수학 공식의 범위는 가능한 가설의 집합입니다. 결과적으로, 가설은 모든 매개 변수에 명시된 단일 알고리즘이므로 단일의 특정 공식을 사용할 수 있습니다.

수학은 환상적입니다. 몇 가지 간단한 표기법을 사용하여 실제 세계의 대부분을 기술 할 수 있으며, 학습 알고리즘은 수학 공식을 표현할 수있는 특정 기능을 가지고 있기 때문에 기계 학습의 핵심입니다.선형 회귀와 같은 일부 알고리즘은 응답 (예: 주택 가격)이 예측 정보 세트 (예: 시장 정보, 집 위치, 부동산 표면, 부동산 가격, 부동산 가격, 등등). 어떤 공식은 복잡하고 복잡하여 종이로 표현할 수는 있지만 실용적으로 너무 어렵다. 결정 트리와 같은 일부 다른 정교한 알고리즘은 명시적인 수학 공식을 가지고 있지 않지만 적응력이 뛰어나 다양한 공식을 쉽게 접근 할 수 있습니다. 예를 들어, 간단하고 쉽게 설명 된 공식을 고려하십시오. 선형 회귀는 응답 및 모든 예측에 의해 주어진 좌표 공간에서의 선에 불과합니다. 가장 쉬운 예에서, 공식 y = β 999 x 999 999 + β 999의 공식을 갖는 응답 y와 단일 예측 자 x를 가질 수 있습니다. 0 999 단일 기능으로 예측되는 응답의 간단한 상황에서 데이터가 선으로 배열 될 때 이러한 모델이 완벽합니다. 그러나 곡선이 아니라 곡선을 그려 내면 어떻게됩니까? 상황을 표현하기 위해 다음과 같은 2 차원 표현을 관찰하면됩니다.

곡선 함수를 매핑하기위한 선형 모델 고투의 예.

점이 선이나 구름과 비슷한 경우 결과가 직선임을 알면 오류가 발생합니다. 그러므로 앞의 공식에 의해 제공된 매핑은 어떻게 든 부정확하다. 그러나 오류는 체계적으로 나타나지 않고 일부 점은 매핑 된 선 위에 있고 다른 점은 그 아래에 있으므로 임의적으로 나타납니다. 구부러진 모양의 점 구름이있는 상황은 다르다. 왜냐하면 이번에는 선이 때로는 정확하지만 때로는 체계적으로 잘못 되었기 때문이다. 때로는 점이 항상 선 위에 있습니다. 때로는 그것들 아래 있습니다. 응답의 매핑이 단순하다는 점을 감안할 때, 알고리즘은 체계적으로 데이터 배후의 실제 규칙을 과대 평가하거나 과소 평가하는 경향이 있습니다. 편향은 복잡한 수학 공식을 표현할 수없는 간단한 알고리즘의 특징입니다.