예측 분석에서 피팅을 사용하는 방법 - 인형

비디오: 4강인공 지능AI과 머신러닝(Machine Learning) - 직선으로 돌아가라구? 선형 회귀(線型回歸,linear regression) 모델. 2024

곡선 맞춤 은 예측 분석에서 사용되는 프로세스로, 데이터 계열의 실제 (원본) 데이터 점에 가장 잘 맞는 수학 함수를 나타내는 곡선입니다.

커브는 모든 데이터 포인트를 통과하거나 데이터의 대부분을 유지하면서 데이터의 추세를 그리기 위해 일부 데이터 포인트를 무시할 수 있습니다. 두 경우 모두 하나의 수학 함수가 모든 데이터 요소를 추세를 묘사하고 예측을 돕는 곡선에 맞추기 위해 전체 데이터 본문에 할당됩니다.

라고하는 과정)

모든 데이터 요소에 대해 정확한 적합성을 찾는 것 (보간법 ) 다음 중 하나를 사용하여 곡선 피팅을 얻을 수 있습니다. 데이터의 대부분을 무시하면서 데이터의 일부를 무시합니다.
데이터 평활화를 사용하여 평활화 된 그래프를 나타내는 함수를 생성합니다.
곡선 피팅을 사용하여 누락 된 값을 대체하기 위해 가능한 데이터 요소를 채우거나 분석가가 데이터를 시각화하는 데 도움이됩니다.

예측 분석 모델을 생성 할 때 데이터 샘플에 완벽하게 맞도록 모델을 조정하지 마십시오. 이러한 모델은 데이터 샘플 밖에서 유사하지만 다양한 데이터 세트를 예측하는 데 실패합니다. 모델을 특정 데이터 샘플에 너무 가깝게 부착하는 것은

overfitting 라고하는 고전적인 실수입니다. 본질적으로 모델을 오버 피팅하는 것은 샘플 데이터 만 나타내도록 모델을 오버플로 할 때 일어나는 일입니다. 전체적으로 데이터를 잘 나타내지는 않습니다. 계속 진행될보다 현실적인 데이터 세트가 없으면 모델은 오류 및 위험 요소로 인해 작동 될 때 괴롭힘을받을 수 있으며 비즈니스에 미치는 결과는 심각 할 수 있습니다.

모델을 보완하는 것은 일반적인 트랩입니다. 사람들이 작동하는 모델을 만들기를 원하기 때문입니다. 모델이 완벽하게 수행 될 때까지 너무 적은 데이터로 변수와 매개 변수를 조정하려는 유혹을받습니다. 실수는 인간입니다. 다행스럽게도 현실적인 솔루션을 만드는 것도 인간적인 것입니다.

모델을 샘플 데이터 세트에 너무 많이 쓰지 않으려면 샘플 데이터와 별도로 테스트 데이터 본문을 사용할 수 있어야합니다. 그런 다음 모델을 작동시키기 전에 모델의 성능을 독립적으로 측정 할 수 있습니다.

따라서 overfitting에 대한 하나의 일반적인 보호 장치는 데이터를 두 부분으로 나누는 것입니다: 훈련 데이터와 테스트 데이터. 테스트 데이터에 대한 모델의 성능은 모델이 실제 세계에 적합한 지 여부에 대해 많은 것을 알려줍니다.

또 다른 우수 사례는 데이터가 모델링중인 도메인의 더 많은 인구를 대표하는지 확인하는 것입니다. 모든 과잉 모델은 훈련 된 샘플 데이터 세트의 특정 기능을 알고 있습니다. 겨울철에 스노우 슈 판매에 대해서만 모델을 훈련하는 경우 다른 계절의 데이터로 다시 실행될 때 비참하게 실패하면 놀라지 마십시오.

오버 피팅을 피하는 방법

반복 할 가치가 있습니다. 모델을 너무 많이 조정하면 오버 피팅이 발생하기 쉽습니다. 하나의 그러한 비틀기는 분석에 너무 많은 변수를 포함합니다. 변수를 최소한으로 유지하십시오. 절대적으로 필요한 것으로 보이는 변수 만 포함하십시오. 결과에 유의미한 차이가 있다고 생각하는 변수 만 포함하십시오.

이 통찰력은 귀하가 속해있는 비즈니스 도메인에 대한 상세한 지식이있는 경우에만 제공됩니다. 도메인 전문가의 전문 지식이 귀하의 지나친 함정에 빠지지 않도록 도와줍니다.

모델의 초과 적용을 피할 수있는 우수 사례 체크리스트는 다음과 같습니다.

전체 인구 집단을 대표하는 데이터 세트를 선택하십시오.

데이터 세트를 교육 데이터와 테스트 데이터의 두 부분으로 나눕니다.

분석 할 변수를 당면 과제의 건강한 최소값으로 유지하십시오.
도메인 지식 전문가의 도움을 얻습니다. 예를 들어, 주식 시장에서 고전적인 분석 기법은 역사적 데이터에 대한 모델을 실행하여 최고의 거래 전략을 찾기위한
백 테스트
입니다. 최근의 강세장에 의해 생성 된 데이터에 대해 새로운 모델을 실행하고 분석에 사용 된 변수의 수를 조정 한 후에 분석가는 최적의 거래 전략 인 것, 즉 가장 높은 수익을 산출 할 수있는 주식을 <

면 그는 시험 데이터를 작성한 해에만 돌아와 거래 할 수 있습니다. 불행히도, 그는 할 수 없습니다. 그가 현재의 곰 시장에서 그 모형을 적용하려고한다면, 아래를주의하십시오. 그는 현재의 현실에 맞지 않는 조건과 조건의 좁은 기간 동안 너무 최적화 된 모델을 적용함으로써 손실을 초래할 것입니다. (가상의 이윤을 위해서) 이 모형은 사라진 황소 시장에 대해서만 과장 되었기 때문에, 표본 데이터를 생성하는 문맥의 귀중한 부분을 담고있다. 구체적으로, 특이 치, 특이점, 단점이있다. 그 데이터 세트를 둘러싼 모든 상황은 미래에 반복되거나 전체 인구의 진정한 표현으로 반복되지 않을 것입니다. 그러나 모두 overfitted 모델에서 나타났습니다. 모델의 출력이 너무 정확하면 힌트를 통해 자세히 살펴보십시오. 도메인 지식 전문가의 도움을 받아 귀하의 결과가 실제로 진실인지 확인하고 추후 비교를 위해 더 많은 테스트 데이터에서 해당 모델을 실행하십시오.