개인 재정 R 회귀 분석을 사용하여 예측 분석 모델을 만드는 방법 - 예측을 만들려는

R 회귀 분석을 사용하여 예측 분석 모델을 만드는 방법 - 예측을 만들려는

비디오: 단순회귀분석(simple regression) - R을 활용한 계량분석 강의 노트 2025

비디오: 단순회귀분석(simple regression) - R을 활용한 계량분석 강의 노트 2025
Anonim

알려진 결과를 사용하여 평가할 수있는 예측 분석 모델을 만들고 싶습니다. 이를 위해 우리는 데이터 세트를 두 세트로 나눌 것입니다: 하나는 모델을 훈련시키는 모델이고 다른 하나는 모델을 테스트하는 모델입니다. 훈련과 시험 데이터 세트 사이의 70/30 분리가 충분합니다. 다음 두 줄의 코드는 각 집합의 크기를 계산하고 저장합니다. >> trainSize testSize <- nrow (autos)-trainSize

값을 출력하려면 값을 저장하는 데 사용되는 변수의 이름을 입력하고 엔터 키를 치시오. 출력은 다음과 같습니다.

>> trainSize [1] 279> testSize [1] 119

이 코드는 교육 및 테스트 데이터 세트를 만들려는 데이터 세트의 크기를 결정합니다. 당신은 여전히 ​​실제로 그 세트를 만들지 않았습니다. 또한 처음 279 개의 관측치를 호출하고 마지막 119 개의 관측치를 테스트 세트라고 부르기를 원하지는 않습니다. 데이터 집합이 정렬 된 것으로 나타나므로 나쁜 모델이 생성됩니다. 특히 modelYear 열은 작은 것부터 큰 것까지 정렬됩니다.

데이터를 조사해 보면, 무거운 8 기통 변위가 큰 마력이 큰 자동차의 대부분이 데이터 세트의 상단에 있다는 것을 알 수 있습니다. 이 관찰에서 데이터에 대한 알고리즘을 실행하지 않고도 다음과 같이 구형 자동차를 최신 자동차와 비교하여 (일반적으로이 데이터 세트의 경우) 말할 수 있습니다.

무거움

8 실린더가

  • 있음 큰 변위

  • 더 큰 마력을 가졌습니다.

    좋아요, 분명히 많은 사람들이 자동차에 대해 알고 있기 때문에 데이터를 본 후에 상관 관계가 무엇인지에 대한 추측은 너무 멀지 않을 것입니다. 많은 자동차 지식을 가진 사람은 이미 데이터를 보지 않고도 이것을 알고있을 것입니다.
  • 이것은 많은 사람들이 관련시킬 수있는 도메인 (자동차)의 단순한 예일뿐입니다. 그러나 이것이 암에 대한 데이터라면 대부분의 사람들은 각 속성의 의미를 즉시 이해하지 못합니다.

여기서는 도메인 전문가와 데이터 모델러가 모델링 프로세스에 필수적입니다. 도메인 전문가는 어떤 속성이 가장 중요한 (또는 가장 적게) 중요한지와 속성이 서로 어떻게 상호 관련되는지에 대해 가장 잘 알고있을 수 있습니다. 그들은 데이터 모델러에게 실험 할 변수를 제안 할 수 있습니다. 그들은 더 중요한 속성들에 더 큰 가중치들을 부여 할 수 있고 중요도가 가장 낮은 속성들에 작은 가중치를 부여 할 수도 있습니다 (또는 모두 제거 할 수도 있습니다).

따라서 전체 세트를 진정으로 대표하는 교육 데이터 세트 및 테스트 데이터 세트를 만들어야합니다. 이렇게하는 한 가지 방법은 전체 데이터 세트를 무작위로 선택하여 교육 세트를 만드는 것입니다.또한이 예제를 재현 가능하게 만들어 같은 예제에서 배울 수 있습니다.

랜덤 제네레이터의 시드를 설정하여 동일한 "임의"트레이닝 세트를 갖도록합니다. 다음 코드는 해당 작업을 수행합니다: >> set. trainSet testSet <- autos [-training_indices,]

훈련 세트에는 결과와 함께 279 개의 관측치가 포함되어 있습니다 (예: (mpg). 회귀 알고리즘은 결과를 사용하여 예측 변수 (7 가지 속성 중 하나)와 응답 변수 (mpg) 간의 관계를 조사하여 모델을 학습합니다. 테스트 세트는 나머지 데이터 (즉, 트레이닝 세트에 포함되지 않은 부분)를 포함한다. 테스트 세트에는 응답 (mpg) 변수도 포함됩니다.

테스트 집합과 함께 예측 함수를 사용하면 응답 변수를 무시하고 열 이름이 학습 집합의 열 이름과 동일한 경우에만 예측 변수를 사용합니다.

mpg 속성을 응답 변수로 사용하고 다른 모든 변수를 예측 변수로 사용하는 선형 회귀 모델을 만들려면 다음 코드 줄을 입력합니다. >> model <- lm (formula = trainSet $ ​​mpg ~., data = trainSet)

R 회귀 분석을 사용하여 예측 분석 모델을 만드는 방법 - 예측을 만들려는

편집자의 선택

여성 건강 : 케겔 운동 방법 - 인형

여성 건강 : 케겔 운동 방법 - 인형

케겔 운동은 성기의 근육을 타겟으로합니다. 이 근육은 출산 중에 발생하는 스트레칭으로 인해 종종 약해지지만, 임신 한 적이없는 여성을 포함하여 어떤 여성이라도 적절한 케겔 (Kegel)을하는 법을 아는 것이 도움이 될 수 있습니다. 본질적으로 케겔 (Kegel)은 생식기에 좋은 운동을 제공하여 ...

폐경기 동안 기대할 사항 - 인형

폐경기 동안 기대할 사항 - 인형

폐경은 모든 여성의 삶의 사실입니다. 다른 연령대의 여러 단계의 증상으로 진행됩니다. 폐경의 결과로 여성은 알을 낳지 않고 생리를 멈추지 만 여성 호르몬, 에스트로겐 및 호르몬의 생성을 감소시킵니다.

여성 건강 : 요로 감염을 예방하는 방법 - 인형

여성 건강 : 요로 감염을 예방하는 방법 - 인형

요로 감염 (UTI)은 상당히 여성의 공통점. 통증이있는 ​​배뇨 나 잦은 소변과 같은 요로 감염의 증상을 발견하면 치료를받는 것이 중요합니다. UTI 치료는 일반적으로 항생제의 빠른 과정이지만 전문가의 도움을받는 데는 지체가 있으면 치료 시간이 길어질 수 있습니다. ...

편집자의 선택

Salesforce 조직에서 깨끗한 데이터를 유지 관리하는 많은 회사에서 Salesforce 조직의 깨끗한 데이터 유지 보수

Salesforce 조직에서 깨끗한 데이터를 유지 관리하는 많은 회사에서 Salesforce 조직의 깨끗한 데이터 유지 보수

많은 사람들을 위해 일하는 것과 비슷합니다. 많은 기업들이 혜택을 인식하고 있음에도 불구하고 습관을 버리는 것에 저항합니다. 사람들은 깨끗한 데이터가 시스템에 들어갈 수 있도록 시간을 할애하고 싶지 않지만 같은 사람들은 빨리 작업 할 수 있습니다 ...

Salesforce에서 캠페인을 만드는 방법 - Professional, Enterprise 또는 Unlimited Edition 사용자를 위해 제공되는 인형

Salesforce에서 캠페인을 만드는 방법 - Professional, Enterprise 또는 Unlimited Edition 사용자를 위해 제공되는 인형

Salesforce의 모듈은 마케팅 프로그램을 관리, 추적 및 측정하는 데 사용하는 일련의 도구입니다. 캠페인 레코드는 캠페인 레코드입니다. 수동 또는 자동으로 리드, 연락처 및 / 또는 기회 레코드에 링크하여 캠페인에 대한 실제 메트릭을 제공 할 수 있습니다.

편집자의 선택

표시 관련 기사 Joomla 웹 사이트 - 인형

표시 관련 기사 Joomla 웹 사이트 - 인형

Joomla의 또 다른 멋진 모듈은 기사 - 관련 기사. 기사 - 관련 기사는 사이트 방문자가 보려고 선택한 기사와 관련된 기사를 표시하는 모듈입니다. 이 모듈은 현재 기사와 관련된 기사를 어떻게 알 수 있습니까? 그것은 메타 데이터에 입력 할 수있는 메타 데이터 키워드를 사용합니다 ...

Joomla의 저자, ​​편집자 및 발행인 계정 만들기 - 더미

Joomla의 저자, ​​편집자 및 발행인 계정 만들기 - 더미

Joomla는 세 가지 프런트 엔드 사용자, 백엔드 사용자 및 그 중간에있는 특수 클래스의 사용자 클래스가 있습니다. 이 클래스에는 3 개의 사용자 그룹이 있습니다. 작성자는 기사를 제출할 수 있습니다. 편집자는 새 기사를 제출하고 기존 기사를 편집 할 수 있습니다. 게시자는 새 기사를 제출하고 기존 기사를 편집하며 기사를 게시 할 수 있습니다. Joomla 사이트 작성자 작성 ...