R 분류 예측 분석 모델에서 데이터 준비 방법 - 더미

비디오: 뉴스 데이터 분석 및 딥러닝 기반 주가예측 2025

예측 분석을 실행하려면 알고리즘을 사용하여 모델을 만드는 데 사용할 수있는 형식으로 데이터를 가져와야합니다. 그렇게하기 위해서는 데이터를 이해하고 그 구조를 파악하는 데 시간이 필요합니다. 함수를 입력하여 데이터의 구조를 찾습니다. 다음은 그 모습입니다: >> str (seed) '데이터. 프레임 ': 210 obs. 8 변수 중: $ V1: num 15. 3 14.9 14. 3 13. 8 16. 1 … $ V2: num 14. 8 14. 6 14. 1 13. 9 15 … $ V3: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ V4: 숫자 5. 76 5. 55 5. 29 5. 32 5. 66 … $ V5: 숫자 3. 31 3. 33 3. 34 3. 38 3. 56 … $ V6: 숫자 2. 22 1. 02 2. 7 2. 26 1. 35 … $ V7: 숫자 5. 22 4. 96 4. 83 4. 8 5. 17 … $ V8: int 1 1 1 1 1 1 1 1 1 1 1 …

구조를 보면 데이터가 하나의 전처리 단계와 하나의 편리한 단계가 필요하다는 것을 알 수 있습니다.

열 이름의 이름을 바꿉니다.

이것은 꼭 필요한 것은 아니지만,이 예에서 이해하고 기억할 수있는 열 이름을 사용하는 것이 더 편리합니다. 범주 값을 갖는 속성을 요인으로 변경하십시오.
라벨에는 세 가지 범주가 있습니다. 열 이름을 바꾸려면 >> colnames (seed) <-

c ("영역", "경계", "압축률", "길이", "너비" asymmetry ","length2 ","seedType ")

다음으로 범주 값이있는 특성을 요소로 변경합니다. 다음 코드는 데이터 형식을 인수로 변경합니다. 
 >> seed $ seedType <- factor (seed $ seedType)

이 명령은 모델링 프로세스의 데이터 준비를 완료합니다. 다음은 데이터 준비 과정 후의 구조를 나타낸 것입니다: >> str (잡초) 데이터. 프레임 ': 210 obs. 8 변수: $ area: num 15. 3 14. 9 14. 3 13. 8 16 1 … $ 경계: 숫자 14 8 14 6 1 13 9 15 … $ compactness: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ length: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ width: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ asymmetry: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ length2: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ seedType: 3 레벨의 인자 "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 …