비디오: r/youngpeopleyoutube Best Posts #8 2024
R에서 작업 할 때 어떤 데이터를 인수 분해 할 수 있는지 알아 보려면 mtcars 데이터 세트를 살펴 보겠습니다. 이 내장형 데이터 세트는 1970 년대의 32 대 자동차의 10 가지 다른 디자인 포인트와 연료 소비량을 설명합니다. 그것은 총 11 개의 변수를 포함하지만 모두 숫자입니다.
데이터 프레임을 그대로 사용하여 작업 할 수는 있지만 일부 변수는 값의 양이 제한되어 있으므로 요인으로 변환 될 수 있습니다.
변수에 몇 가지 값이 있는지 모르는 경우 다음 두 단계를 통해이 정보를 얻을 수 있습니다.
-
unique ()을 사용하여 변수의 고유 값 가져 오기 .
-
length () 를 사용하여 결과 벡터의 길이를 가져옵니다. sapply () 함수를 사용하면 전체 데이터 프레임에 대해이 작업을 한 번에 수행 할 수 있습니다. 앞에서 설명한 두 단계를 전체 데이터 프레임에 결합한 익명 함수를 다음과 같이 적용합니다.
> 994 >> sapply (mtcars, function (x) length (unique (x))) mpg cyl disp hp drat 무게 qsec 대 기어 기어 25 3 27 22 22 29 30 2 2 3 6 > 따라서 변수 cyl, vs, am, gear 및 carb가 요인 전환으로 인해 이익을 얻을 수있는 것처럼 보입니다.
해당 데이터 세트에서 32 가지 관측치가 있으므로 변수 중 유일하게 값만있는 것은 없습니다.요인과 같은 변수를 처리하는 경우 상황에 따라 조금씩 다르지만 일반적으로 요인에서 10 가지 이상의 다른 수준을 피하고 수준 당 최소 5 개의 값을 갖도록 시도합니다.