비디오: r/youngpeopleyoutube Best Posts #8 2024
시도하기 전에 R로 데이터를 설명하려면 데이터가 올바른 형식인지 확인해야합니다. 이것은
-
모든 데이터가 데이터 프레임 (또는 단일 변수 인 경우 벡터)에 포함되는지 확인합니다.
-
모든 변수의 유형이 올바른지 확인합니다.
-
값이 모두 처리되는지 확인합니다. 정확하게
일부 데이터는 제한된 수의 다른 값만 가질 수 있습니다. 예를 들어, 남성이나 여성이 될 수 있으며 대부분의 모발 유형을 몇 가지 색상으로 만 표현할 수 있습니다.
때로는 더 많은 가치가 이론적으로 가능하지만 현실적이지는 않습니다. 예를 들어, 자동차는 엔진에 16 개 이상의 실린더가있을 수 있지만 그 중 많은 실린더를 찾을 수는 없습니다. 어떤 식 으로든이 모든 데이터는 범주 형 으로 볼 수 있습니다. 이 정의에 따라 범주 형 데이터에는 서수 데이터도 포함됩니다.
반면에, 가능한 값의 무제한을 가질 수있는 데이터가 있습니다. 그렇다고 반드시 원하는 값이 될 수있는 것은 아닙니다. 예를 들어, 자동차의 주행 거리는 갤런 당 마일로 표시되며, 종종 전체 마일로 반올림됩니다. 그러나 실제 가치는 모든 차량에 따라 약간 다를 것입니다.
허용되는 값의 수를 정의하는 유일한 것은 데이터를 표현하는 정밀도입니다. 선택한 정확도로 표현할 수있는 데이터는 연속 입니다. 간격 - 스케일링 된 데이터와 비율 - 스케일링 된 데이터는 일반적으로 연속적인 데이터입니다.
범주 형 데이터와 연속 형 데이터의 구분은 항상 명확하지는 않습니다. 나이는 본질적으로 연속 변수이지만 출생 후 수년 동안 표현되는 경우가 많습니다.
그렇게한다면 가능한 많은 가치를 지니지 만, 지역 고등학교에서 아이들의 나이를 보면 어떻게됩니까? 갑자기 데이터에 5 개 또는 6 개의 다른 값이 있습니다. 이 시점에서 데이터를 범주 적으로 취급하면 분석에서 더 많은 것을 얻을 수 있습니다.
데이터를 설명 할 때 요인으로 변환 할 때 이점이있는 데이터와 숫자로 유지해야하는 데이터를 구별해야합니다. 데이터를 범주 적으로 볼 수 있다면이를 요인으로 변환하여 분석하는 데 도움이됩니다.