비디오: r/youngpeopleyoutube Best Posts #8 2024
데이터 세트가 있고 사용자의 필요에 맞게 형식을 지정했습니다 R에서는 이제 실제 작업을 할 준비가되었습니다. 데이터 분석은 항상 설명하는 것으로 시작됩니다. 이렇게하면 데이터의 오류를 감지 할 수 있으며 보유한 데이터에서 필요한 정보를 얻을 수있는 모델을 결정할 수 있습니다.
사용하는 설명 통계는 물론 데이터의 특성에 따라 다릅니다.
때로는 개인의 가치보다 데이터의 일반적인 그림에 더 많은 관심을 가질 수 있습니다. 모든 차량의 주행 거리가 아닌 해당 차량의 평균 주행 거리에 관심이있을 수 있습니다. 이를 위해 mean () 함수를 사용하여 mean을 계산합니다: >> mean (cars $ mpg) [1] 20. 09062
평균 실린더 수를 계산할 수도 있지만 이것은 실제로 의미가 없습니다. 평균은 1875 실린더이며, 불완전한 실린더로 운전하는 자동차는 없다. 이 경우 데이터의 중심 가치 인
중간 값 이 더 적합합니다. 다음과 같이 median () 함수를 사용하여 중앙값을 구합니다. 중앙값 (cars $ cyl) [1] 6
중앙값 대신 중간 값을 계산하는 데는 여러 가지 이유가 있습니다. 두 통계는 모두 데이터의 다른 속성을 나타내며 그 조합이 사용자에게 무엇인가를 알려줍니다.