비디오: 리비젼_해외빅데이터심층해부 세미나 기획 브리핑20141114_전용준 2024
비즈니스 시스템의 여러 측면과 마찬가지로 데이터는 인간의 창조물이므로 데이터를 처음 사용할 때 유용성에 약간의 제한이 있습니다 그것을 얻으십시오. 다음은 발생할 수있는 몇 가지 제한 사항의 개요입니다.
-
데이터가 불완전 할 수 있습니다. 누락 된 값은 섹션이나 데이터의 상당 부분이 없더라도 사용성을 제한 할 수 있습니다.
예를 들어, 모델링하려는 대형 세트 중 하나 또는 두 가지 조건 만 포함 할 수 있습니다. 예를 들어 주식 시장 성과 분석을 위해 만들어진 모델에 지난 5 년 동안 사용 가능한 데이터 만있는 경우 두 가지 모두 왜곡됩니다 강세장을 가정 한 데이터와 모델.
데이터의 자연 변동에 대한 완전한 그림을 제공하는 일정을 확인하십시오. 귀하의 데이터는계절성 에 의해 제한되어서는 안됩니다. 설문 조사 데이터를 사용하는 경우 사람들이 항상 정확한 정보를 제공하지는 않습니다.
-
모든 사람들이 일주일에 운동 횟수 또는 음주량을 정직하게 말할 수있는 것은 아닙니다. 사람들은 자의식만큼이나 부정직하지 않을 수도 있지만 데이터는 여전히 비뚤어집니다.
-
모델에서 사용할 모든 변수를 확인하십시오.
특히 시간이 지남에 따라 데이터의 범위를 평가하면 모델이 계절성 함정을 피할 수 있습니다.
-
누락 된 값을 확인하고, 누락 된 값을 확인하고, 전체 분석에 미치는 영향을 평가합니다.
-
극단 값 (이상치)을주의 깊게 살펴보고 분석에 포함할지 여부를 결정하십시오.
-
교육 및 테스트 데이터 풀이 충분히 큰지 확인하십시오.
-
데이터 유형
-
(정수, 소수점 값 또는 문자 등)이 올바른지 확인하고 가능한 값의 상한 및 하한을 설정하십시오. 데이터가 여러 출처에서 온 경우 데이터 통합에 특히주의하십시오. 데이터 소스와 데이터의 전반적인 품질에 미치는 영향을 이해해야합니다.
-
전체 인구를 대표하는 관련 데이터 세트를 선택합니다.
분석에 적합한 매개 변수를 선택하십시오.
-
이러한주의와 관심을 끈 후에도 정확하게 분석하기 전에 데이터에 사전 처리가 필요한 경우 놀라지 마십시오. 전처리는 원래 데이터와 관련된 몇 가지 문제를 처리해야하기 때문에 오랜 시간과 상당한 노력이 필요합니다. 이러한 문제는 다음과 같습니다.
-
데이터에서 누락 된 값.
데이터에 존재하는 불일치 및 / 또는 오류.
-
데이터의 중복 또는 이상 값.
-
데이터의 정규화 또는 기타 변형.
-
분석에 필요한 파생 데이터.