비디오: 리듬 세상 DS 사용되지 않은 더미 데이터? 2024
예측 분석의 데이터는 스트리밍, 정적 또는 둘의 혼합으로 식별 될 수 있습니다. 스트리밍 된 데이터 가 계속 변경됩니다. 예를 들면 페이스 북 업데이트의 지속적인 흐름, 트위터의 트윗, 그리고 시장이 여전히 열려있는 동안 끊임없이 변화하는 주가가 포함됩니다.
스트리밍 된 데이터가 지속적으로 변화하고 있습니다. 정적 데이터 는 독립형이며 동봉되어 있습니다. 정적 데이터와 관련된 문제는 간격, 이상 치 또는 부정확 한 데이터를 포함합니다.이 모든 데이터는 정적 데이터를 분석에 사용하기 전에 일부 정리, 준비 및 사전 처리가 필요할 수 있습니다.
스트리밍 된 데이터와 마찬가지로 다른 문제가 발생할 수 있습니다. 볼륨이 문제가 될 수 있습니다. 계속적으로 도착하는 엄청난 양의 논스톱 데이터가 압도적 일 수 있습니다. 그리고 데이터가 스트리밍되는 속도가 빨라질수록 분석이 따라 잡기가 더 어려워집니다.
스트리밍 된 데이터를 분석하기위한 두 가지 주요 모델은 다음과 같습니다.
-
최신 데이터 포인트 만 검사하고 모델 상태 및 다음 이동에 대해 결정합니다. 이 접근법은 점진적으로 - 실제로 도착한 데이터의 그림을 구성합니다.
-
새로운 데이터 포인트가 도착할 때마다 전체 데이터 세트 또는 그 하위 세트를 평가하여 결정하십시오. 이 접근법은 분석에서 더 많은 데이터 요소를 포함합니다. 새로운 데이터가 추가 될 때마다 "전체"데이터 세트가 변경됩니다.
비즈니스의 성격과 예상되는 영향력에 따라 하나의 모델이 다른 모델보다 바람직합니다.
환경, 시장 또는 인텔리전스 데이터 분석과 같은 일부 비즈니스 영역에서는 실시간으로 도착하는 새로운 데이터에 상을 수여합니다. 이 모든 데이터는 스트리밍되는 동안 분석되어야하며 올바르게 해석 될뿐 아니라 즉시 해석되어야합니다. 새롭게 이용 가능한 정보에 기초하여, 모델은 외부 세계의 전체적인 내부 표현을 다시 그려 낸다. 그렇게하면 결정을 내리고 신속하게 대응해야하는 결정에 대한 최신 기준이 제공됩니다. 예를 들어, 예측 분석 모델은 데이터가 급격하게 변하는 동안에도 주식 가격을 데이터 피드로 처리하고, 실시간으로 존재하는 즉각적인 시장 상황에서 데이터를 분석 한 다음, 특정 주식. 분명히 스트리밍 된 데이터를 분석하는 것은 정적 데이터를 분석하는 것과 다릅니다. 두 가지 데이터 유형의 혼합을 분석하는 것은 훨씬 더 어려울 수 있습니다.