비디오: AWS 빅데이터 아키텍처 패턴 및 모범 사례 - 남궁영환 빅데이터 컨설턴트(AWS 코리아) 2024
때로는 큰 데이터에 접근 할 때 회사는 거대한 양의 데이터와 다음에 어디로 갈지 거의 알지 못합니다. 데이터 스트리밍을 입력하십시오. 상당한 양의 데이터를 통찰력을 얻기 위해 거의 실시간으로 신속하게 처리해야하는 경우 스트리밍 데이터의 형태로 움직이는 데이터가 가장 좋은 대답입니다.
휴식 중에 가 아닌 데이터는 무엇입니까? 이것은 활성 트랜잭션을 관리하므로 지속성을 유지해야하는 시스템입니다. 이러한 경우 데이터는 운영 데이터 저장소에 저장됩니다. 그러나 다른 상황에서는 이러한 트랜잭션이 실행되었으므로 일반적으로 데이터웨어 하우스 또는 데이터 마트에서 해당 데이터를 분석해야합니다.
이는 Hadoop을 활용하여 데이터를 관리 할 때의 접근 방식과 유사합니다. 가장 큰 차이점은 속도 문제입니다. Hadoop 클러스터에서 데이터는 배치 모드로 수집 된 다음 처리됩니다. Hadoop은 데이터 스트리밍보다 처리 속도가 중요합니다. 스트림을 사용할 때 가장 중요한 몇 가지 핵심 원칙이 정의됩니다.
소셜 미디어 또는 권한 기반 메시징을 통한 참여 시점에서 소매 구매 기회를 결정할 필요가있을 때
-
보안 사이트
-
서비스 중단 또는 환자의 의학적 상태 변화와 같은 즉각적인 대응이 필요한 이벤트에 대응할 수 있습니다.
-
사용량 및 변수와 같은 변수에 의존하는 실시간 비용 계산 사용 가능한 리소스
-
스트리밍 데이터는 데이터가 움직이는 동안 실시간으로 분석을 수행해야 할 때 유용합니다.사실, 분석의 가치 (그리고 종종 데이터)는 시간이 지남에 따라 감소합니다. 예를 들어, 즉시 분석하고 실행할 수없는 경우 판매 기회가 손실되거나 위협이 감지되지 않을 수 있습니다.
다음은 이것이 어떻게 유용한지를 설명하는 데 도움이되는 몇 가지 예입니다.
발전소는 허가받지 않은 개인이 고객에게 전력 공급을 방해하지 않도록 매우 안전한 환경이어야합니다. 회사는 종종 사이트의 주변에 센서를 배치하여 움직임을 감지합니다. 그러나 문제가 존재할 수 있습니다. 사이트 주위를 돌진하는 토끼와 신속하고 신중하게 운전하는 자동차에는 큰 차이가 있습니다. 따라서 실제 위협이 존재할 때만 경보가 발령되도록 실시간으로 이러한 센서에서 오는 엄청난 양의 데이터를 분석해야합니다. 경쟁이 치열한 시장의 통신 회사는 중단 된 서비스 수준을주의 깊게 모니터링하여 서비스 수준의 저하를 적절한 그룹으로 높일 수 있기를 원합니다. 통신 시스템은 적절한 조치를 취하기 위해 실시간으로 분석해야하는 방대한 양의 데이터를 생성합니다. 오류 탐지 지연으로 인해 고객 만족도가 심각하게 영향을받을 수 있습니다. 물론 비즈니스는 실시간으로 처리되고 분석되어야하는 많은 데이터를 처리하고 있습니다. 따라서 이러한 수준의 응답 성을 지원하는 물리적 환경이 중요합니다. 일반적으로 스트리밍 데이터 환경에는 클러스터 된 하드웨어 솔루션이 필요하며 분석을 처리하기 위해 대량 병렬 처리 방법이 필요할 수 있습니다.
스트리밍 데이터 분석에 대한 한 가지 중요한 요소는 단일 통과 분석이라는 사실입니다. 다시 말해 분석가는 스트리밍 된 후 데이터를 다시 분석 할 수 없습니다. 이는 데이터 부재를 찾고있는 응용 프로그램에서 일반적입니다.
여러 번 통과해야하는 경우 데이터를 추가로 분석 할 수있는 일종의 창고에 보관해야합니다. 예를 들어 문맥을 확립하는 것이 종종 필요합니다. 이 스트리밍 데이터는 과거 데이터와 어떻게 비교됩니까? 이 상관 관계는 변경된 사항과 변경 사항이 귀하의 비즈니스에 미칠 수있는 영향을 알려줍니다.