비디오: 제2장 빅데이터/분석_3막 스트리밍 기술을 통한 실시간 데이터 분석 2024
양을 저장하는 것은 어렵거나 불가능할 수 있습니다. 사실, 그것을 모두 저장하는 것은 유용하지 않을 수도 있습니다. 인터넷에서 1 분 이내에 발생할 것으로 예상되는 몇 가지 수치가 있습니다.
- 트로이 목마에 9,500 개 이상의 이메일을 보냈고
- 350,000 개의 새로운 트윗을 보냈습니다 2. Google에서 요청한 검색어 4 백만 건
- 700, Facebook에 자신의 계정에 로그인 한 000 명
-
때로는 처리하기가 훨씬 더 어렵게되는 데이터가 너무 빨리 대량으로 도착하여 디스크에 기록하는 것이 불가능합니다. 새로운 정보는 디스크에 쓰는 데 필요한 시간보다 빠르게 도착합니다. 하드 디스크. 이것은 대형 Hadron Collider와 같은 입자 가속기를 사용하는 입자 실험의 전형적인 문제로, 과학자가 어떤 데이터를 보관할 지 결정해야합니다. 물론 대기열이 빠르게 커지고 유지 관리가 불가능 해지므로 너무 오랫동안 데이터를 대기열에 올려 놓을 수는 있습니다. 예를 들어 메모리에 보관하면 대기열 데이터로 인해 곧 메모리 부족 오류가 발생합니다. 새로운 데이터 흐름은 이전 데이터에 대한 이전 처리를 쓸모 없게 만들고 지연 지연을 해결하기위한 해결책이 아니기 때문에 사람들은 방대하고 가변적 인 데이터 양을 즉시 처리 할 수있는 여러 가지 전략을 고안해 냈습니다. 사람들은 많은 양의 데이터를 처리하는 세 가지 방법을 사용합니다.
저장 됨:나중에 불확실한 질문에 답할 수 있기 때문에 일부 데이터가 저장됩니다. 이 방법은 방대한 양이 있더라도 즉시 저장하고 나중에 매우 빠르게 분석하는 기술에 의존합니다.
요약:
- 일부 데이터는 그대로 유지하는 것이 합리적이지 않기 때문에 요약됩니다. 중요한 데이터 만 유지됩니다. Consumed:
- 나머지 데이터는 사용량이 미리 결정되었으므로 소비됩니다. 알고리즘은 즉시 데이터를 읽고, 소화하고, 정보로 바꿀 수 있습니다. 그 후에 시스템은 데이터를 영원히 잊어 버립니다. 대량의 데이터가 컴퓨터 시스템에 도착할 때 스트리밍 데이터, 데이터 스트림, 데이터 소방 호스와 같이 수분에 비해 종종 듣게됩니다. 데이터 스트림이 수돗물을 소비하는 것과 같은 방식을 발견했습니다. 수도 꼭지를 열면 컵이나 병에 물을 저장하거나 요리, 음식 닦기, 판 세척 또는 손 씻기에 사용할 수 있습니다. 어쨌든 물의 대부분이나 전부가 없어졌지만, 매우 유용하고 참으로 중요합니다.