비즈니스 인텔리전스 제품을 수정하여 빅 데이터 처리

전통적인 비즈니스 인텔리전스 제품은 대용량 데이터를 처리하도록 설계되지 않았기 때문에 약간의 수정이 필요할 수 있습니다. 이들은 고도로 구조화되고 잘 이해 된 데이터로 작업하도록 설계되었으며, 종종 관계형 데이터 저장소에 저장되고 데스크톱 또는 랩톱 컴퓨터에 표시됩니다. 이 전통적인 비즈니스 인텔리전스 분석은 일반적으로 사용 가능한 전체 데이터 양보다는 데이터의 스냅 샷에 적용됩니다. 큰 데이터 분석과 다른 점은 무엇입니까?

빅 데이터 데이터 빅 데이터는 구조화, 반 구조화 및 비 구조화 된 데이터로 구성됩니다. 당신은 종종 그것을 많이 가지고 있으며, 그것은 매우 복잡 할 수 있습니다. 분석에 대해 생각할 때 데이터의 잠재적 인 특성을 알아야합니다.

신뢰할 수없는 출처에서 나올 수 있습니다.

대용량 데이터 분석은 종종 다양한 출처의 데이터를 모으는 것을 포함합니다. 여기에는 내부 및 외부 데이터 소스가 모두 포함될 수 있습니다. 이러한 외부 정보 소스는 얼마나 신뢰할 수 있습니까? 예를 들어 짹짹과 같은 소셜 미디어 데이터가 얼마나 신뢰할 수 있습니까? 정보가 확인되지 않은 출처에서 온 것일 수 있습니다. 분석시이 데이터의 무결성을 고려해야합니다.

더러울 수 있습니다.
더티 데이터는 부정확하거나 불완전하거나 오류가있는 데이터를 나타냅니다. 여기에는 단어의 철자가 포함될 수 있습니다. 깨진 센서, 제대로 보정되지 않은 센서 또는 손상된 센서; 또는 심지어 복제 된 데이터. 데이터 과학자들은 소스에 가깝거나 실시간으로 데이터를 정리할 위치에 대해 토론합니다. 물론, 한 학교에서는 흥미로운 이상 치를 포함 할 수 있기 때문에 더러운 데이터를 전혀 정리해서는 안된다고 말합니다. 정화 전략은 아마도 자료의 출처와 유형 및 분석 목표에 달려 있습니다. 예를 들어, 스팸 필터를 개발하는 경우 목표는 데이터의 잘못된 요소를 감지하여이를 지우고 싶지 않을 것입니다.

신호 대 잡음비가 낮을 수 있습니다.
즉, 신호 (사용 가능한 정보)는 데이터의 작은 퍼센트 일 수 있습니다. 소음은 나머지 다. 소음이 많은 데이터로부터 작은 신호를 추출 할 수 있다는 것은 큰 데이터 분석의 이점 중 일부이지만 실제로 신호가 작을 수 있음을 알아야합니다.
실시간 일 수 있습니다. 대부분의 경우 실시간 데이터 스트림을 분석하려고합니다.
거대한 데이터 거버넌스는 분석 방정식의 중요한 부분이 될 것입니다. 비즈니스 분석 아래, 특히웨어 하우스에 저장된 기존의 신뢰할 수있는 데이터와 결합 될 때 새로운 데이터 소스의 정확성을 보장하기 위해 관리 솔루션에 대한 개선이 이루어져야합니다.데이터 보안 및 개인 정보 보호 솔루션은 또한 신기술에 저장된 큰 데이터를 관리 / 관리하는 것을 지원하도록 향상되어야합니다. 분석적 빅 데이터 알고리즘

큰 데이터 분석을 고려할 때는 데스크톱 이상으로 확장 할 때 자주 사용하는 알고리즘을

리팩토링해야하며

내부 코드는 외부 기능에 영향을주지 않습니다. 큰 데이터 인프라의 장점은 몇 시간 또는 며칠이 걸렸던 모델을 실행할 수 있다는 것입니다. 이 기능을 사용하면 모델을 반복적으로 반복 할 수 있습니다. 그러나 분산 환경에서 10 억 개의 행에 대한 회귀 분석을 수행하는 경우 클러스터의 데이터 볼륨 및 위치와 관련된 리소스 요구 사항을 고려해야합니다. 알고리즘은 데이터를 인식 할 수 있어야합니다. 또한 공급 업체는 대규모 데이터 소스에 가깝도록 배치되어 새로운 장소에서 데이터를 분석하기 위해 새로운 분석 기능을 제공하기 시작했습니다. 분석을 데이터 소스에 가깝게 실행하는이 접근법은 가치가 높은 데이터 만 유지함으로써 저장된 데이터의 양을 최소화합니다. 또한 실시간 의사 결정에 중요한 데이터를 더 빨리 분석 할 수 있습니다.

물론 분석은 계속 진화 할 것입니다. 예를 들어, 지속적으로 변화하는 실시간 데이터를 표시하려면 실시간 시각화 기능이 필요할 수 있습니다. 그래프 플롯에서 10 억 포인트를 실제로 어떻게 계획합니까? 또는 예측 알고리즘을 사용하여 계속 확장되고 복잡한 데이터 세트를 활용할 수있을 정도로 충분히 빠르고 깊은 분석을 수행하는 방법은 무엇입니까? 이것은 활발한 연구 분야입니다.

대규모 데이터 인프라 지원

플랫폼을 찾고 있다면 다음을 달성해야한다고 말하기 바란다.

통합 기술:

인프라는 새로운 빅 데이터 기술을 전통적인 기술로 모든 종류의 빅 데이터를 처리하고 소모품을 만들 수 있습니다.

많은 양의 이질적인 데이터 저장: 구조적, 반 구조적 또는 구조화되지 않은 많은 양의 데이터를 안정적으로 처리 / 저장 / 관리 할 수있는 엔터프라이즈 강화 Hadoop 시스템이 필요할 수 있습니다. 이동중인 프로세스 데이터: 실시간 의사 결정을 지원하기 위해 센서, 스마트 장치, 비디오, 오디오 및 로그에 의해 연속적으로 생성되는 동작중인 데이터를 처리하기 위해서는 스트림 계산 기능이 필요할 수 있습니다.
창고 데이터: 증가하는 양의 신뢰할 수있는 데이터를 저장하고 관리하기 위해 운영 또는 심층 분석 작업 부하에 최적화 된 솔루션이 필요할 수 있습니다.
물론 기존 데이터를 큰 데이터 분석의 결과와 함께 통합 할 수있는 기능이 필요합니다.