비디오: 10-7 더미변수의 활용 - 회귀분석 (7) - 2024
빅 데이터 분석은 최근 과장된 이유가 있습니다. 이 운동의 일부가 되려면 큰 데이터 분석의 특성을 알아야합니다. 회사들은 뭔가가 있다는 것을 알고 있지만, 최근까지는 그것을 채굴하지 못했습니다. 이것은 분석에 대한 봉투를 밀어 넣는 것이 큰 데이터 분석 운동의 흥미로운 측면입니다.
기업은 수집 중이거나 통찰력을 얻기를 원하지만 효과적으로 관리 또는 분석 할 수 없었던 데이터에 액세스하고 분석 할 수있게되어 기쁩니다. 방대한 양의 이질적인 데이터를 시각화하거나 실시간으로 분석 된 스트리밍 분석을 포함 할 수 있습니다. 어떤면에서는 진화론 적이며 다른면에서는 혁명적입니다.
그렇다면 큰 데이터 분석으로 회사가 봉투를 밀고있을 때 다른 점은 무엇입니까? 대용량 데이터 분석을 지원하는 인프라가 다르며 알고리즘이 인프라를 인식하도록 변경되었습니다.
의사 결정 지향 분석
-
행동 지향 분석
-
의사 결정 지향 분석은 전통적인 비즈니스 인텔리전스와 유사합니다. 대용량 데이터의 선택적 하위 집합과 표현을 살펴보고 비즈니스 결정 프로세스에 결과를 적용하십시오. 물론 이러한 결정은 어떤 종류의 행동이나 프로세스 변화를 초래할 수 있지만 분석의 목적은 의사 결정을 강화하는 것입니다.
분석 응용 프로그램을 작성하여 큰 데이터를 찾아 활용하면 나중에 추출하는 것이 아니라 빨리 추출하는 것이 핵심입니다. 이 작업을 수행하려면 이러한 사용자 지정 응용 프로그램을 처음부터 또는 플랫폼 및 / 또는 구성 요소를 활용하여 빌드하는 것이 더 효과적입니다.
먼저, 대용량 데이터 분석의 추가 특성 중 볼륨, 속도 및 다양성의 세 가지 측면을 제외하고 전통적인 분석 유형과 다른 점을 살펴보십시오.
프로그래밍 방식.
-
분석에서 가장 큰 변화 중 하나는 과거에는 수동으로 애플리케이션에로드하고 탐색 할 수있는 데이터 세트를 다루는 것이 었습니다. 큰 데이터 분석을 사용하면 데이터의 크기 때문에 어떤 종류의 탐색을 수행 할 때 종종 프로그래밍 방식으로 처리해야하는 원시 데이터로 시작할 수있는 상황에 직면 할 수 있습니다. 데이터가 구동 될 수 있습니다. 많은 데이터 과학자들이 데이터 분석에 대한 가설 중심의 접근 방식을 사용하지만 (전제 개발 및 해당 전제가 올바른지 확인하기위한 데이터 수집) 데이터를 사용하여 분석을 유도 할 수 있습니다. 특히 거대한 그것의 양. 예를 들어, 기계 학습 알고리즘을 사용하여 이런 종류의 가설없는 분석을 수행 할 수 있습니다. 많은 속성을 사용할 수 있습니다.
-
과거에는 데이터 소스의 특성이나 특성을 수백 가지로 처리했을 수 있습니다. 이제 수천 개의 속성과 수백만 개의 관측치로 구성된 수백 기가 바이트의 데이터를 처리 할 수 있습니다. 이제는 모든 것이 더 큰 규모로 진행되고 있습니다. 반복 될 수 있습니다. 더 많은 컴퓨팅 성능은 원하는 방식으로 얻을 때까지 모델을 반복 할 수 있음을 의미합니다. 여기에 예제가 있습니다. 특정 고객 행동과 관련된 예측 변수를 찾으려는 모델을 작성한다고 가정 해보십시오. 합리적인 샘플 데이터를 추출하거나 데이터가있는 곳에 연결하는 것이 좋습니다. 가설을 테스트하기위한 모델을 만들 수도 있습니다.
-
과거에는 모델을 효과적으로 작동시키기 위해 많은 메모리를 확보하지 못했지만 알고리즘을 학습하는 데 필요한 반복 작업을 수행하려면 엄청난 양의 실제 메모리가 필요합니다. 자연 언어 처리 또는 신경망과 같은 고급 컴퓨팅 기술을 사용하여 더 많은 데이터가 추가 될 때 학습을 기반으로 모델을 자동으로 발전시켜야 할 수도 있습니다. 클라우드 기반 인프라를 서비스로 활용하여 필요한 계산주기를 얻으려면 빨리 수행 할 수 있습니다 (999).
-
Amazon Cloud Services (ACS)와 같은 IaaS (Infrastructure as a Service) 플랫폼을 사용하면 대규모 데이터 세트를 수집하고 신속하게 분석 할 수있는 시스템 클러스터를 신속하게 프로비저닝 할 수 있습니다.