비디오: Kaggle 도전기: Titanic - 캐글 타이타닉 2024
Judith Hurwitz, Alan Nugent, Fern Halper, Marcia Kaufman
기업은 증가하는 금액을 포착하고 분석 할 수있는 새로운 방법을 배우기 위해 큰 데이터를 다루는 경쟁력있는 방법을 찾아야합니다 고객, 제품 및 서비스에 대한 정보를 제공합니다. 구조화 된 방식과 구조화되지 않은 방식으로 데이터가 점점 복잡 해지고 있습니다. 새로운 데이터 소스는 센서와 같은 기계에서 가져옵니다. 소셜 비즈니스 사이트; 클릭 스트림 데이터와 같은 웹 사이트 상호 작용 등이 있습니다. 이러한 변화하는 비즈니스 요구 사항을 충족 시키려면 올바른 정보를 적시에 이용할 수 있어야합니다.
대용량 데이터 정의: 볼륨, 속도 및 다양성
대용량 데이터를 사용하면 방대한 데이터를 적절한 속도와시기에 저장, 관리 및 조작 할 수 있습니다. 올바른 통찰력을 얻으려면 대용량 데이터가 일반적으로 세 가지 특성으로 분류됩니다:
-
볼륨: 데이터 양
-
속도: 데이터 처리 속도
-
다양성: 다양한 데이터 유형
네 번째 V, 진실성이 더욱 중요합니다. 데이터가 비즈니스 가치를 예측하는 데 얼마나 정확합니까? 큰 데이터 분석의 결과가 실제로 의미가 있습니까? 정확성과 문맥에 따라 데이터를 검증 할 수 있어야합니다. 혁신적인 비즈니스는 엄청난 양의 데이터를 실시간으로 분석하여 해당 고객의 가치와 해당 고객에게 추가로 제공 할 수있는 잠재력을 신속하게 평가할 수 있기를 원합니다. 비즈니스 성과에 영향을 미치기 위해 실시간으로 분석 할 수있는 데이터의 양과 유형을 파악하는 것이 필요합니다. ->
빅 데이터는 전자 메일, 소셜 미디어, 텍스트 스트림 등의 구조화 된 데이터 및 비정형 데이터를 비롯한 모든 종류의 데이터를 통합합니다. 이러한 종류의 데이터 관리를 위해서는 기업이 구조화 된 데이터와 구조화되지 않은 데이터를 모두 활용해야합니다.비정형 데이터 이해
비정형 데이터는 구조가 예측할 수 없다는 점에서 구조화 된 데이터와 다릅니다. 구조화되지 않은 데이터의 예로는 문서, 전자 메일, 블로그, 디지털 이미지, 비디오 및 위성 이미지가 있습니다. 또한 기계 또는 센서에 의해 생성 된 일부 데이터도 포함됩니다. 실제로 구조화되지 않은 데이터는 Twitter 및 Facebook과 같은 온라인 비공개 및 공개 소스에서 귀사의 외부뿐만 아니라 귀사의 구내에있는 대부분의 데이터를 차지합니다.
과거에는 대부분의 회사가이 방대한 양의 데이터를 캡처하거나 저장할 수 없었습니다. 그것은 단순히 너무 비싸거나 너무 압도적이었습니다. 기업이 데이터를 수집 할 수 있다고하더라도 데이터를 쉽게 분석하고 결과를 사용하여 의사 결정을 내릴 수있는 도구가 없었습니다. 이 방대한 양의 데이터를 이해하는 도구는 거의 없습니다. 존재했던 도구는 사용하기가 복잡했고 적절한 시간 내에 결과를 산출하지 못했습니다.
결국이 데이터를 분석하기 위해 많은 노력을 기울이고 자했던 사람들은 데이터의 스냅 샷 작업을해야했습니다. 이는 특정 스냅 샷에 없기 때문에 중요한 이벤트를 누락시키는 바람직하지 않은 영향을 미칩니다.
구조화되지 않은 데이터에서 비즈니스 가치를 얻는 방법으로 점차 가치가 높아지고있는 한 가지 접근 방식은
텍스트 분석, 구조화되지 않은 텍스트 분석, 관련 정보 추출 및이를 구조화 된 정보로 변환하는 프로세스입니다. 다양한 방법으로 레버리지를 도입 할 수 있습니다. 분석 및 추출 프로세스는 전산 언어학, 통계학 및 기타 컴퓨터 과학 분야에서 기인 한 기술을 활용합니다. 빅 데이터 환경에서 기존 운영 데이터의 역할
저장된 데이터와 저장 위치를 아는 것은 대규모 데이터 구현에서 중요한 빌딩 블록입니다. 구현의 핵심에 RDBMS를 사용하는 것은 거의 불가능하지만 RDBMS에 저장된 데이터를 사용하여 큰 데이터로 비즈니스 가치를 극대화해야 할 가능성이 매우 높습니다. 대부분의 대기업과 중소기업은 관계형 데이터베이스 관리 시스템 (RDBMS)에 중요한 운영 정보의 대부분을 저장하며 하나 이상의 관계를 기반으로하며 테이블로 표시됩니다. 이러한 테이블은 데이터 저장 방식에 따라 정의됩니다. 데이터는 행 및 열로 구성된 테이블이라는 데이터베이스 객체에 저장됩니다. RDBMS는 데이터가 저장되고 검색되는 방식에서 일관된 접근 방식을 따릅니다.
비정형 데이터의 실시간 분석에서 가장 많은 비즈니스 가치를 얻으려면 고객, 제품, 트랜잭션 및 운영에 대한 과거 데이터와 관련하여 해당 데이터를 이해해야합니다. 즉, 비정형 데이터를 기존 운영 데이터와 통합해야합니다.
빅 데이터 인프라의 기본 사항
빅 데이터는 모두 고속, 대용량 및 다양한 데이터 다양성에 관한 것이므로 물리적 인프라가 말 그대로 구현을 "만들거나 깨뜨릴 것"입니다. 대용량 데이터 구현은 가용성이 높아야하므로 네트워크, 서버 및 물리적 저장소는 복원력이 뛰어나고 중복되어야합니다.
탄력성과 중복성은 상호 관련되어 있습니다. 인프라 또는 시스템은 충분한 중복 리소스가 실행 준비가 된 경우 장애 또는 변경 사항에 대해 복원력이 있습니다. 탄력성은 인프라에서 단일 실패 지점을 제거하는 데 도움이됩니다. 예를 들어 비즈니스와 인터넷간에 네트워크 연결이 하나만있는 경우 네트워크 중복이 없으며 인프라가 네트워크 중단에 대해 복원력이 없습니다.
비즈니스 연속성 요구 사항이있는 대형 데이터 센터에서 대부분의 중복성이 확보되어 큰 데이터 환경을 구축 할 수 있습니다. 새로운 구현에서 디자이너는 비용 및 성능을 기반으로 비즈니스 요구에 배치를 매핑해야 할 책임이 있습니다.
Hadoop을 통한 빅 데이터 관리: HDFS 및 MapReduce
오픈 소스 소프트웨어 프레임 워크 인 Hadoop은 HDFS (Hadoop Distributed File System) 및 MapReduce를 사용하여 범용 하드웨어 클러스터에서 큰 데이터를 분석합니다. 분산 컴퓨팅 환경.
Hadoop 분산 파일 시스템 (HDFS)은 기업이 방대한 양의 데이터를 간단하고 실용적인 방법으로 더 쉽게 관리 할 수 있도록 개발되었습니다. Hadoop을 사용하면 큰 문제를 작은 요소로 분해하여 분석을 신속하고 비용 효율적으로 수행 할 수 있습니다. HDFS는 대용량 데이터 환경에서 파일을 관리하기위한 다양하고 탄력적 인 클러스터 방식입니다.
HDFS가 파일의 최종 목적지가 아닙니다. 오히려 데이터 볼륨 및 속도가 높을 때 필요한 고유 한 기능 세트를 제공하는 데이터 "서비스"입니다.
MapReduce는 개발자가 분산 된 프로세서 그룹에 걸쳐 엄청난 양의 구조화되지 않은 데이터를 병렬로 처리 할 수있는 프로그램을 작성할 수있게 해주는 소프트웨어 프레임 워크입니다. MapReduce는 배치 모드에서 많은 양의 데이터에 대해 일련의 기능을 효율적으로 실행하는 방법으로 Google에서 설계했습니다. "맵"구성 요소는 많은 수의 시스템에 프로그래밍 문제 또는 작업을 분산시키고 부하 균형을 조정하고 장애 복구를 관리하는 방식으로 작업 배치를 처리합니다. 분산 계산이 완료되면 "감소"라는 또 다른 함수는 모든 요소를 다시 집계하여 결과를 제공합니다. MapReduce 사용의 예는 50 개 언어로 작성된 책의 페이지 수를 확인하는 것입니다.
대용량 데이터 전략의 기초 마련
대기업에서 기업들이 수영하고 있습니다. 문제는 미래에 대한 예측, 중요한 비즈니스 프로세스 실행 또는 새로운 통찰력 확보를 위해 실제적으로 데이터를 사용하는 방법을 모르는 경우가 종종 있습니다. 귀중한 데이터 전략 및 계획의 목표는 예측 가능한 비즈니스 성과를 위해 데이터를 활용하는 실용적인 방법을 찾는 것입니다.
발견 프로세스를 시작하여 큰 데이터 전략을 시작하십시오. 이미 가지고있는 데이터, 데이터의 위치, 소유자 및 제어 방법, 현재 사용중인 데이터를 처리해야합니다. 예를 들어 회사에서 사용하는 타사 데이터 소스는 무엇입니까? 이 프로세스를 통해 많은 통찰력을 얻을 수 있습니다.
보유한 데이터 소스의 수와 중복 정도를 결정할 수 있습니다.
이러한 데이터 소스에 대한 지식의 갭이 있음을 확인할 수 있습니다.
비즈니스 영역 중 하나에 중복 데이터가 많이 있고 다른 영역에는 데이터가 거의 없음을 알 수 있습니다.
-
제 3 자 데이터에 의존하고 있음을 확인하는 것이 정확하지 않을 수 있습니다.
-
귀하의 큰 데이터 전략을 계획하고 실행하기위한 기초가되기 때문에이 발견 프로세스를 수행하는 데 필요한 시간을 할애하십시오.