비디오: 빅데이터 개념 정리, 하둡 파일 시스템 (HDFS)의 탄생 배경 2024
Yahoo와 같은 검색 엔진 혁신 업체 구글은 늪지 데이터 문제에 직면했다. 그들은 엔진이 모으는 엄청난 양의 데이터를 이해할 수있는 방법을 찾아야했습니다. 이 회사는 수집하는 정보와 비즈니스 모델을 지원하기 위해 해당 데이터로 수익을 창출 할 수있는 방법을 이해해야했습니다.
Hadoop은 회사가 방대한 양의 데이터를 쉽게 관리 할 수있는 가장 실용적인 방법 이었기 때문에 개발되었습니다. 하둡 (Hadoop)은 큰 문제를 더 작은 요소들로 나누어 분석함으로써 신속하고 비용 효율적으로 분석을 수행 할 수있게했습니다.
큰 데이터 문제를 병렬로 처리 할 수있는 작은 조각으로 나누면 정보를 처리하고 작은 조각을 재 그룹화하여 결과를 표시 할 수 있습니다.
하둡은 원래 야후! Doug Cutting이라는 이름의 엔지니어이며 현재 Apache Software Foundation에서 관리하는 오픈 소스 프로젝트입니다. Apache License v2에서 사용할 수 있습니다. 0
하둡은 큰 데이터를 포착하고 처리하려는 우리의 기본 빌딩 블록입니다. Hadoop은 컴퓨팅 노드에서 데이터 처리를 병렬 처리하여 계산 속도를 높이고 대기 시간을 숨길 수 있도록 설계되었습니다. Hadoop은 핵심 요소로
-
Hadoop 분산 파일 시스템: 신뢰할 수있는 고 대역폭, 저비용의 데이터 스토리지 클러스터로서 여러 컴퓨터에서 관련 파일을 쉽게 관리 할 수 있습니다.
-
MapReduce 엔진: MapReduce 알고리즘의 고성능 병렬 / 분산 데이터 처리 구현.
Hadoop은 막대한 양의 구조화 및 비정형 데이터 (테라 바이트에서 페타 바이트)를 처리하도록 설계되었으며 상용 서버 랙에서 Hadoop 클러스터로 구현됩니다. Hadoop은 "자가 치유 (self-healing)"하도록 설계되었으므로 서버를 클러스터에 동적으로 추가하거나 제거 할 수 있습니다. 즉, Hadoop은 장애를 포함하여 변경 사항을 감지하고 변경 사항을 조정하고 중단없이 계속 작동 할 수 있습니다.