차례:
비디오: [애플리케이션 현대화 및 개발] 클라우드를 통한 현대적 애플리케이션 디자인 및 구축 패턴 - 윤석찬, AWS 수석 테크 에반젤리스트 2024
큰 데이터 증가하는 양의 데이터를 지속적으로 처리해야하기 때문에 하이브리드 클라우드 기술의 세계에서 자주 사용됩니다. 큰 데이터에 대한 핵심 사실은 대규모 데이터를 관리하기 위해 조직에서 역사적으로 제기 한 대안의 전환점에 존재한다는 것입니다. 빅 데이터 기술을 통해 사람들은 실제로이 데이터를 효과적으로 분석하고 활용할 수 있습니다.
->빅 데이터 특성
빅 데이터는 일반적으로 볼륨, 버라이어티 및 속도의 세 가지 특성을 갖습니다.
-
볼륨: 큰 데이터는 대량입니다. 일반적으로 최소한 여러 테라 바이트의 데이터를 의미합니다. 많은 대형 데이터 구현은 페타 바이트의 정보를 분석하려고합니다. 999 바이트
테라 바이트 10 999 > 10 -> -> 다양성: 빅 데이터는 다양한 모양과 크기로 제공됩니다. 여기에는 다음 유형의 데이터가 포함됩니다. 구조화 된 데이터 는 분석가가 처리하는 데 사용되는 일반적인 종류의 데이터입니다. 여기에는 데이터베이스에 포함시키는 것과 관련하여 생각하는 데이터 유형 및 매출액이 포함됩니다. 구조화 된 데이터는 센서 및 RFID 태그와 같은 제품에서 새로운 방식으로 생산되고 있습니다. 반 구조화 된 데이터 는 구조가 있지만 데이터베이스의 테이블에 대해서는 생각하지 않습니다. 여기에는 EDI 형식과 XML이 포함됩니다. 비 체계적인 데이터 에는 회사 내부 또는 인터넷 내부의 문서, 전자 메일 메시지, 짹짹 또는 블로그 등 텍스트, 이미지 및 오디오가 포함됩니다. 비 구조적인 데이터는 모든 데이터의 약 80 %를 차지합니다. 속도: 이것은 데이터가 이동하는 속도입니다. 의료 기기에서 출력되는 밀리 초 단위의 데이터 또는 데이터 스트림을 캡처하는 센서에 대해 생각해보십시오. 대용량 데이터는 스트림에서 사용자에게 전달되는 경우가 많으므로 실시간 데이터가 관련되어 있습니다. 클라우드는 확장 가능한 스토리지, 컴퓨팅 파워 및 탄력적 인 리소스로 인해 큰 데이터에 이상적인 장소입니다. 클라우드 모델은 대규모입니다. Apache Hadoop: Java로 작성된 개방형 소스 분산 컴퓨팅 플랫폼을 포함하여이 모델을 지원하기 위해 여러 가지 프레임 워크와 기술이 등장했습니다. 컴퓨터 클러스터 전체에 분산 처리를 가능하게하는 소프트웨어 라이브러리입니다. 실제로는 분산 파일 시스템입니다. Hadoop 파일 시스템을 가진 컴퓨터 풀을 생성합니다. Hadoop은 많은 양의 복잡한 데이터를 처리하도록 설계되었습니다.데이터는 구조화, 비 구조화 또는 반 구조화 될 수 있습니다. Hadoop은 메모리 또는 디스크를 공유하지 않는 많은 서버에서 실행할 수 있습니다. 자세한 내용은 Hadoop을 참조하십시오. MapReduce: 대규모 데이터 집합에서 분산 컴퓨팅을 지원하기 위해 Google에서 도입 한 소프트웨어 프레임 워크입니다. Hadoop은 거대한 데이터와 큰 데이터 분석으로 무엇을하고 있는지 핵심입니다. 클라우드 리소스를 활용하도록 설계되었습니다. 이 계산은 클러스터 라고하는 수많은 컴퓨터에서 수행되며 각 클러스터는 -
MapReduce는 구조화 된 데이터와 구조화되지 않은 데이터를 모두 처리 할 수 있습니다. 사용자는 키 / 값 쌍을 처리하여 중간 쌍 쌍을 생성하는지도 함수와 이러한 쌍을 병합하는 축소 함수를 지정합니다. 빅 데이터 데이터베이스
-
Hadoop의 한 가지 중요한 매력은 다양한 유형의 데이터를 처리 할 수 있다는 것입니다. 병렬 데이터베이스 관리 시스템은 수십 년 동안 시장에 나와 있습니다. 대부분의 테이블은 클러스터의 노드를 통해 분할되고 SQL 명령을 클러스터의 노드로 분리 된 계획으로 변환 할 수 있으므로 병렬 실행을 지원할 수 있습니다. 그러나 구조화 된 자유 형식 데이터를 관계형 모델의 열과 행에 맞추기가 어렵 기 때문에 대부분 구조화 된 데이터를 처리합니다. Hadoop은 SQL 만 의미하는
NoSQL, -
에서 움직임을 시작했습니다. 이 용어는 관계형 데이터베이스 시스템과는 다른 일련의 기술을 의미합니다. 가장 큰 차이점은 SQL을 사용하지 않는다는 것입니다. 또한 분산 데이터 저장소를 위해 설계되었습니다. NoSQL은 사람들이 SQL을 사용하지 않아야 함을 의미하지는 않습니다. 오히려 문제는 문제가 무엇인지에 따라 관계형 데이터베이스와 NoSQL 데이터베이스가 한 조직에 공존 할 수 있다는 것입니다.
-
Apache Cassandra: 원래 Facebook에서 개발 한 오픈 소스 분산 데이터 관리 시스템. 구조 요구 사항이 엄격하지 않으므로 모든 다른 유형의 데이터를 처리 할 수 있습니다. 전문가들은 대량의 실시간 트랜잭션 처리 기능이 뛰어나다 고 주장합니다. 다른 오픈 소스 데이터베이스로는 MongoDB, Apache CouchDB 및 Apache HBase가 있습니다.
-
-
Amazon Simple DB: Amazon은이 데이터베이스를 속성 및 항목이 각각 저장된 열과 행이 있다는 점에서이 데이터베이스를 스프레드 시트에 비유합니다. 그러나 스프레드 시트와 달리 각 셀에는 여러 값이있을 수 있으며 각 항목에는 고유 한 속성 집합이있을 수 있습니다. 그러면 Amazon이 자동으로 데이터를 색인화합니다. 최근 아마존은 Cloud에 대규모 데이터 NoSQL을 가져 오는 방법으로 Amazon Dynamo DB를 발표했습니다.
Google BigTable:
-
이 하이브리드는 일종의 큰 테이블과 같습니다. 테이블은 커질 수 있기 때문에 행 경계에서 테이블로 분할되며 수백 메가 바이트 정도 될 수 있습니다. MapReduce는 BigTable에 저장된 데이터를 생성하고 수정하는 데 자주 사용됩니다.