Hadoop에서 그래프 처리

비디오: 빅데이터 개념 정리, 하둡 파일 시스템 (HDFS)의 탄생 배경 2024

흥미로운 새로운 NoSQL 기술 중 하나는 그래프 데이터를 저장하고 처리하는 것입니다. 컴퓨터 과학자들이 수십 년 동안 그래프 분석 기술을 개발해 왔기 때문에이 진술은 오래된 뉴스라고 생각할 수도 있습니다. 당신이 말하는 것은 사실일지도 모르지만 새로운 점은 Hadoop을 사용하여 대규모 그래프 분석을 할 수 있다는 것입니다.

그래프 데이터 란 무엇입니까?

데이터 용어로 나타낸 그래프 는 단순히 개별 엔티티와 그 관계를 표현한 것입니다. 그래프 엔티티는 nodes (또는 vertices )로 알려져 있으며 그래프의 엔티티들 간의 관계는 edges (또는 connections >). 기존의 행과 열과는 달리 그래프로 데이터 세트를 표현하면 개체 간의 관계를 투명하게 만드는 방식으로 데이터를 훨씬 쉽게 처리 할 수 있습니다. 일반적인 그래프 계산은 그래프의 여러 노드 사이의 최단 경로 거리 또는 단순히 특정 노드와 특정 유형의 연결을 갖는 노드 수로 표현됩니다.

그래프 데이터베이스에서 가장 잘 알려진 응용 프로그램은 알려진 모든 웹 페이지 간의 연결 관계를 계산하는 Google의 PageRank 알고리즘입니다. Google은 웹을 거대한 그래프로 나타내며 웹 페이지는 노드이고 한 페이지에서 다른 페이지로의 링크는 가장자리로 표시됩니다. Google은 그래프 분석 프로젝트를 설명하는 논문 (2010 년 Pregel-back)을 게시하여 풍부한 것을 공유했습니다. Google이 관심을 갖고있는 그래프 처리에는 각 웹 페이지의 인바운드 연결 수를 계산하는 것이 포함되었습니다.

Hadoop의 그래프 분석

2014 년 봄부터 Hadoop의 그래프 분석은 초기 단계에 있습니다. Hadoop 2의 YARN의 출현으로 Hadoop에서 그래프 분석 및 기타 특수 처리 기술이 널리 보급 될 것입니다. 이 기사에서 언급 된 많은 소셜 사이트는 자체 독점 그래프 데이터베이스와 처리 엔진을 사용하지만 Facebook은 Giraph의 저명한 사용자입니다. 페이스 북이 (묵시적으로) 승인을 받았기 때문에, Giraph는 Hadoop의 그래프 분석에서 인기있는 선택이되었지만 몇 가지 한계가 있습니다. 이는 데이터를 그래프로 클러스터의 메모리에로드하고 일괄 처리 지향 쿼리에 최적화되어 있기 때문에 전적으로 처리 엔진입니다.

또 다른 그래프 처리 솔루션은 Hadoop을위한 오픈 소스 그래프 분석 도구 모음을 발표 한 Aurelius에서 나옵니다. 제품의 핵심은 HBase를 대화 형 쿼리에 최적화 된 지속성 레이어로 사용하는 Titan과 HDFS에 Titan의 그래프 스냅 샷을 저장하고 MapReduce 작업을 실행하는 그래프 처리 엔진 인 Faunus입니다. 대화 형 (Titan) 및 일괄 처리 (Faunus) 응용 프로그램 모두에 대해 Aurelius에는 Gremlin이라는 공통 그래프 트래버스 API가 있습니다.