Hadoop 기반의 위험 모델링

비디오: Summit Seoul '19 T1-3. BigQuery와 함께 새롭게 정의하는 데이터 웨어하우징 (박기택) 2024

위험 모델링은 Hadoop이 활성화 한 주요 사용 사례입니다. 모델 기반 규율이라는 점에서 사기 탐지의 유스 케이스와 거의 일치한다는 것을 알 수 있습니다. 보유한 데이터가 많을수록 더 많은 점을 연결할수록 결과가 더 자주 위험 예측 모델이됩니다.

포괄적 인 위험 이라는 단어는 많은 의미를 가질 수 있습니다. 예를 들어 고객 이탈 예측은 고객이 경쟁 업체로 이전 할 위험이 있습니다. 대출 도서의 위험은 채무 불이행의 위험과 관련이 있습니다. 건강 관리의 위험은 발발 억제에서 식품 안전에 이르기까지 재감염의 확률에 이르기까지 다양합니다.

금융 서비스 부문 (FSS)은 하둡 기반 리스크 모델링에 많은 투자를하고 있습니다. 이 부문은 위험 평가 및 노출 모델링의 자동화 및 정확성을 향상시키고 자합니다.

Hadoop은 참가자들에게 전자 메일, 인스턴트 메시징, 소셜 미디어 및 고객 서비스와의 상호 작용과 같이 활용도가 낮은 소스 (또는 사용되지 않는 소스)를 포함하도록 위험 모델에서 사용되는 데이터 세트를 확장 할 수있는 기회를 제공합니다 대표자, 다른 자료 출처 중.

FSS의 위험 모델이 모든 곳에서 나타납니다. 고객 이탈 방지, 거래 조작 모델링, 기업 위험 및 노출 분석 등에 사용됩니다.

기업이 가정에서 자연 재해에 대한 보험 증권을 발행 할 때 잠재적으로 얼마나 많은 돈이 위험에 처해 있는지 분명히 알 수 있습니다. 보험사가 가능한 지불금을 확보하기 위해 돈을 확보하지 못하면 규제 기관이 개입 할 것입니다 (보험 회사는이를 원하지 않습니다). 보험 회사가 미래의 보험금 청구를 지불하기 위해 준비금에 너무 많은 돈을 집어 넣으면 프리미엄 머니를 투자하고 이익을 낼 수 없습니다 (보험 회사는이를 원하지 않습니다).

간단히 말해서, 이들 회사는 위험 모델을 스트레스 테스트하는 데 어려움이 있습니다. 더 많은 데이터 (예: 날씨 패턴 또는 끊임없이 변화하는 고객 기반의 사회 경제적 분포)에 대한 폴트 기능을 통해 더 나은 위험 모델을 구축 할 때 더 많은 통찰력과 역량을 확보 할 수 있습니다.

방금 설명한 것과 같은 건물 및 스트레스 테스트 위험 모델은 Hadoop을위한 이상적인 작업입니다. 이러한 작업은 종종 계산적으로 비용이 많이 들며 다음과 같은 이유로 리스크 모델을 구축 할 때 데이터웨어 하우스에 대해 실행하는 것이 비현실적 일 수 있습니다.

웨어 하우스는 리스크 모델에서 발행 된 쿼리 종류에 최적화되지 않은 것 같습니다.(Hadoop은 데이터웨어 하우스에 사용되는 데이터 모델에 구속되지 않습니다.) 진화하는 위험 모델과 같은 대규모 일회성 배치 작업은웨어 하우스에 부하를 추가하여 기존 분석 응용 프로그램에 영향을 미칩니다. (Hadoop은이 작업 부하로 간주하여 정기적 인 비즈니스보고를 위해 창고를 비울 수 있습니다.)보다 고급 위험 모델은 원시 텍스트와 같은 구조화되지 않은 데이터를 고려해야 할 수 있습니다. (Hadoop은이 작업을 효율적으로 처리 할 수 있습니다.)