Hadoop을 이용한 사기 탐지 - 더미

엄청난 양의 거래로 인해 데이터 양 때문에 사기를 발견하는 것이 어려워졌으며, 아이러니하게도이 같은 도전은 Hadoop이 빛나는 영역 인 사기 예측 모델을 개선하는 데 도움이 될 수 있습니다. 오늘날의 상호 연결된 세계에서 거래의 규모와 복잡성이 그 어느 때보 다 커져서 사기를 찾지 못하게합니다. "건초 더미에서 바늘을 찾는 것"은 "바늘 더미에서 특정 바늘을 찾는 작업"이되었습니다. "

사기 예방에 대한 전통적인 접근법은 특별히 효율적이지 않습니다. 예를 들어, 부적절한 지불 관리는 분석가가 대상의 제출자로부터 의료 문서를 요청하는 것과 관련하여 매우 적은 수의 클레임 샘플에 대한 감사를 수행하는 경우가 많습니다. 이 모델에 대한 산업 용어는 임금 체이스입니다. 클레임은 수락되고 지불되며 프로세스는 이러한 클레임에 대한 후불 심사를 통해 고의 또는 의도하지 않은 초과 지급을 찾습니다.

이제 사기 탐지가 어떻게 이루어 집니까? 전통적인 기술의 한계로 인해 사기 모델은 샘플링 데이터와 샘플을 사용하여 사기 예측 및 탐지 모델 세트를 구축함으로써 구축됩니다. 모델을 빌드하기 위해 전체 데이터 세트 (샘플링 없음)를 사용하는 Hadoop 기반 사기 부서와이 모델을 대조하면 차이점을 알 수 있습니다.

대부분의 Hadoop 사용 사례에서 볼 수있는 가장 공통적 인 반복 테마는 결정 분석에 통합 될 수있는 다양한 데이터 및 다양한 데이터에 대한 유리 천장을 깨는 데 도움이된다는 것입니다. 보유한 데이터가 많을수록 더 많은 기록을 저장할수록 모델이 더 잘됩니다.

기존 거래와 비 전통적인 방식의 데이터를 혼합하면 사기 모델을 더욱 강력하게 만들 수 있습니다. 예를 들어, 근로자가 전복 사고로 인한 불량에 대한 근로자 보상 청구를하는 경우 수백만 건의 환자 결과 사례가 처리 및 복구 기간을 상세히 나타내는 데 도움이되면 사기에 대한 탐지 패턴이 생성됩니다.

이 모델이 어떻게 작동하는지 예를 들어 시골 지역의 환자가 도시 지역의 환자보다 더 천천히 회복되는지 알아 내려고합니다. 물리 치료 서비스의 근접성을 검사함으로써 시작할 수 있습니다. 복구 시간과 지리적 위치간에 패턴 상관 관계가 있습니까?

사기 부서가 특정 부상에 회복 3 주가 걸렸지 만 동일한 진단을받은 농부가 물리 치료사로부터 1 시간을 살고 회사 직원이 사무실에 종사자가있는 것으로 판단하면 사기에 추가 할 수있는 또 다른 변수입니다 탐지 패턴.

청구자를 위해 소셜 네트워크 데이터를 수집하고 채찍 끈을 앓고 있다고 주장하는 환자가 터프 머더 (Tough Mudder)라고하는 견고한 일련의 지구력 이벤트를 완료하는 것을 자랑스러워 할 때, 새로운 데이터를 전통적인 데이터 형식과 혼합하는 예입니다 사기를 알아 내기.

사기 탐지 노력을 더 높은 수준으로 끌어 올리려는 경우 조직은 시장 세그먼트 모델링에서 벗어나 트랜잭션 또는 개인 차원 모델링으로 이동할 수 있습니다.

세그먼트를 기반으로 예측을하는 것이 도움이되지만 개별 거래에 대한 특정 정보를 기반으로 의사 결정을 내리는 것이 (분명히) 더 좋습니다. 이렇게하려면 전통적인 접근 방식에서 가능했던 것보다 더 많은 데이터 집합을 작성해야합니다. 사기 모델링에 유용 할 수있는 사용 가능한 정보의 30 퍼센트 (최대) 만 사용됩니다.

사기 탐지 모델을 생성하기 위해 Hadoop은

볼륨 처리:

에 적합합니다. 즉, 데이터 샘플링없이 전체 데이터 세트를 처리하는 것입니다. 새로운 종류의 데이터 관리:
예는 사기 모델을 장식하기 위해 근접 식 서비스와 소셜 서클을 포함합니다. 민첩한 환경 유지:
기존 모델에 대한 다양한 종류의 분석 및 변경을 가능하게합니다. 사기 모델 작성자는 데이터베이스 관리자 팀에 제안서를 제출하지 않고도 스키마에 새로운 변수를 추가하고 테스트 할 수 있습니다. 그런 다음 스키마 변경을 승인하고 환경에 배치하는 데 2 주가 걸릴 수 있습니다.

이 프로세스는 사기 탐지에있어 매우 중요합니다. 동적 환경은 일반적으로 몇 시간, 며칠 또는 몇 주 만에 순환하는주기적인 사기 패턴을 가지고 있기 때문입니다. 새로운 사기 탐지 모델을 확인하거나 보강하는 데 사용 된 데이터를 잠시 공지 할 수없는 경우 이러한 새로운 패턴을 발견 할 때까지는 피해를 막기에는 너무 늦을 수 있습니다.

더 많은 유형의 데이터가 포함 된보다 포괄적 인 모델을 구축 할뿐만 아니라 이전보다 빠르게 모델을 새로 고치고 향상시킬 수 있다는 점을 비즈니스에 제공하는 이점을 평가하십시오. 매일 모델을 새로 고치고 향상시킬 수있는 회사는 분기별로 실적을 향상시킬 수 있습니다.

이 문제에는 간단한 대답이 있다고 생각할 수 있습니다. 운영 비용 (OPEX) 및 자본 지출 (CAPEX) 승인에 대해 CIO에게 더 많은 데이터를 제공하여 더 나은 모델을 만들고 다른 70 %의 데이터를 의사 결정 모델.

당신은 심지어이 투자가 더 나은 사기 탐지로 비용을 지불 할 것이라고 생각할 수도 있습니다. 그러나이 접근 방식의 문제점은 알 수없는

데이터에 침투해야하는 높은 초기 비용입니다. 여기에는 진정으로 가치있는 통찰력이 있는지 여부를 알지 못합니다. 예를 들어, 데이터웨어 하우스의 크기를 3 배로 늘리면 구조화 된 기록 데이터에 더 많은 액세스를 제공하여 모델을 미세 조정할 수 있지만 소셜 미디어 버스트를 수용 할 수는 없습니다. 전통적인 기술은 민첩하지 못합니다. 하둡 (Hadoop)은 모델에 새로운 변수를 쉽게 적용 할 수있게 해 주며, 모델에 대한 개선을하지 않을 경우 데이터를 버리고 계속 진행할 수 있습니다.