비디오: Cloudera - 차세대 빅데이터 스토리지 솔루션 (feat.Kudu) 2024
이미지 분류를 요구합니다 그러나 상당량의 데이터 처리 리소스가 배포 규모를 제한했습니다. 하둡 (Hadoop)이 등장 할 때까지 거대하고 효율적인 규모로 이러한 비싼 프로세싱을 할 수있는 주류 기술이 없었기 때문에 이미지 분류는 하둡 세계에서 가장 뜨거운 주제입니다.
이미지 분류는 훈련 세트를 만들고 컴퓨터가 자신이보고있는 것을 식별하고 분류하는 방법을 배우는 개념으로 시작됩니다. 더 많은 데이터를 보유하는 것이 사기 탐지 및 위험 모델을 개선하는 것과 마찬가지로 시스템이 이미지를 더 잘 분류하는 데 도움이됩니다.
이 유스 케이스에서는 모델이 분류 자일뿐만 아니라 훈련 집합이라고도합니다. 분류 자 는 사운드, 이미지 또는 비디오 내의 특징 또는 패턴을 인식하고 적절하게 분류합니다. 분류 기준은 정확도 (정확도) 및 회수 점수 (적용 범위 측정)가 높도록 훈련 세트에서 반복적으로 세분화됩니다.
Hadoop은 분류 기준 모델을 작성하는 대규모 병렬 처리 환경을 제공 할뿐 아니라 대량의 비정형 데이터 볼륨에서 이러한 분류 기준을 처리하고 실행할 수있는 무한한 확장 성을 제공하기 때문에 이미지 분류에 매우 적합합니다.
YouTube, Facebook, Instagram 및 Flickr과 같은 멀티미디어 소스를 고려하십시오. 모두 구조화되지 않은 이진 데이터의 출처입니다. 이 그림은 Hadoop을 사용하여 멀티미디어 의미 분류를 위해 대량의 저장된 이미지 및 비디오의 처리를 스케일 할 수있는 한 가지 방법을 보여줍니다.
Hadoop 프로세싱 프레임 워크와 관련된 모든 개념이이 데이터에 어떻게 적용되는지 확인할 수 있습니다. 이미지가 HDFS로로드되는 방법에 유의하십시오. 시간이 지남에 따라 작성된 분류 기준 모델이 이제이 솔루션의지도 단계에있는 추가 이미지 - 피쳐 구성 요소에 적용됩니다. 오른쪽 하단에서 볼 수 있듯이이 처리 결과는 만화부터 스포츠 및 위치에 이르기까지 다양한 이미지 분류로 구성됩니다.
Hadoop은 오디오 또는 음성 분석에도 사용할 수 있습니다. 우리가 작업하는 보안 업계의 한 고객은 음향이 풍부한 광섬유 케이블을 통해 들리는 소리를 원자로 경계선에 배치하는 오디오 분류 시스템을 만듭니다. 예를 들어,이 시스템은 인간의 목소리 속삭임과 비교하여 바람의 속삭임을 거의 즉각적으로 분류하는 방법 또는 경계 공원에서 실행되는 인간 발자국의 소리를 야생 동물의 소리와 구별하는 방법을 알고 있습니다.
이 설명에는
스타 트랙 느낌이들 수도 있지만 실제 예제를 볼 수 있습니다. 실제로 IBM은 IBM Multimedia Analysis and Retrieval System (IMARS)을 통해 전 세계에서 가장 큰 이미지 분류 시스템 중 하나를 공개합니다. 알파인 스키 용어에 대한 IMARS 검색 결과입니다.
그림의 상단에서 관련 태그 클라우드와 함께 Hadoop에서 처리 한 이미지 세트에 매핑 된 분류 기준의 결과를 볼 수 있습니다. 더 세분화 된 것이 아니라,보다 조잡하게 정의 된 부모 분류자를 주목하십시오. 실제로 여러 개의 분류 단계 (롤업)가 있습니다. 롤업은 분류기 모델에 의해 자동으로 생성되고 Hadoop을 사용하여 작성되고 점수가 매겨집니다. 이 사진들에는 추가 된 메타 데이터가 없습니다. 어느 누구도 iPhoto를 열었을 때 겨울 스포츠로 이미지를 태그하여 이미지를 분류에 표시하지 않습니다. 그것은 겨울의 환경에서 행해지는 스포츠의 이미지 속성과 특성을 인식하도록 제작 된 겨울 스포츠 분류 자입니다.
이미지 분류에는 많은 응용 프로그램이 있으며 Hadoop을 사용하여 대규모 분류에서이 분류를 수행 할 수 있으므로 다른 응용 프로그램에서 이미지 용으로 생성 된 분류 정보를 사용할 수 있기 때문에 분석 가능성이 높아집니다.
보건 산업에서 본 사례를 살펴보십시오. 아시아의 대형 보건 기관은 대규모 육지 전역에 분산되어있는 농촌 인구에게 이동 진료소를 통해 의료 서비스를 제공하는 데 주력했습니다. 해당 기관이 직면 한 중대한 문제는 모바일 클리닉에서 생성 된 의료 이미징 데이터를 분석하는 병참 문제였습니다.
방사선 전문의는 희소 한 자원이므로이 의료 영상을 전자적으로 중앙 지점으로 전송하고 의사 군대가이를 검사하도록합니다. 그러나 이미지를 검사하는 의사들은 과부하가 걸렸다.
기관은 현재 의사가 검증 할 수있는 제안을 효과적으로 제공 할 수있는 조건을 파악하는 데 도움이되는 분류 시스템을 개발 중입니다. 초기 테스트에서는 누락되거나 부정확 한 진단 횟수를 줄이고 시간, 돈 및 모든 삶의 대부분을 절약하는 데 도움이되는이 전략을 보여주었습니다.