예측 분석 데이터를 검색하는 방법

찾고자하는 정보를 찾는 방법을 알아야하는 예측 분석 데이터. 예측 분석에서 데이터를 사용할 준비에서 데이터를 검색하는 두 가지 기본 개념이 있습니다:

기본 키워드 검색을 넘어서 준비하기
데이터를 의미 론적으로 검색 가능하게하기

예측에 키워드 기반 검색을 사용하는 방법 analytics

많은 양의 데이터를 검색해야하는 경우를 상상해보십시오. 이 문제에 접근하는 한 가지 방법은 (분명히) 단어로 구성된 검색어를 발행하는 것입니다. 검색 도구는 데이터베이스, 데이터웨어 하우스에서 일치하는 단어를 찾거나 데이터가있는 텍스트를 뒤적 거리며 이동합니다.

다음 검색어를 사용한다고 가정 해보십시오. 미국 대통령이 아프리카를 방문합니다 . 검색 결과는 미국 대통령, 미국 방문, 아프리카 중 하나 또는 조합을 포함하는 텍스트로 구성됩니다. 찾고있는 정확한 정보를 얻을 수는 있지만 항상 그런 것은 아닙니다.

이전에 언급 한 단어가 포함되어 있지 않지만 다음과 같은 내용이 포함 된 문서는 어떻습니까? 오바마의 케냐 여행

처음 검색 한 단어는 거기에 없습니다. 그러나 검색 결과는 의미 상 (의미있게) 유용합니다. 어떻게 데이터를 의미 론적으로 검색 할 수 있도록 준비 할 수 있습니까? 전통적인 키워드 검색을 넘어서는 방법은 무엇입니까? 계속해서 읽으면 답을 찾을 수 있습니다. 의미 론적 검색 작업이 Anasse Bari가 주도한 프로젝트인데, 전 세계의 빈곤과 싸우는 것입니다.

이 프로젝트는 시장에서 기존의 대규모 엔터프라이즈 검색 및 분석을 조사하고 세계 은행 데이터를 구성 할 최첨단 프레임 워크를위한 프로토 타입을 작성하는 것을 목표로했습니다. 대부분은 문서, 출판물, 프로젝트 보고서의 비 구조적 컬렉션이었습니다, 요약 및 사례 연구.

이 엄청난 가치있는 지식은 세계 빈곤 퇴치를위한 은행의 주요 사명에 사용되는 자원입니다. 그러나 구조화되지 않았다는 사실 때문에 액세스, 캡처, 공유, 이해, 검색, 데이터 마이닝 및 시각화가 어려워집니다.

세계 은행은 전 세계에 많은 부서가있는 거대한 조직입니다. 주요 부서 중 하나는 프레임 워크를 갖기 위해 노력했으며 바리 팀이 세계 은행의 인적 개발 네트워크였던 것을 돕기 위해 자원을 할당 할 준비가되었습니다.

Human Development Network의 부회장은 모호성에서 비롯된 하나의 문제를 설명했습니다. 그의 부서는 전체적인 의미는 같지만 뉘앙스가 다른 여러 용어와 개념을 사용했습니다. 예를 들어, 기후학, 기후 변화, 가스 오존 파괴,

온실 가스 배출 과 같은 용어는 모두 의미 상으로 관련이 있지만 의미가 동일하지 않다. 그는 누군가가이 용어들을 검색 할 때 관련 개념을 포함하는 문서를 추출 할만큼 똑똑한 검색 기능을 원했습니다. 바리 팀이 선택한 기능의 프레임 워크는 소프트웨어 기반 솔루션 인 UIMA (Unstructured Information Management Architecture)였습니다. 원래 IBM Research에서 설계 한 UIMA는 Jeopardy 게임에서 우승 한 유명한 컴퓨터 인 IBM Watson을 지원하는 IBM Content Analytics와 같은 IBM 소프트웨어에서 사용할 수 있습니다. Bari 팀은 IBM Content Management 및 Enterprise Search의 재능있는 팀과 IBM Watson 팀과 협력하여이 프로젝트를 공동 작업했습니다.

UIM (Unstructured Information Management)

솔루션은 대용량의 비정형 정보 (텍스트, 오디오, 비디오, 이미지 등)를 분석하여 관련 지식을 발견, 구성 및 전달하는 소프트웨어 시스템입니다. 클라이언트 또는 응용 프로그램 최종 사용자.

도메인의 온톨로지 는 도메인과 관련된 개념 및 관련 용어의 배열입니다. UIMA 기반 솔루션은 온톨로지를 사용하여 데이터 서식 (텍스트, 음성, PowerPoint 프레젠테이션, 전자 메일, 비디오 등)에 관계없이 풍부한 검색을 가능하게하는 의미 적 태깅을 제공합니다. UIMA는 캡처 된 데이터에 다른 레이어를 추가 한 다음

메타 데이터 를 추가하여 구조화되고 의미 론적으로 검색 할 수있는 데이터를 식별합니다. 시맨틱 검색 은 UIMA가 구축 한 검색 가능한 데이터 공간에 나타나는 검색 용어의 문맥 적 의미에 기반합니다. 시맨틱 검색은 사용자 검색어가 검색어가 포함 된 문서뿐만 아니라 검색어와 의미 적으로 관련이있는 문서의 검색 결과를 반환하기 때문에 일반적인 키워드 기반 검색보다 정확합니다. 아프리카에서

생물 다양성을 검색하는 경우 생물 다양성

및 아프리카 와 같이 정확한 (키워드 기반) 검색 결과가 표시됩니다.. UIMA 기반의 시맨틱 검색은이 두 단어가 포함 된 문서뿐만 아니라 "아프리카의 식물 자원", "아프리카의 식물 자원", "아프리카의 식물 자원" 모로코 "또는"짐바브웨 유전 자원. 의미 론적 태그 지정과 온톨로지 사용을 통해 정보가 생성 된 언어 나 매체 (Word, PowerPoint, 전자 메일, 비디오 등)와 관계없이 정보가 의미 적으로 검색 가능하게됩니다. 이 솔루션은 데이터를 캡처하고, 구성하고, 교환하고, 의미 론적으로 검색 할 수있는 단일 허브를 제공합니다. 동의어 및 관련 용어 사전은 오픈 소스 (무료로 제공됨)입니다. 또는 도메인이나 데이터에 맞는 사전을 개발할 수 있습니다. 근원 단어와 해당 관련 단어, 동의어 및 더 넓은 용어로 스프레드 시트를 작성할 수 있습니다. 스프레드 시트는 IBM Content Analytics (ICA)와 같은 검색 도구에 업로드하여 엔터프라이즈 검색 및 컨텐츠 분석을 강화할 수 있습니다.