빅 데이터 용 분석 및 추출 기술

비디오: 분석용 데이터 탐색(무료 강의) 2024

일반적으로 큰 데이터를위한 텍스트 분석 솔루션은 통계 및 NLP (Natural Language Processing) 기술을 결합하여 구조화되지 않은 데이터에서 정보를 추출합니다. NLP는 지난 20 년 동안 개발 한 광범위하고 복잡한 분야입니다.

NLP의 주요 목표는 텍스트에서 의미를 도출하는 것입니다. 자연 언어 처리는 일반적으로 문법 구조 및 품사와 같은 언어 개념을 사용합니다. 종종 이런 유형의 분석의 배경은 누구에게 누가, 언제, 어디서, 어떻게, 그리고 왜했는지를 결정하는 것입니다.

어휘 / 형태소 분석

은 접두어, 접미사, 뿌리 및 품사 (명사, 동사, 형용사 등) - 제공된 텍스트의 맥락에서 단어의 의미를 이해하는 데 도움이되는 정보. 어휘 분석은 사전, 동의어 사전 또는 해당 단어에 대한 정보를 제공하는 단어 목록에 따라 다릅니다. 은 문법적 구조를 사용하여 텍스트를 분석하고 개별 단어를 문맥에 넣습니다. 여기에서는 한 단어에서 구 또는 전체 문장으로 시선을 넓히고 있습니다. 이 단계는 단어 (문법) 사이의 관계를 설명하거나 올바른 문장을 형성하는 단어의 순서를 찾거나 날짜 또는 금전적 가치를 나타내는 일련의 숫자를 찾습니다.
의미 론적 분석
은 문장의 가능한 의미를 결정합니다. 여기에는 단어 순서와 문장 구조를 검사하고 문구, 문장 및 단락에있는 구문을 관련시켜 명확한 단어를 포함 할 수 있습니다.
담화 수준 분석 은 문장 수준을 넘어서는 텍스트의 의미를 결정하려고 시도합니다.
큰 데이터에서 추출한 정보 이해 텍스트 문서의 태그 및 마크 업을 자동화하기 위해 다른 통계 또는 언어 기술과 결합 된 특정 기술은 다음과 같은 종류의 정보를 추출 할 수 있습니다.

조건:

다른 키워드 이름

엔티티: 종종
명명 된 엔티티 , 는 추상화의 구체적인 예입니다. 예를 들어 사람 이름, 회사 이름, 지리적 위치, 연락처 정보, 날짜, 시간, 통화, 제목 및 직위 등이 있습니다. 예를 들어, 텍스트 분석 소프트웨어는 분석중인 텍스트에서 언급 된 사람으로 Jane Doe 엔티티를 추출 할 수 있습니다. 엔터티 2007 년 3 월 3 일 은 날짜로 추출 할 수 있습니다. 사실: 또한
관계 , 사실은 두 개체 사이의 관계를 나타냅니다. 존 스미스 (John Smith)는 회사 Y 의 CEO이며 아스피린은 발열을 줄인다. 는 사실의 예이다. 이벤트: 일부 전문가는 사실
, 관계 , 및 이벤트 를 번갈아 사용하지만 다른 것들은 이벤트와 사실을 구별하며, 이벤트에는 대개 시간 차원이 포함되어 있으며 사실을 변경하게됩니다. 예를 들어 회사 내에서의 경영 변화 또는 판매 프로세스의 상태가 포함됩니다. 개념: 이들은 사용자가 관련된 특정 아이디어 또는 주제를 나타내는 단어 및 구의 집합입니다. 예를 들어, 불행한 고객
이라는 단어에는 분노, 실망, 및 혼동 이라는 문구가 포함될 수 있으며 와 많은 돈을 낭비합니다. 따라서 불행한 고객 은 텍스트에 불행한 또는 고객 이 표시되지 않고 추출 될 수 있습니다. 센티멘션: 센티멘트 분석은 기본 텍스트의 견해 또는 감정을 식별하는 데 사용됩니다. 일부 기술은 기계 학습 또는 NLP 기술을 사용하여 텍스트를 예를 들어 주관적 (의견) 또는 객관적 (사실)으로 분류하여이를 수행합니다. 감정 분석은 "고객의 목소리"응용 프로그램에서 널리 사용됩니다. 빅 데이터 분류학 분류학은 텍스트 분석에 종종 중요합니다.
택 소노 미 는 정보를 계층 적 관계로 구성하는 방법입니다. 때로는 카테고리 구성 방법이라고도합니다. Taxonomy는 회사에서 사용하는 용어 간의 관계를 정의하므로 텍스트를 쉽게 찾고 분석 할 수 있습니다. 예를 들어, 통신 서비스 제공자는 유무선 서비스를 제공한다. 무선 서비스에서 회사는 휴대폰과 인터넷 액세스를 지원할 수 있습니다. 회사는 계획 및 전화 유형과 같은 휴대 전화 서비스를 분류하는 두 가지 이상의 방법을 가질 수 있습니다. 택 소노 미는 전화 자체의 모든 부분까지 도달 할 수 있습니다. 택 소노 미 (taxonomy)는 휴대폰, 휴대 전화, 휴대 전화가 모두 동일하다는 것을 인식하여 동의어와 대체 표현을 사용할 수 있습니다. 이러한 택 소노 미는 상당히 복잡 할 수 있으며 개발하는 데 오랜 시간이 걸릴 수 있습니다.