기계 학습을위한 벡터 간의 유사성 측정 - 더미

비디오: 7 1 Clustering I 2024

벡터로 생각하면 계산을 사용하여 데이터의 예제를 쉽게 비교할 수 있습니다. 다음 정보는 학습 목적으로 벡터 간의 거리를 계산하는 등의 작업을 수행하기 위해 벡터 간의 유사성을 측정하는 방법을 설명합니다.

유사성 이해

벡터 형식에서는 예제의 각 변수를 일련의 좌표로 볼 수 있으며 각 변수는 다른 공간 차원의 위치를 가리 킵니다. 벡터에 두 개의 요소가있는 경우, 즉 두 개의 변수 만 있으면 작업 할 수 있습니다.이 값은 East-West 축의 위치에 첫 번째 숫자를 사용하고 North-West 축의 첫 번째 숫자를 사용하여지도에서 항목의 위치를 확인하는 것과 같습니다. 남쪽 축.

차트의 값으로 플롯 된 값의 예.

예를 들어 괄호 (1,2) (3,2)와 (3,3) 사이의 숫자는 모두 점의 예입니다. 각 예제는 x (가로 축) 및 y (가로 축)에 대한 목록의 첫 번째 값을 사용하여지도에 쉽게 배치하고 인쇄 할 수있는 정렬 된 값 목록 (튜플이라고 함)입니다. 결과는 산점도입니다.

다차원성에 대해 걱정하지 마십시오. 2 차원 또는 3 차원에서 배운 규칙을 여러 차원으로 확장하므로 규칙이 2 차원 공간에서 작동하면 여러 차원에서 작동합니다. 그러므로 모든 예들은 처음에 2 차원적인 예들을 언급한다.

학습을위한 계산 거리

알고리즘은 거리 측정을 사용하는 수의 벡터를 사용하여 학습 할 수있다. 벡터에 의해 암시 된 공간은 거리가 특정 조건을 존중하는 공간 인 미터법입니다:

음수 거리가 없으며 시작점과 끝점이 일치 할 때만 거리가 제로입니다 (

비대칭

). 거리는 한 점에서 다른 점으로 향하는 것과 같고 그 반대도 마찬가지입니다 (symmetry
라고 함). 초기 점과 최종 점 사이의 거리는 초기 점에서부터 세 번째 점까지 그리고 마지막 점에서 마지막 점까지의 거리보다 항상 크거나 같지 않다 (삼각형 부등식 < - 바로 가기가 없음을 의미). 미터법 공간을 측정하는 거리는 유클리드 거리, 맨하탄 거리 및 체비 셰프 거리입니다. 이것들은 숫자 벡터에 적용 할 수있는 모든 거리입니다.
유클리드 거리 (Euclidean distance) 가장 일반적인 것은 유클리드 거리이며 두 벡터의 l2 놈으로도 설명됩니다 (l1, l2 및 linfinity 놈의 설명을 참조하십시오). 2 차원 평면에서 유클리드 거리는 두 점을 연결하는 직선으로 재구성되며 두 벡터의 요소 사이의 차의 제곱의 합을 제곱근으로 계산합니다. 위의 그림에서 점 (1, 2)과 (3, 3) 사이의 유클리드 거리는 sqrt ((1-3) ^ 2 + (2-3) ^ 2)로 R에서 계산할 수 있습니다. 거리의 약 2 236. 맨하탄 거리

또 다른 유용한 측정 값은 맨하탄 거리 (두 벡터의 11 표준으로 설명 됨)입니다. 벡터의 요소 간 차이의 절대 값을 합산하여 맨하탄 거리를 계산합니다. 유클리드 거리가 최단 경로를 표시하면 맨해튼 거리는 도시에서 이동하는 택시의 방향과 비슷하게 가장 긴 경로를 표시합니다. (거리는 택시 또는 도시 블록 거리라고도합니다.) 예를 들어, 포인트 (1, 2)와 (3,3) 사이의 맨하탄 거리는 abs (1-3)이고 abs Chebyshev distance