기계 학습에서 등급 데이터의 한계

비디오: 통계는 왜 윤리의 미래인가? 2024

등급 데이터는 기계 학습에 한계가 있습니다.) 추천 시스템이 잘 작동하려면 고객과 마찬가지로 다른 사람에 대해서도 알아야합니다. 등급 데이터를 취득하면 추천 시스템이 여러 고객의 경험을 통해 학습 할 수 있습니다. 등급 데이터는 판단 (예: 별 또는 숫자를 사용하여 제품 등급 지정) 또는 사실 (간단히 이진 1/0

데이터 소스 또는 유형에 관계없이 평가 데이터는 항상 행동에 관한 것입니다. 영화를 평가하기 위해서는 영화를 본 경험에 따라 영화를 보거나보고 나서 영화를 평가해야합니다. 실제 추천 시스템은 평가 데이터에서 다양한 방식으로 학습합니다:

협업 필터링: 일치 이전에 사용 된 영화 또는 제품 유사성을 기반으로 한 평가자. 항목을 기반으로 추천을 얻을 수 있습니다. 너와 비슷한 사람이나 좋아하는 사람이 좋아하는 것.
콘텐츠 기반 필터링: 영화를 본다는 사실을 넘어서십시오. 이 기능은 사용자와 영화를 기준으로 해당 기능을 검사하여 해당 기능이 나타내는 더 큰 범주를 기반으로 일치하는 항목이 있는지 확인합니다. 예를 들어, 당신이 액션 영화를 좋아하는 여성이라면, 추천인은이 두 범주의 교차점을 포함하는 제안을 찾을 것입니다.
지식 기반 권장 사항: 사용자가 표현한 선호도 및 제품 설명과 같은 메타 데이터를 기반으로합니다. 컴퓨터 학습에 의존하며 사용자 또는 제품 특성을 결정할만큼 충분한 행동 데이터가 없을 때 효과적입니다. 이를 콜드 스타트 라고하며 협업 필터링 또는 콘텐츠 기반 필터링에 액세스 할 수 없기 때문에 가장 어려운 추천 작업 중 하나입니다.

협업 필터링을 사용할 때 유사성을 계산해야합니다. 유클리드 (Euclidean), 맨해튼 (Manhattan), 체비 셰프 (Chebyshev) 거리와 별개로 나머지 정보는 코사인 유사성을 설명합니다. 코사인 유사성 은 두 벡터 사이의 각 코사인 거리를 측정합니다.이 거리는 파악하기 어려운 개념처럼 보일 수 있지만 데이터 공간의 각도를 측정하는 방법 일뿐입니다.

두 개의 포인트를 가진 피처로 이루어진 공간을 상상해보십시오. 포인트 간의 거리를 측정 할 수 있습니다. 예를 들어, 유클리드 거리를 사용할 수 있습니다. 이는 치수가 거의없는 경우 완벽한 선택이지만 치수의 저주로 인해 여러 개의 치수가있을 때 비참하게 실패합니다.

Star Wars에 배치합니다.

printL (colnames (MovieLense [50])) [1] "스타 워즈 (1977)"

similar_movies <- 유사성 (MovieLense [50],

(1995 년) "토이 스토리 (1995)"

"코사인",

= "items")

colnames (similar_movies) [which (similar_movies> 0.70) "제국의 반격, (1980)"

[3] "잃어버린 방주의 해적 (1981)"

"제다이의 귀환 (1983)"