데이터 과학 : 요인 및 주요 구성 요소 분석 수행을위한 Python 사용 - 더미 과학 연구가

데이터 과학자는 요인 및 주성분 분석을 수행하기 위해 Python을 사용할 수 있습니다. SVD는 데이터의 숫자 값에서 직접 작동하지만 변수 간의 관계로 데이터를 표현할 수도 있습니다. 각 기능에는 일정한 차이가 있습니다. 평균 주위의 분산 측정 값으로 변동성을 계산할 수 있습니다. 분산이 클수록 변수에 포함 된 정보가 많아집니다.

또한 변수를 집합에 배치하면 두 변수의 분산을 비교하여 상관 관계가 있는지 여부를 결정할 수 있습니다.이 값은 비슷한 값을 얼마나 강하게 측정했는지를 나타냅니다.

변수의 가능한 상관 관계와 집합의 다른 상관 관계를 모두 확인하면 두 가지 유형의 분산이 있음을 알 수 있습니다.

고유 분산: 일부 분산은 고유합니다. 검사중인 변수. 다른 변수에 어떤 일이 발생하는지는 연관 지을 수 없습니다.
공유 분산: 일부 분산은 하나 이상의 다른 변수와 공유되어 데이터에 중복성을 생성합니다. 중복성은 다양한 기능과 많은 관찰을 통해 약간 다른 값을 가진 동일한 정보를 찾을 수 있음을 의미합니다.

물론, 다음 단계는 공유 분산에 대한 이유를 결정하는 것입니다. 그러한 질문에 답하는 것은 물론 고유하고 공유 된 차이를 다루는 방법을 결정하는 것은 요인 및 주요 구성 요소 분석의 창출로 이어졌습니다. 심리 측정 모델 고려

많은 기계 학습 알고리즘이 생각되기 오래 전부터 심리적 측정과 관련된 심리학 분야 인

psychometrics 는 효과적으로 치수 측정을위한 통계적 솔루션을 찾으려고 시도했습니다 성격 상. 인간의 다른 측면과 마찬가지로 인간의 성격은 직접 측정 할 수 없습니다. 예를 들어, 사람이 내향성 또는 지성을 얼마나 정확하게 측정 할 수 없는지를 나타냅니다. 설문지와 심리 테스트는 이러한 가치에 대해서만 암시합니다. 요인 분석

을 만들었습니다! 데이터에 직접 SVD를 적용하는 대신, 모든 정보를 압축하고 999 라는 새로운 유용한 기능을 복구하기 위해 공통 분산을 추적하여 새로 생성 된 행렬에 적용했습니다.. 숨겨진 요인 찾기 요인 분석을 사용하는 방법을 보여주는 좋은 방법은 아이리스 데이터 집합으로 시작하는 것입니다. sklearn에서. 데이터 세트는 sklearn에서 load_iris를 가져옵니다. decomposition import FactorAnalysis 홍채 = load_iris () X, y = 홍채. 데이터, 홍채. 목표 인자 = FactorAnalysis (n_components = 4, random_state = 101). fit (X) 데이터를로드하고 모든 예측 피처를 저장 한 후 FactorAnalysis 클래스는 네 가지 요소를 찾기위한 요청으로 초기화됩니다. 그런 다음 데이터가 적용됩니다. 행에 배치 된 새로 작성된 요소와 열에 배치 된 원래 기능 간의 관계에 대한 측정 값을 포함하는 배열을 반환하는 components_ 속성을 관찰하여 결과를 탐색 할 수 있습니다. 각 인자와 특징의 교차점에서 양수는 양수가 양수가 양수인 사이에 존재 함을 나타냅니다. 대신에 음수는 발산하고 하나는 다른 것에 반하는 것이라고 지적합니다.

데이터에 존재하는 요소의 수를 알 수 없으므로 다른 값의 n_components를 테스트해야합니다. 알고리즘이 존재하는 것보다 더 많은 요소에 필요하면 components_ 배열에 값이 낮은 인수가 생성됩니다. pdf pdf로

import pandas. DataFrame (factor. components_, columns = iris. feature_names) sepal 길이 (cm) sepal 너비 (cm) 꽃잎 길이 (cm) 꽃잎 너비 (cm) 0 0. 707227 -0. 153147 1. 653151 0. 701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0. 000000 0. 000000 -0. 000000

예를 들어 아이리스 데이터 세트의 테스트에서 결과 요소는 원래의 기능과 중요한 연결을 가진 요소가 두 개뿐이기 때문에 최대 값은 4가 아니라 최대 값 2 여야합니다. 이 두 가지 요소는 프로젝트에서 새 변수로 사용할 수 있습니다. 그 이유는 이전에 사용 가능한 데이터 만 암시 한 눈에 보이지 않지만 중요한 기능을 반영하기 때문입니다.

요인이 아닌 구성 요소 사용

SVD를 일반 분산에 성공적으로 적용 할 수있는 경우 모든 분산에 SVD를 적용 할 수없는 이유가 궁금 할 수 있습니다. 약간 수정 된 시작 행렬을 사용하면 데이터의 모든 관계가 SVD의 수행 방식과 비슷한 방식으로 축소 및 압축 될 수 있습니다.

SVD와 매우 유사한이 과정의 결과를

주성분 분석

(PCA)이라고합니다. 새로 생성 된 기능의 이름은

구성 요소

입니다. 요소와 달리 구성 요소는 데이터 구조의 근본 원인으로 설명되지 않고 재구성 된 데이터 일 뿐이므로 선택한 변수를 크고 스마트하게 요약하여 볼 수 있습니다. 데이터 과학 분야에서 PCA와 SVD는 매우 유사합니다. 그러나 PCA는 원래 기능의 척도에 영향을받지 않습니다 (-1과 +1 값 사이의 모든 상관 관계 측정에 적용되기 때문에). PCA는 변수 간의 관계를 다시 작성하는 데 주력하므로 SVD의 결과가 다릅니다.

차원 감소 달성 PCA를 얻는 절차는 요인 분석과 매우 유사합니다.차이점은 추출 할 구성 요소의 수를 지정하지 않는다는 것입니다. explain_variance_ratio_ 속성을 확인한 후에 유지할 구성 요소의 수를 나중에 결정합니다. 이는 추출 된 각 구성 요소의 유익한 값을 정량화합니다. 다음 예제에서는이 작업을 수행하는 방법을 보여줍니다. sklearn의 분해 수입 PCA 수입 판다를 pd pca = PCA (). fit (X) print '구성 요소 별 설명 된 분산: % s'% pca. explain_variance_ratio_ print pd. DataFrame (구성 요소 _, 열 = 아이리스. 기능 _ 이름) 구성 요소별로 설명 된 분산: [0. (cm) 페탈 길이 (cm) 페탈 폭 (cm) 0 0. 361590 -0. 082269 0. 856572 0. 358844 1 -0. 656540 -0. 729712 0. 175767 0. 074706 2 0. 580997 -0. 596418 -0. 072524 -0. 549061 3 0. 317255 -0. 324094 -0. 479719 0. 751121 아이리스 데이터 집합의 이러한 분해에서, explain_variance_ratio_에 의해 제공된 벡터 배열은 대부분의 정보가 첫 번째 구성 요소 (92.5 %)에 집중되어 있음을 나타냅니다. 따라서 전체 데이터 세트를 단지 두 개의 구성 요소로 축소 할 수 있으므로 원본 데이터 세트의 노이즈 및 중복 정보를 줄일 수 있습니다.