개인 재정 데이터 과학 : 요인 및 주요 구성 요소 분석 수행을위한 Python 사용 - 더미 과학 연구가

데이터 과학 : 요인 및 주요 구성 요소 분석 수행을위한 Python 사용 - 더미 과학 연구가

차례:

비디오: 7 1 Clustering I 2024

비디오: 7 1 Clustering I 2024
Anonim

데이터 과학자는 요인 및 주성분 분석을 수행하기 위해 Python을 사용할 수 있습니다. SVD는 데이터의 숫자 값에서 직접 작동하지만 변수 간의 관계로 데이터를 표현할 수도 있습니다. 각 기능에는 일정한 차이가 있습니다. 평균 주위의 분산 측정 값으로 변동성을 계산할 수 있습니다. 분산이 클수록 변수에 포함 된 정보가 많아집니다.

또한 변수를 집합에 배치하면 두 변수의 분산을 비교하여 상관 관계가 있는지 여부를 결정할 수 있습니다.이 값은 비슷한 값을 얼마나 강하게 측정했는지를 나타냅니다.

변수의 가능한 상관 관계와 집합의 다른 상관 관계를 모두 확인하면 두 가지 유형의 분산이 있음을 알 수 있습니다.

  • 고유 분산: 일부 분산은 고유합니다. 검사중인 변수. 다른 변수에 어떤 일이 발생하는지는 연관 지을 수 없습니다.

  • 공유 분산: 일부 분산은 하나 이상의 다른 변수와 공유되어 데이터에 중복성을 생성합니다. 중복성은 다양한 기능과 많은 관찰을 통해 약간 다른 값을 가진 동일한 정보를 찾을 수 있음을 의미합니다.

물론, 다음 단계는 공유 분산에 대한 이유를 결정하는 것입니다. 그러한 질문에 답하는 것은 물론 고유하고 공유 된 차이를 다루는 방법을 결정하는 것은 요인 및 주요 구성 요소 분석의 창출로 이어졌습니다. 심리 측정 모델 고려

많은 기계 학습 알고리즘이 생각되기 오래 전부터 심리적 측정과 관련된 심리학 분야 인

psychometrics 는 효과적으로 치수 측정을위한 통계적 솔루션을 찾으려고 시도했습니다 성격 상. 인간의 다른 측면과 마찬가지로 인간의 성격은 직접 측정 할 수 없습니다. 예를 들어, 사람이 내향성 또는 지성을 얼마나 정확하게 측정 할 수 없는지를 나타냅니다. 설문지와 심리 테스트는 이러한 가치에 대해서만 암시합니다. 요인 분석

을 만들었습니다! 데이터에 직접 SVD를 적용하는 대신, 모든 정보를 압축하고 999 라는 새로운 유용한 기능을 복구하기 위해 공통 분산을 추적하여 새로 생성 된 행렬에 적용했습니다.. 숨겨진 요인 찾기 요인 분석을 사용하는 방법을 보여주는 좋은 방법은 아이리스 데이터 집합으로 시작하는 것입니다. sklearn에서. 데이터 세트는 sklearn에서 load_iris를 가져옵니다. decomposition import FactorAnalysis 홍채 = load_iris () X, y = 홍채. 데이터, 홍채. 목표 인자 = FactorAnalysis (n_components = 4, random_state = 101). fit (X) 데이터를로드하고 모든 예측 피처를 저장 한 후 FactorAnalysis 클래스는 네 가지 요소를 찾기위한 요청으로 초기화됩니다. 그런 다음 데이터가 적용됩니다. 행에 배치 된 새로 작성된 요소와 열에 배치 된 원래 기능 간의 관계에 대한 측정 값을 포함하는 배열을 반환하는 components_ 속성을 관찰하여 결과를 탐색 할 수 있습니다. 각 인자와 특징의 교차점에서 양수는 양수가 양수가 양수인 사이에 존재 함을 나타냅니다. 대신에 음수는 발산하고 하나는 다른 것에 반하는 것이라고 지적합니다.

데이터에 존재하는 요소의 수를 알 수 없으므로 다른 값의 n_components를 테스트해야합니다. 알고리즘이 존재하는 것보다 더 많은 요소에 필요하면 components_ 배열에 값이 낮은 인수가 생성됩니다. pdf pdf로

import pandas. DataFrame (factor. components_, columns = iris. feature_names) sepal 길이 (cm) sepal 너비 (cm) 꽃잎 길이 (cm) 꽃잎 너비 (cm) 0 0. 707227 -0. 153147 1. 653151 0. 701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0. 000000 0. 000000 -0. 000000

예를 들어 아이리스 데이터 세트의 테스트에서 결과 요소는 원래의 기능과 중요한 연결을 가진 요소가 두 개뿐이기 때문에 최대 값은 4가 아니라 최대 값 2 여야합니다. 이 두 가지 요소는 프로젝트에서 새 변수로 사용할 수 있습니다. 그 이유는 이전에 사용 가능한 데이터 만 암시 한 눈에 보이지 않지만 중요한 기능을 반영하기 때문입니다.

요인이 아닌 구성 요소 사용

SVD를 일반 분산에 성공적으로 적용 할 수있는 경우 모든 분산에 SVD를 적용 할 수없는 이유가 궁금 할 수 있습니다. 약간 수정 된 시작 행렬을 사용하면 데이터의 모든 관계가 SVD의 수행 방식과 비슷한 방식으로 축소 및 압축 될 수 있습니다.

SVD와 매우 유사한이 과정의 결과를

주성분 분석

(PCA)이라고합니다. 새로 생성 된 기능의 이름은

구성 요소

입니다. 요소와 달리 구성 요소는 데이터 구조의 근본 원인으로 설명되지 않고 재구성 된 데이터 일 뿐이므로 선택한 변수를 크고 스마트하게 요약하여 볼 수 있습니다. 데이터 과학 분야에서 PCA와 SVD는 매우 유사합니다. 그러나 PCA는 원래 기능의 척도에 영향을받지 않습니다 (-1과 +1 값 사이의 모든 상관 관계 측정에 적용되기 때문에). PCA는 변수 간의 관계를 다시 작성하는 데 주력하므로 SVD의 결과가 다릅니다.

차원 감소 달성 PCA를 얻는 절차는 요인 분석과 매우 유사합니다.차이점은 추출 할 구성 요소의 수를 지정하지 않는다는 것입니다. explain_variance_ratio_ 속성을 확인한 후에 유지할 구성 요소의 수를 나중에 결정합니다. 이는 추출 된 각 구성 요소의 유익한 값을 정량화합니다. 다음 예제에서는이 작업을 수행하는 방법을 보여줍니다. sklearn의 분해 수입 PCA 수입 판다를 pd pca = PCA (). fit (X) print '구성 요소 별 설명 된 분산: % s'% pca. explain_variance_ratio_ print pd. DataFrame (구성 요소 _, 열 = 아이리스. 기능 _ 이름) 구성 요소별로 설명 된 분산: [0. (cm) 페탈 길이 (cm) 페탈 폭 (cm) 0 0. 361590 -0. 082269 0. 856572 0. 358844 1 -0. 656540 -0. 729712 0. 175767 0. 074706 2 0. 580997 -0. 596418 -0. 072524 -0. 549061 3 0. 317255 -0. 324094 -0. 479719 0. 751121 아이리스 데이터 집합의 이러한 분해에서, explain_variance_ratio_에 의해 제공된 벡터 배열은 대부분의 정보가 첫 번째 구성 요소 (92.5 %)에 집중되어 있음을 나타냅니다. 따라서 전체 데이터 세트를 단지 두 개의 구성 요소로 축소 할 수 있으므로 원본 데이터 세트의 노이즈 및 중복 정보를 줄일 수 있습니다.

데이터 과학 : 요인 및 주요 구성 요소 분석 수행을위한 Python 사용 - 더미 과학 연구가

편집자의 선택

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

로 자동 채우기 Word 2003의 상용구 기능은 자동으로 단어 쓰기를 완료합니다. 철자하기 시작 했어. 당신이 영웅으로 크리스토퍼를 특징으로하는 다음 Great American Novel을 쓰고 있다고합시다. Christopher 철자를 반복해서 쓰는 대신 이름의 몇 글자 만 입력하면 팝업 상자가 나타납니다. 그것은 말한다 : 크리스토퍼 : (삽입하려면 Enter 키를 누릅니다). ...

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항은 파일 탭을 클릭하면 파일 메뉴가 열립니다. Backstage보기라고합니다. Backstage보기는 작업중인 데이터 파일과 관련된 명령 (예 : 저장, 열기, 인쇄, 우편 발송 및 속성 확인)에 대한 액세스를 제공합니다. Backstage보기를 종료하려면 다른 탭을 클릭하거나 ...

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

당신은 여러모로 그 모양을 조정할 수 있습니다. 가장 쉬운 방법은 다이어그램에 적용된 빠른 스타일을 변경하는 것입니다. 빠른 스타일은 단순히 색상 및 모양 효과와 같은 서식 요소 모음을 구성하는 요소 중 일부에 할당됩니다.

편집자의 선택

실습 초등 교육 시험 - 실습 - 실습

실습 초등 교육 시험 - 실습 - 실습

Praxis 초등 교육 시험에는 commutative, associative, distributive 및 substitution의 4 가지 주요 속성을 이해해야합니다. 교환 가능 속성 및 결합 속성에는 더하기 및 곱하기 버전이 있습니다. 세 개 이상의 숫자가 추가되면 추가되는 순서는 중요하지 않습니다. 그 합계 ...

초등 교육 시험 문장 구조 - 더미

초등 교육 시험 문장 구조 - 더미

초등학교 교사는 문장의 다른 부분뿐만 아니라 문장의 다른 종류. 예를 들어, Praxis 초등 교육 시험에 나오는 문장 구조에 관한 질문은 주제와 술어 또는 화합물과의 차이점을 알아야 할 수도 있습니다.

초등 교육 시험 작문 구조 - 인형

초등 교육 시험 작문 구조 - 인형

학생들은 공통 구조를 사용하여 작문을 구성한다. 인과 관계, 연대순, 비교 및 ​​계약. Praxis Elementary Education 시험은 귀하가 이러한 구조를 잘 알고 있어야합니다. 다음 목록에는 공통 구조 (사용되는 경우)와 자주 사용되는 단어가 링크되어 있습니다. 원인과 결과 ...

편집자의 선택

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 도면에는 여섯 가지 종류의 시트가 표시됩니다. 한 가지 방법은 모두를 대표하는 세 가지 표준 블록을 만드는 것입니다. 또는 단일 동적 블록을 만들고 세 가지 유형 모두를 포괄하는 가시성 상태를 정의 할 수 있습니다. 다음 단계에서는 블록을 두 배로 만드는 방법을 보여줍니다 (또는 트리플 ...).

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014를 사용하면 다중 지시선 MLeaDer 명령을 사용하여 동시에 지시선과 여러 줄 문자로 구성된 객체; 다음과 같은 간단한 단계를 따르십시오. 사용자의 필요에 따라 적절한 다중 지시선 스타일을 설정하십시오. 홈 탭의 다중 지시선 스타일 드롭 다운 목록에서 기존 스타일 선택 ...