개인 재정 데이터 과학 : 요인 및 주요 구성 요소 분석 수행을위한 Python 사용 - 더미 과학 연구가

데이터 과학 : 요인 및 주요 구성 요소 분석 수행을위한 Python 사용 - 더미 과학 연구가

차례:

비디오: 7 1 Clustering I 2024

비디오: 7 1 Clustering I 2024
Anonim

데이터 과학자는 요인 및 주성분 분석을 수행하기 위해 Python을 사용할 수 있습니다. SVD는 데이터의 숫자 값에서 직접 작동하지만 변수 간의 관계로 데이터를 표현할 수도 있습니다. 각 기능에는 일정한 차이가 있습니다. 평균 주위의 분산 측정 값으로 변동성을 계산할 수 있습니다. 분산이 클수록 변수에 포함 된 정보가 많아집니다.

또한 변수를 집합에 배치하면 두 변수의 분산을 비교하여 상관 관계가 있는지 여부를 결정할 수 있습니다.이 값은 비슷한 값을 얼마나 강하게 측정했는지를 나타냅니다.

변수의 가능한 상관 관계와 집합의 다른 상관 관계를 모두 확인하면 두 가지 유형의 분산이 있음을 알 수 있습니다.

  • 고유 분산: 일부 분산은 고유합니다. 검사중인 변수. 다른 변수에 어떤 일이 발생하는지는 연관 지을 수 없습니다.

  • 공유 분산: 일부 분산은 하나 이상의 다른 변수와 공유되어 데이터에 중복성을 생성합니다. 중복성은 다양한 기능과 많은 관찰을 통해 약간 다른 값을 가진 동일한 정보를 찾을 수 있음을 의미합니다.

물론, 다음 단계는 공유 분산에 대한 이유를 결정하는 것입니다. 그러한 질문에 답하는 것은 물론 고유하고 공유 된 차이를 다루는 방법을 결정하는 것은 요인 및 주요 구성 요소 분석의 창출로 이어졌습니다. 심리 측정 모델 고려

많은 기계 학습 알고리즘이 생각되기 오래 전부터 심리적 측정과 관련된 심리학 분야 인

psychometrics 는 효과적으로 치수 측정을위한 통계적 솔루션을 찾으려고 시도했습니다 성격 상. 인간의 다른 측면과 마찬가지로 인간의 성격은 직접 측정 할 수 없습니다. 예를 들어, 사람이 내향성 또는 지성을 얼마나 정확하게 측정 할 수 없는지를 나타냅니다. 설문지와 심리 테스트는 이러한 가치에 대해서만 암시합니다. 요인 분석

을 만들었습니다! 데이터에 직접 SVD를 적용하는 대신, 모든 정보를 압축하고 999 라는 새로운 유용한 기능을 복구하기 위해 공통 분산을 추적하여 새로 생성 된 행렬에 적용했습니다.. 숨겨진 요인 찾기 요인 분석을 사용하는 방법을 보여주는 좋은 방법은 아이리스 데이터 집합으로 시작하는 것입니다. sklearn에서. 데이터 세트는 sklearn에서 load_iris를 가져옵니다. decomposition import FactorAnalysis 홍채 = load_iris () X, y = 홍채. 데이터, 홍채. 목표 인자 = FactorAnalysis (n_components = 4, random_state = 101). fit (X) 데이터를로드하고 모든 예측 피처를 저장 한 후 FactorAnalysis 클래스는 네 가지 요소를 찾기위한 요청으로 초기화됩니다. 그런 다음 데이터가 적용됩니다. 행에 배치 된 새로 작성된 요소와 열에 배치 된 원래 기능 간의 관계에 대한 측정 값을 포함하는 배열을 반환하는 components_ 속성을 관찰하여 결과를 탐색 할 수 있습니다. 각 인자와 특징의 교차점에서 양수는 양수가 양수가 양수인 사이에 존재 함을 나타냅니다. 대신에 음수는 발산하고 하나는 다른 것에 반하는 것이라고 지적합니다.

데이터에 존재하는 요소의 수를 알 수 없으므로 다른 값의 n_components를 테스트해야합니다. 알고리즘이 존재하는 것보다 더 많은 요소에 필요하면 components_ 배열에 값이 낮은 인수가 생성됩니다. pdf pdf로

import pandas. DataFrame (factor. components_, columns = iris. feature_names) sepal 길이 (cm) sepal 너비 (cm) 꽃잎 길이 (cm) 꽃잎 너비 (cm) 0 0. 707227 -0. 153147 1. 653151 0. 701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0. 000000 0. 000000 -0. 000000

예를 들어 아이리스 데이터 세트의 테스트에서 결과 요소는 원래의 기능과 중요한 연결을 가진 요소가 두 개뿐이기 때문에 최대 값은 4가 아니라 최대 값 2 여야합니다. 이 두 가지 요소는 프로젝트에서 새 변수로 사용할 수 있습니다. 그 이유는 이전에 사용 가능한 데이터 만 암시 한 눈에 보이지 않지만 중요한 기능을 반영하기 때문입니다.

요인이 아닌 구성 요소 사용

SVD를 일반 분산에 성공적으로 적용 할 수있는 경우 모든 분산에 SVD를 적용 할 수없는 이유가 궁금 할 수 있습니다. 약간 수정 된 시작 행렬을 사용하면 데이터의 모든 관계가 SVD의 수행 방식과 비슷한 방식으로 축소 및 압축 될 수 있습니다.

SVD와 매우 유사한이 과정의 결과를

주성분 분석

(PCA)이라고합니다. 새로 생성 된 기능의 이름은

구성 요소

입니다. 요소와 달리 구성 요소는 데이터 구조의 근본 원인으로 설명되지 않고 재구성 된 데이터 일 뿐이므로 선택한 변수를 크고 스마트하게 요약하여 볼 수 있습니다. 데이터 과학 분야에서 PCA와 SVD는 매우 유사합니다. 그러나 PCA는 원래 기능의 척도에 영향을받지 않습니다 (-1과 +1 값 사이의 모든 상관 관계 측정에 적용되기 때문에). PCA는 변수 간의 관계를 다시 작성하는 데 주력하므로 SVD의 결과가 다릅니다.

차원 감소 달성 PCA를 얻는 절차는 요인 분석과 매우 유사합니다.차이점은 추출 할 구성 요소의 수를 지정하지 않는다는 것입니다. explain_variance_ratio_ 속성을 확인한 후에 유지할 구성 요소의 수를 나중에 결정합니다. 이는 추출 된 각 구성 요소의 유익한 값을 정량화합니다. 다음 예제에서는이 작업을 수행하는 방법을 보여줍니다. sklearn의 분해 수입 PCA 수입 판다를 pd pca = PCA (). fit (X) print '구성 요소 별 설명 된 분산: % s'% pca. explain_variance_ratio_ print pd. DataFrame (구성 요소 _, 열 = 아이리스. 기능 _ 이름) 구성 요소별로 설명 된 분산: [0. (cm) 페탈 길이 (cm) 페탈 폭 (cm) 0 0. 361590 -0. 082269 0. 856572 0. 358844 1 -0. 656540 -0. 729712 0. 175767 0. 074706 2 0. 580997 -0. 596418 -0. 072524 -0. 549061 3 0. 317255 -0. 324094 -0. 479719 0. 751121 아이리스 데이터 집합의 이러한 분해에서, explain_variance_ratio_에 의해 제공된 벡터 배열은 대부분의 정보가 첫 번째 구성 요소 (92.5 %)에 집중되어 있음을 나타냅니다. 따라서 전체 데이터 세트를 단지 두 개의 구성 요소로 축소 할 수 있으므로 원본 데이터 세트의 노이즈 및 중복 정보를 줄일 수 있습니다.

데이터 과학 : 요인 및 주요 구성 요소 분석 수행을위한 Python 사용 - 더미 과학 연구가

편집자의 선택

Photoshop Elements 14에서의 헤이즈 제거 방법 - 인형

Photoshop Elements 14에서의 헤이즈 제거 방법 - 인형

Photoshop Elements 14는 유용하고 쉬운 사진에서 안개를 빠르게 제거하는 기능입니다. 공기, 먼지, 흙 등에 가벼운 타격 입자로 인한 헤이즈는 날씨와 시간으로 더욱 강화 될 수 있습니다. 때로는 이미지의 대비 및 선명도를 높이면 이미지 품질을 낮추는 데 도움이 될 수 있습니다.

Photoshop Elements 9의 빠른 편집 모드에서 이미지 편집 방법 - Photoshop의 인력

Photoshop Elements 9의 빠른 편집 모드에서 이미지 편집 방법 - Photoshop의 인력

Elements, Edit Quick 모드는 이미지의 전후 미리보기와 같은 몇 가지 고유 한 기능과 함께 기본 수정 도구를 제공하는 편집 전체 모드의 축소 버전입니다. 빠른 수정 모드에서 사진을 복구 할 때 따라갈 수있는 단계별 워크 플로우는 다음과 같습니다. Photoshop Elements에서 하나 이상의 사진을 선택하십시오.

Photoshop Elements 10의 빠른 사진 편집 모드에서 편집하는 방법 - 인형

Photoshop Elements 10의 빠른 사진 편집 모드에서 편집하는 방법 - 인형

빠른 사진 편집 모드 는 전체 사진 편집 모드의 축소 버전으로 기본 고정 도구를 편리하게 제공하고 이미지의 사전 및 사후 미리보기와 같은 몇 가지 고유 한 기능을 토스합니다. 빠른 사진 편집 모드에서 사진을 복구하기 위해 따라갈 수있는 단계별 워크 플로가 있습니다.

편집자의 선택

페이스 북에서 친구가되는 것 - 인형

페이스 북에서 친구가되는 것 - 인형

여러면에서 페이스 북 친구는 실생활 친구와 같은. 이들은 당신과 어울리고, 연락하고, 관심을 가지고 있고, 친구로 공개적으로 인정하고 싶은 사람들입니다. 이들은 Facebook에서 만난 사람들이 아닙니다. 오히려, 그들은 당신이 전화로 부르는 사람들입니다; 멈추고 따라 잡으십시오.

Facebook 메신저는 무엇입니까? - 인형

Facebook 메신저는 무엇입니까? - 인형

Facebook Messenger는 Facebook에 내장 된 인스턴트 메시징 기능입니다. 메신저는 원래 2011 년에 시작되어 그 성공에 힘 입어 2014 년에 등장한 전용 응용 프로그램과 웹 사이트가 생겨났습니다. 응용 프로그램과 웹 사이트는 Facebook 데이터베이스에 연결되고 인앱 Facebook 메시징 서비스를 대신하는 인스턴트 메시징 서비스입니다. 그것은 허용합니다 ...

Aquila Facebook Drone은 무엇입니까? - 인형

Aquila Facebook Drone은 무엇입니까? - 인형

Aquila Drone은 데이터 연결이없는 세계의 외딴 지역에 인터넷을 가져 오려는 Facebook의 시도입니다. 소셜 미디어 거물에 의한이 이니셔티브는 태양열로 가동되는 특수한 무인 항공기를 사용하려고합니다. 무인 항공기는 구역 위를 가리 키도록 설계되어 있으며, 무인 항공기 없이도 웹 연결이 가능합니다. Credit : ...

편집자의 선택

코칭 풋볼 인형 용 치트 시트 - 인형

코칭 풋볼 인형 용 치트 시트 - 인형

코치 풋볼은 당신의 선수들에게 동기를 부여합니다. 연습과 게임을위한 올바른 장비 공급; 축구 경기 전, 경기 중 및 경기 후에 시설과 팀을 준비시켜야합니다.

축구 코치는 다른 시대의 어린이들에게 맞춰져 있습니다 - 인형

축구 코치는 다른 시대의 어린이들에게 맞춰져 있습니다 - 인형

축구 코칭 책임의 일부는 알고 이해하고 있습니다 특정 나이 수준에서 게임을하는 젊은이의 육체적으로나 감정적으로 모두 무엇을 기대해야합니다. 이 연령대의 6 세 이하 아동을 코칭하는 것은 아마도 전에는 축구를 해보지 않았을 것이고, 이번 시즌은 매우 잘할 것입니다.

축구 코치의 하프 타임 팀과의 대화 - 인형

축구 코치의 하프 타임 팀과의 대화 - 인형

터치 다운을 기록하고, 패스를 떨어 뜨리고, 다이빙 태클을 만들고, 공을 더듬는 등 모든 종류의 것들을 볼 수 있습니다. 선수가 하프 타임을 위해 필드에서 벗어날 때, 머리 속에 많은 정보를 갖게되며 많은 시간을 소모하지 않게됩니다 ...