개인 재정 예측 분석을위한 데이터 준비 방법 - 인형

예측 분석을위한 데이터 준비 방법 - 인형

차례:

비디오: 빅 데이터 3분 요약 2024

비디오: 빅 데이터 3분 요약 2024
Anonim

새로운 프로그래밍 언어를 배우면 "hello world"프로그램을 작성하는 것이 일반적입니다. 기계 학습 및 예측 분석의 경우 아이리스 데이터 집합을 분류하기위한 모델을 만드는 것이 "안녕하세요 세상"과 동등한 프로그램입니다. 이것은 매우 간단한 예이지만 기계 학습 및 예측 분석의 기초를 가르치는 데 매우 효과적입니다.

샘플 데이터 세트를 얻는 방법

예측 모델을 만들려면 샘플 아이리스 데이터 세트를 다운로드해야합니다. 이 데이터 세트는 여러 출처, 특히 기계 학습 부서가있는 교육 기관에서 무료로 사용할 수 있습니다. 다행히도, 사람들은 패키지와 함께 샘플 데이터 세트 및 데이터로드 기능을 포함 할만큼 충분히 훌륭했습니다. 이 예제의 목적을 위해 데이터를로드하기 위해 간단한 두 줄의 코드 만 실행하면됩니다.

데이터에 라벨을 지정하는 방법

아이리스 플라워 (Iris Flower) 데이터 세트의 각 클래스에서 한 가지 관찰과 특징이 있습니다.

세 길이 세퍼 레이션 꽃잎 길이 꽃잎 너비 대상 클래스 / 라벨
5. 1 9. 599. 4 990. 2 세토 사 (0) 7. 0 9. 2 4. 799. 4 Versicolor (1) 6. 3 3. 3 9. 0 2. Virginica (2)
아이리스 플라워 데이터 세트는 아이리스 꽃 (
아이리스 세트 사, 아이리스 버지니아, , 아이리스 versicolor )의 3 가지 클래스의 실제 다 변수 데이터 세트입니다. 로널드 피셔 (Ronald Fisher)의 1936 년 기사, "분류 학적 문제에서의 다중 측정의 사용. "이 데이터 세트는 기계 학습 및 통계를 위해 학계에서 광범위하게 사용되는 것으로 잘 알려져 있습니다. 데이터 세트는 총 150 개의 인스턴스로 구성되며 아이리스 꽃의 3 가지 클래스 각각에서 50 개의 인스턴스로 구성됩니다. 샘플에는 sepals과 petal의 길이와 너비 측정치 인 4 개의 피쳐 (일반적으로
속성 라고도 함)가 있습니다.
이 데이터 세트의 흥미로운 부분은 세 클래스가 다소 선형으로 분리 될 수 있다는 것입니다. Setosa
클래스는 두 클래스 사이의 그래프에 직선을 그어 다른 두 클래스와 분리 할 수 ​​있습니다.

Virginica 와 Versicolor 클래스는 직선을 사용하여 완벽하게 분리 할 수 ​​없습니다. 이는 분류 분석을 수행하는 데 완벽한 후보 데이터 세트이지만 클러스터링 분석에는 적합하지 않습니다. 샘플 데이터는 이미 라벨이 붙어 있습니다. 위의 오른쪽 열 (레이블)은 홍채 꽃의 각 클래스 이름을 보여줍니다.클래스 이름은

레이블 또는 대상이라고합니다.

일반적으로

y 라는 변수에 할당됩니다. 그것은 기본적으로 예측되는 결과 또는 결과입니다. 통계 및 모델링에서는 종종 종속 변수 라고합니다. 그것은 sepal 길이와 너비 및 꽃잎 길이와 너비에 해당하는 입력에 달려 있습니다. 원본 데이터 세트와 비교하여 scikit 사전 처리 된 아이리스 데이터 세트의 다른 점을 알고 싶을 수도 있습니다. 알아 내려면 원본 데이터 파일을 얻어야합니다. 홍채 데이터 세트

에 대한 Google 검색을 수행하여 교육 기관 중 하나에서 다운로드하거나보실 수 있습니다. 일반적으로 첫 번째로 나타나는 결과는 University of California Irvine (UCI)의 기계 학습용 데이터 저장소입니다. UCI 기계 학습 저장소의 원래 상태에있는 아이리스 데이터 세트는 UCI 웹 사이트에서 찾을 수 있습니다. 다운로드하면 텍스트 편집기로 볼 수 있습니다. 파일의 데이터를 보면 각 행에 5 개의 열이 있음을 알 수 있습니다. 첫 번째 네 열은 측정 값 ( 피쳐 라고 함)이고 마지막 열은 레이블입니다. 레이블은 아이리스 데이터 세트의 원래 버전과 scikit 버전에 따라 다릅니다. 또 다른 차이점은 데이터 파일의 첫 번째 행입니다. Scikit 데이터 로딩 기능에 사용되는 헤더 행을 포함합니다. 알고리즘 자체에는 아무런 영향을 미치지 않습니다. 문자를 텍스트로 유지하는 것보다는 숫자로 정규화하는 것이 알고리즘을 더 쉽게 처리 할 수 ​​있으며 훨씬 더 메모리 효율적입니다. 이는 특히 실제 시나리오에서 종종 나타나는 많은 기능을 가진 매우 큰 데이터 세트를 실행하는 경우에 분명합니다.

여기에 두 파일의 샘플 데이터가 있습니다. Col5를 제외한 모든 데이터 열은 동일합니다. scikit에는 숫자 레이블이있는 클래스 이름이 있습니다. 원본 파일에는 텍스트 레이블이 있습니다. 출처 Col2 Col3

Col4 <95> Col5 scikit 5. 1 9. 599. 4 990. 2 999 원래 5. 1 9. 599. 4 990. 2 Iris-setosa

scikit

7. 0 9. 2 4. 799. 4 9999 7. 0 9. 2 4. 799. 499 Iris-versicolor scikit 6. 3 3. 3 9. 0 2. 5 9996 6. 3 3. 3 9. 0 2. 아이리스 - 버지 니카

예측 분석을위한 데이터 준비 방법 - 인형

편집자의 선택

JavaScript에서 HTML 양식 요소에 액세스하는 방법 - 다른 HTML 요소와 마찬가지로

JavaScript에서 HTML 양식 요소에 액세스하는 방법 - 다른 HTML 요소와 마찬가지로

자바 스크립트에서 HTML5 요소와 직접 상호 작용할 수 있습니다. 트릭은 선택한 요소가 지원해야하는 브라우저 및 플랫폼에서 작동하는지 확인하는 것입니다. 이 예제에서는 및 태그를 다음과 같은 솔루션의 일부로 사용하는 방법을 보여줍니다.

CSS 값 정의에 대한 빠른 가이드 구문 - 인형

CSS 값 정의에 대한 빠른 가이드 구문 - 인형

W3C (World Wide Web Consortium)에서 모든 CSS 속성의 구문과 가능한 값을 정의합니다. 정의를 가능한 한 정확하게 만들기 위해 W3C는 CSS 값 정의 구문이라는 공식 시스템을 사용합니다. 정의 구문은 가능한 값을 매우 정확하게 정의하지만 CSS 값 정의 구문을 읽는 중 ...

JavaScript로 동적 HTML 요소를 작성하는 방법 - 더미

JavaScript로 동적 HTML 요소를 작성하는 방법 - 더미

모든 페이지에 대한 특수 효과는 페이지에 동적 HTML 변경 기능을 제공하는 것입니다. 예를 들어 다음 예제와 같이 선택한 요소에 특수 효과를 만들 수 있습니다. function ChangeStyles (event) {// 요소에 대한 참조를 얻습니다. var ThisElement ...

편집자의 선택

Excel 2013 통합 문서의 변경 내용 수락 또는 거부 방법 - 변경 내용 추적을 설정하면 더미

Excel 2013 통합 문서의 변경 내용 수락 또는 거부 방법 - 변경 내용 추적을 설정하면 더미

Excel 2013 통합 문서의 경우 리본의 검토 탭에있는 변경 내용 추적 명령 단추의 드롭 다운 메뉴에서 Alt / RGC를 눌러 변경 내용 적용 / 거부 옵션을 선택하여 수락 또는 거부 할 변경 내용을 결정할 수 있습니다. 이렇게하면 Excel이 강조 표시된 모든 변경 내용을 검토합니다 ...

Excel에서 셀에 설명을 추가하는 방법 2016 - 문자

Excel에서 셀에 설명을 추가하는 방법 2016 - 문자

Excel 2016 워크 시트의 특정 셀에 주석을 달 수 있습니다. 댓글은 스티커 메모의 전자 팝업 버전과 유사합니다. 셀에 주석을 추가하려면 다음과 같이하십시오. 셀 포인터를 이동하거나 주석을 추가 할 셀을 클릭하십시오. 새 주석을 클릭하십시오.

Excel 피벗 테이블에 계산 된 필드를 추가하는 방법 - 더미

Excel 피벗 테이블에 계산 된 필드를 추가하는 방법 - 더미

피벗 테이블 내부의 값을 계산합니다. 계산 된 필드 및 항목을 표에 추가 할 수 있습니다. 계산 된 필드를 추가하면 새로운 행이나 열을 피벗 테이블에 삽입 한 다음 수식을 사용하여 새 행이나 열을 채울 수 있습니다. 예를 들어 다음과 같이 나타납니다.

편집자의 선택

포토샵 CS6에서 히스토리 기능으로 채우기를 사용하는 방법 - 더미

포토샵 CS6에서 히스토리 기능으로 채우기를 사용하는 방법 - 더미

채우기 Adobe Photoshop의 기능 Creative Suite 6는 선택을 원할 때 유용합니다. 특정 상태로 바꿀 영역을 쉽게 선택할 수 있으면 기록으로 채우기 기능을 사용할 수 있습니다. 특정 이미지에서 하늘이 마음에 들지 않는다고 가정 해보십시오. 선택한 항목 ...

Photoshop CS6에서 패싯 필터를 사용하는 방법 -

Photoshop CS6에서 패싯 필터를 사용하는 방법 -

Photoshop CS6의 이미지는 먼지와 스크래치를 줄이거 나 날카로운 모서리를 부드럽게하는 것입니다. 패싯 필터는 포스터 라이징 효과를 사용하여 이미지를 분할합니다. Photoshop CS6에서 이미지를 흐리게 처리하려는 한 가지 이유는 먼지 및 스크래치를 줄이거 나 밝기를 비슷하게하는 픽셀 블록을 모아서 기하학적 모양을 사용하여 단일 값으로 변환하기 때문입니다.

Photoshop CS6에서 손 도구 사용 방법 - 인형

Photoshop CS6에서 손 도구 사용 방법 - 인형

Photoshop CS6 손 도구는 이미지 문서에서 빠르게 이동하고 스크롤 막대와 유사하게 작업하여 작업을보다 신속하게 수행 할 수 있습니다. 손 도구는 손 도구를 클릭 할 필요가 거의 없기 때문에 실제 도구보다 기능이 더 많습니다. 간단히 ...