개인 재정 데이터 준비의 8 가지 우수 사례 - 인형

데이터 준비의 8 가지 우수 사례 - 인형

차례:

비디오: [태용] 청년 창업과 스타트업 크리에이터를 하며 배운 것들 | TEC콘서트@고양 2024

비디오: [태용] 청년 창업과 스타트업 크리에이터를 하며 배운 것들 | TEC콘서트@고양 2024
Anonim

통계 소프트웨어 패키지는 요즘 매우 강력하지만 품질이 떨어지는 데이터를 극복 할 수는 없습니다. 다음은 통계 모델을 작성하기 전에해야 할 일에 대한 체크리스트입니다.

데이터 형식 확인

분석은 항상 원시 데이터 파일로 시작됩니다. 원시 데이터 파일은 다양한 모양과 크기로 제공됩니다. 메인 프레임 데이터는 PC 데이터와 다르며 스프레드 시트 데이터는 웹 데이터와 다르게 포맷됩니다. 그리고 빅 데이터 시대에, 당신은 분명히 다양한 출처의 데이터에 직면하게 될 것입니다. 데이터 분석의 첫 번째 단계는 주어진 파일을 읽을 수 있는지 확인하는 것입니다.

각 필드의 내용을 실제로 확인해야합니다. 예를 들어, 필드가 문자 필드로 나열되어 실제로는 문자 데이터가 포함되어 있기 때문에이를 신뢰하지 않는 것이 좋습니다.

데이터 유형 확인

모든 데이터는 네가 적절하게 적용 할 수있는 통계의 종류에 영향을 미치는 네 가지 카테고리 중 하나에 속합니다.

  • 명목 데이터는 본질적으로 단순한 이름 또는 식별자입니다.

  • 서수 데이터는 레코드를 가장 낮은 순서부터 가장 높은 순서로 정렬합니다.

  • 간격 데이터는 그 차이가 비슷한 값을 나타냅니다.

  • 비율 데이터는 간격 데이터와 비슷하지만 0의 값도 허용한다는 점만 다릅니다.

통계 소프트웨어에 데이터를 입력하기 전에 데이터가 속하는 카테고리를 이해하는 것이 중요합니다. 그렇지 않으면 완벽하게 합리적으로 보이는 횡설수설로 끝날 위험이 있습니다.

데이터 그래프로 나타 내기

데이터가 분산되는 방식을 이해하는 것이 중요합니다. 얼굴이 파란색 일 때까지 통계 절차를 실행할 수 있지만 그 중 아무 것도 간단한 그래프처럼 보이는 데이터에 대한 많은 정보를 제공하지는 않습니다.

데이터 정확도 확인

원하는 형식으로 데이터를 형식화 한 후에도 정확하고 이해가 필요합니다. 이 단계에서는 작업중인 주제 영역에 대해 어느 정도 알고 있어야합니다.

실제로 데이터 정확성을 확인하는 방법은 없지만 말입니다. 기본 아이디어는 데이터가 보여야한다고 생각하는 일부 속성을 공식화하고 해당 속성이 보유하고 있는지 확인하기 위해 데이터를 테스트하는 것입니다. 주가는 항상 긍정적입니까? 모든 제품 코드가 유효한 제품 코드와 일치합니까? 본질적으로, 당신은 데이터가 실제로 당신이 말한 그대로인지 여부를 알아 내려고합니다.

특이점 식별

특이점은 나머지 데이터와 함께 치열한 데이터 포인트입니다. 이 값은 나머지 데이터 세트와 비교하여 매우 크거나 작은 값입니다.이상 치는 통계 및 통계 절차를 심각하게 손상시킬 수 있기 때문에 문제가됩니다. 단일 아웃 라이어는 평균값에 큰 영향을 줄 수 있습니다. 평균은 데이터의 중심을 나타내는 것으로 가정되기 때문에 어떤 의미에서는이 외곽 값으로 인해 평균이 쓸모 없게됩니다.

특이 치를 접했을 때 가장 일반적인 전략은 특이 치를 삭제하는 것입니다. 그러나 경우에 따라서는이를 고려해야 할 수도 있습니다. 이러한 경우 일반적으로 두 가지 분석을 수행해야합니다. 하나는 특이 치를 포함하고 다른 하나는 특이 치를 제외 시켰습니다. 이를 통해 어느 메소드가 더 유용한 결과를 제공하는지 평가할 수 있습니다.

누락 된 값 처리

누락 값은 가장 일반적이며 괴롭히는 데이터 문제 중 하나입니다. 첫 번째 충동은 분석에서 누락 된 값이있는 레코드를 삭제하는 것일 수 있습니다. 이 문제는 누락 된 값이 자주 약간의 작은 데이터 결함이 아니라는 것을 나타냅니다.

데이터가 분산되는 방식에 대한 가정 확인

많은 통계적 절차는 데이터가 특정 방식으로 배포된다고 가정합니다. 그 가정이 사실이 아닐 경우, 예측의 정확성이 떨어집니다.

이 책에서 논의 된 모델링 기술에 대한 가장 일반적인 가정은 데이터가 정상적으로 배포된다는 것입니다.

그렇지 않습니다. 데이터가 필요에 따라 배포되지 않는 경우 모두가 반드시 손실되는 것은 아닙니다. 데이터를 변형하여 필요한 모양으로 배포 할 수있는 다양한 방법이 있습니다.

통계 모델의 정확성을 검증하는 가장 좋은 방법 중 하나는 구축 된 데이터에 대해 실제로 테스트하는 것입니다. 이를 수행하는 한 가지 방법은 무작위로 데이터 세트를 두 개의 파일로 분리하는 것입니다. 이 파일들을 각각 Analysis와 Test라고 부를 수 있습니다.

데이터를 무작위로 분할해야 효과적입니다. 예를 들어 데이터 집합을 위쪽 절반과 아래쪽 절반으로 간단히 나눌 수는 없습니다. 거의 모든 데이터 파일은 어떻게 든 정렬됩니다. 이것은 파일의 다른 부분에 다른 통계적 특성을 줄 수있는 체계적인 패턴을 도입합니다. 무작위로 파일을 분할하면 각 레코드에 두 파일 중 하나가 같은 기회가됩니다. 비 유적으로, 각 레코드에 대해 동전을 뒤집어서 어떤 파일이 들어가는 지 결정합니다. 임의성은 두 파일 모두 원래 데이터와 동일한 통계적 특성을 제공합니다.

데이터 세트를 분할 한 후 테스트 파일을 따로 보관합니다. 그런 다음 분석 파일을 사용하여 예측 모델을 작성하십시오. 모델이 빌드되면 테스트 파일에 적용하여 모델이 어떻게 작동하는지 확인하십시오.

이러한 방식의 테스트 모델은

over-fitting 로 알려진 현상을 방지하는 데 도움이됩니다. 본질적으로, 통계적 절차는 변수들 사이에 의미있는 관계를 발견하기보다는 데이터 파일을 암기하는 것이 가능합니다. 오버 끼워 맞춤이 발생하면 모델은 테스트 파일에 대해 매우 불량하게 테스트합니다. 당신이하는 모든 것을 백업하고 문서화하십시오.

통계 소프트웨어는 사용이 매우 간편해지기 때문에 데이터 파일은 물론 리포트 및 그래프 생성을 시작하는 것이 중요합니다.단추를 눌러 프로 시저를 문자 그대로 실행할 수 있습니다. 몇 분 만에 여러 가지 데이터 변환을 기반으로 수십 개의 그래프를 생성 할 수 있습니다. 따라서 작업 한 내용을 추적하기가 매우 쉽습니다. 그 이유는 무엇입니까?

당신이 무엇을했는지에 대한 서면 기록을 보관하는 것이 중요합니다. 그래프는 그래프를 생성하는 데 사용 된 데이터의 이름 (및 버전)으로 레이블되어야합니다. 구축하는 통계적 절차는 저장하고 문서화해야합니다.

데이터 파일을 백업하는 것도 중요합니다. 분석 과정에서 변수의 다양한 수정 및 변형을 반영하는 여러 버전의 데이터를 만들 수 있습니다. 이 버전을 만든 절차를 저장해야합니다. 또한 어떤 변형을했는지 그리고 왜 그 변화가 있었는지를 설명하는 방식으로 문서화해야합니다.

문서 작성은 누구도 좋아하지 않는 작업이지만, 우리는 분석 프로젝트와 관련하여 기억에 의존하지 않을 것을 강력히 권장 할 때 경험을 통해 이야기합니다.

방금 설명한 단계를 수행함으로써 통계 모델의 신뢰성을 극대화합니다. 대부분의 경우, prep 작업은 실제 모델 구축보다 실제로 많은 시간이 소요됩니다. 그러나 그것은 필수적입니다. 그리고 그것을 체계적으로 연구 해 주셔서 고맙습니다.

데이터 준비의 8 가지 우수 사례 - 인형

편집자의 선택

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

자동으로 단어 채우기 Word 2003 자동 텍스트 - 더미

로 자동 채우기 Word 2003의 상용구 기능은 자동으로 단어 쓰기를 완료합니다. 철자하기 시작 했어. 당신이 영웅으로 크리스토퍼를 특징으로하는 다음 Great American Novel을 쓰고 있다고합시다. Christopher 철자를 반복해서 쓰는 대신 이름의 몇 글자 만 입력하면 팝업 상자가 나타납니다. 그것은 말한다 : 크리스토퍼 : (삽입하려면 Enter 키를 누릅니다). ...

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항 인 > Word 2013의 파일 메뉴 - 더미

의 기본 사항은 파일 탭을 클릭하면 파일 메뉴가 열립니다. Backstage보기라고합니다. Backstage보기는 작업중인 데이터 파일과 관련된 명령 (예 : 저장, 열기, 인쇄, 우편 발송 및 속성 확인)에 대한 액세스를 제공합니다. Backstage보기를 종료하려면 다른 탭을 클릭하거나 ...

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

Word 2007에서 SmartArt의 빠른 스타일 변경 - 더미

당신은 여러모로 그 모양을 조정할 수 있습니다. 가장 쉬운 방법은 다이어그램에 적용된 빠른 스타일을 변경하는 것입니다. 빠른 스타일은 단순히 색상 및 모양 효과와 같은 서식 요소 모음을 구성하는 요소 중 일부에 할당됩니다.

편집자의 선택

실습 초등 교육 시험 - 실습 - 실습

실습 초등 교육 시험 - 실습 - 실습

Praxis 초등 교육 시험에는 commutative, associative, distributive 및 substitution의 4 가지 주요 속성을 이해해야합니다. 교환 가능 속성 및 결합 속성에는 더하기 및 곱하기 버전이 있습니다. 세 개 이상의 숫자가 추가되면 추가되는 순서는 중요하지 않습니다. 그 합계 ...

초등 교육 시험 문장 구조 - 더미

초등 교육 시험 문장 구조 - 더미

초등학교 교사는 문장의 다른 부분뿐만 아니라 문장의 다른 종류. 예를 들어, Praxis 초등 교육 시험에 나오는 문장 구조에 관한 질문은 주제와 술어 또는 화합물과의 차이점을 알아야 할 수도 있습니다.

초등 교육 시험 작문 구조 - 인형

초등 교육 시험 작문 구조 - 인형

학생들은 공통 구조를 사용하여 작문을 구성한다. 인과 관계, 연대순, 비교 및 ​​계약. Praxis Elementary Education 시험은 귀하가 이러한 구조를 잘 알고 있어야합니다. 다음 목록에는 공통 구조 (사용되는 경우)와 자주 사용되는 단어가 링크되어 있습니다. 원인과 결과 ...

편집자의 선택

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 2014의 블록 정의 편집 대화 상자 사용 방법 - 인형

AutoCAD 도면에는 여섯 가지 종류의 시트가 표시됩니다. 한 가지 방법은 모두를 대표하는 세 가지 표준 블록을 만드는 것입니다. 또는 단일 동적 블록을 만들고 세 가지 유형 모두를 포괄하는 가시성 상태를 정의 할 수 있습니다. 다음 단계에서는 블록을 두 배로 만드는 방법을 보여줍니다 (또는 트리플 ...).

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014에서 MLeaDer 명령 사용 방법 - 인형

AutoCAD 2014를 사용하면 다중 지시선 MLeaDer 명령을 사용하여 동시에 지시선과 여러 줄 문자로 구성된 객체; 다음과 같은 간단한 단계를 따르십시오. 사용자의 필요에 따라 적절한 다중 지시선 스타일을 설정하십시오. 홈 탭의 다중 지시선 스타일 드롭 다운 목록에서 기존 스타일 선택 ...