개인 재정 데이터 준비의 8 가지 우수 사례 - 인형

데이터 준비의 8 가지 우수 사례 - 인형

차례:

비디오: [태용] 청년 창업과 스타트업 크리에이터를 하며 배운 것들 | TEC콘서트@고양 2025

비디오: [태용] 청년 창업과 스타트업 크리에이터를 하며 배운 것들 | TEC콘서트@고양 2025
Anonim

통계 소프트웨어 패키지는 요즘 매우 강력하지만 품질이 떨어지는 데이터를 극복 할 수는 없습니다. 다음은 통계 모델을 작성하기 전에해야 할 일에 대한 체크리스트입니다.

데이터 형식 확인

분석은 항상 원시 데이터 파일로 시작됩니다. 원시 데이터 파일은 다양한 모양과 크기로 제공됩니다. 메인 프레임 데이터는 PC 데이터와 다르며 스프레드 시트 데이터는 웹 데이터와 다르게 포맷됩니다. 그리고 빅 데이터 시대에, 당신은 분명히 다양한 출처의 데이터에 직면하게 될 것입니다. 데이터 분석의 첫 번째 단계는 주어진 파일을 읽을 수 있는지 확인하는 것입니다.

각 필드의 내용을 실제로 확인해야합니다. 예를 들어, 필드가 문자 필드로 나열되어 실제로는 문자 데이터가 포함되어 있기 때문에이를 신뢰하지 않는 것이 좋습니다.

데이터 유형 확인

모든 데이터는 네가 적절하게 적용 할 수있는 통계의 종류에 영향을 미치는 네 가지 카테고리 중 하나에 속합니다.

  • 명목 데이터는 본질적으로 단순한 이름 또는 식별자입니다.

  • 서수 데이터는 레코드를 가장 낮은 순서부터 가장 높은 순서로 정렬합니다.

  • 간격 데이터는 그 차이가 비슷한 값을 나타냅니다.

  • 비율 데이터는 간격 데이터와 비슷하지만 0의 값도 허용한다는 점만 다릅니다.

통계 소프트웨어에 데이터를 입력하기 전에 데이터가 속하는 카테고리를 이해하는 것이 중요합니다. 그렇지 않으면 완벽하게 합리적으로 보이는 횡설수설로 끝날 위험이 있습니다.

데이터 그래프로 나타 내기

데이터가 분산되는 방식을 이해하는 것이 중요합니다. 얼굴이 파란색 일 때까지 통계 절차를 실행할 수 있지만 그 중 아무 것도 간단한 그래프처럼 보이는 데이터에 대한 많은 정보를 제공하지는 않습니다.

데이터 정확도 확인

원하는 형식으로 데이터를 형식화 한 후에도 정확하고 이해가 필요합니다. 이 단계에서는 작업중인 주제 영역에 대해 어느 정도 알고 있어야합니다.

실제로 데이터 정확성을 확인하는 방법은 없지만 말입니다. 기본 아이디어는 데이터가 보여야한다고 생각하는 일부 속성을 공식화하고 해당 속성이 보유하고 있는지 확인하기 위해 데이터를 테스트하는 것입니다. 주가는 항상 긍정적입니까? 모든 제품 코드가 유효한 제품 코드와 일치합니까? 본질적으로, 당신은 데이터가 실제로 당신이 말한 그대로인지 여부를 알아 내려고합니다.

특이점 식별

특이점은 나머지 데이터와 함께 치열한 데이터 포인트입니다. 이 값은 나머지 데이터 세트와 비교하여 매우 크거나 작은 값입니다.이상 치는 통계 및 통계 절차를 심각하게 손상시킬 수 있기 때문에 문제가됩니다. 단일 아웃 라이어는 평균값에 큰 영향을 줄 수 있습니다. 평균은 데이터의 중심을 나타내는 것으로 가정되기 때문에 어떤 의미에서는이 외곽 값으로 인해 평균이 쓸모 없게됩니다.

특이 치를 접했을 때 가장 일반적인 전략은 특이 치를 삭제하는 것입니다. 그러나 경우에 따라서는이를 고려해야 할 수도 있습니다. 이러한 경우 일반적으로 두 가지 분석을 수행해야합니다. 하나는 특이 치를 포함하고 다른 하나는 특이 치를 제외 시켰습니다. 이를 통해 어느 메소드가 더 유용한 결과를 제공하는지 평가할 수 있습니다.

누락 된 값 처리

누락 값은 가장 일반적이며 괴롭히는 데이터 문제 중 하나입니다. 첫 번째 충동은 분석에서 누락 된 값이있는 레코드를 삭제하는 것일 수 있습니다. 이 문제는 누락 된 값이 자주 약간의 작은 데이터 결함이 아니라는 것을 나타냅니다.

데이터가 분산되는 방식에 대한 가정 확인

많은 통계적 절차는 데이터가 특정 방식으로 배포된다고 가정합니다. 그 가정이 사실이 아닐 경우, 예측의 정확성이 떨어집니다.

이 책에서 논의 된 모델링 기술에 대한 가장 일반적인 가정은 데이터가 정상적으로 배포된다는 것입니다.

그렇지 않습니다. 데이터가 필요에 따라 배포되지 않는 경우 모두가 반드시 손실되는 것은 아닙니다. 데이터를 변형하여 필요한 모양으로 배포 할 수있는 다양한 방법이 있습니다.

통계 모델의 정확성을 검증하는 가장 좋은 방법 중 하나는 구축 된 데이터에 대해 실제로 테스트하는 것입니다. 이를 수행하는 한 가지 방법은 무작위로 데이터 세트를 두 개의 파일로 분리하는 것입니다. 이 파일들을 각각 Analysis와 Test라고 부를 수 있습니다.

데이터를 무작위로 분할해야 효과적입니다. 예를 들어 데이터 집합을 위쪽 절반과 아래쪽 절반으로 간단히 나눌 수는 없습니다. 거의 모든 데이터 파일은 어떻게 든 정렬됩니다. 이것은 파일의 다른 부분에 다른 통계적 특성을 줄 수있는 체계적인 패턴을 도입합니다. 무작위로 파일을 분할하면 각 레코드에 두 파일 중 하나가 같은 기회가됩니다. 비 유적으로, 각 레코드에 대해 동전을 뒤집어서 어떤 파일이 들어가는 지 결정합니다. 임의성은 두 파일 모두 원래 데이터와 동일한 통계적 특성을 제공합니다.

데이터 세트를 분할 한 후 테스트 파일을 따로 보관합니다. 그런 다음 분석 파일을 사용하여 예측 모델을 작성하십시오. 모델이 빌드되면 테스트 파일에 적용하여 모델이 어떻게 작동하는지 확인하십시오.

이러한 방식의 테스트 모델은

over-fitting 로 알려진 현상을 방지하는 데 도움이됩니다. 본질적으로, 통계적 절차는 변수들 사이에 의미있는 관계를 발견하기보다는 데이터 파일을 암기하는 것이 가능합니다. 오버 끼워 맞춤이 발생하면 모델은 테스트 파일에 대해 매우 불량하게 테스트합니다. 당신이하는 모든 것을 백업하고 문서화하십시오.

통계 소프트웨어는 사용이 매우 간편해지기 때문에 데이터 파일은 물론 리포트 및 그래프 생성을 시작하는 것이 중요합니다.단추를 눌러 프로 시저를 문자 그대로 실행할 수 있습니다. 몇 분 만에 여러 가지 데이터 변환을 기반으로 수십 개의 그래프를 생성 할 수 있습니다. 따라서 작업 한 내용을 추적하기가 매우 쉽습니다. 그 이유는 무엇입니까?

당신이 무엇을했는지에 대한 서면 기록을 보관하는 것이 중요합니다. 그래프는 그래프를 생성하는 데 사용 된 데이터의 이름 (및 버전)으로 레이블되어야합니다. 구축하는 통계적 절차는 저장하고 문서화해야합니다.

데이터 파일을 백업하는 것도 중요합니다. 분석 과정에서 변수의 다양한 수정 및 변형을 반영하는 여러 버전의 데이터를 만들 수 있습니다. 이 버전을 만든 절차를 저장해야합니다. 또한 어떤 변형을했는지 그리고 왜 그 변화가 있었는지를 설명하는 방식으로 문서화해야합니다.

문서 작성은 누구도 좋아하지 않는 작업이지만, 우리는 분석 프로젝트와 관련하여 기억에 의존하지 않을 것을 강력히 권장 할 때 경험을 통해 이야기합니다.

방금 설명한 단계를 수행함으로써 통계 모델의 신뢰성을 극대화합니다. 대부분의 경우, prep 작업은 실제 모델 구축보다 실제로 많은 시간이 소요됩니다. 그러나 그것은 필수적입니다. 그리고 그것을 체계적으로 연구 해 주셔서 고맙습니다.

데이터 준비의 8 가지 우수 사례 - 인형

편집자의 선택

PowerPoint 2016의 다른 슬라이드에 하이퍼 링크를 만드는 방법 - PowerPoint 2016의

PowerPoint 2016의 다른 슬라이드에 하이퍼 링크를 만드는 방법 - PowerPoint 2016의

하이퍼 링크는 슬라이드 나 다른 프레젠테이션, Word 문서 나 Excel 스프레드 시트와 같은 다른 유형의 문서를 소환하기 위해 슬라이드를 볼 때 클릭 할 수있는 간단한 텍스트 또는 그래픽 이미지입니다. 하이퍼 링크를 클릭하면 페이지로 연결될 수도 있습니다.

PowerPoint 2007 슬라이드에서 작업 단추를 만드는 방법 - 동작 버튼 배치

PowerPoint 2007 슬라이드에서 작업 단추를 만드는 방법 - 동작 버튼 배치

PowerPoint 슬라이드에서 PowerPoint 슬라이드를 순서에 관계없이 볼 수 있으며 사운드 및 비디오 클립에 액세스 할 수 있습니다. PowerPoint 슬라이드에 단추를 추가하려면 단추를 배치 할 슬라이드로 이동하여 다음 단계를 따르십시오.

편집자의 선택

SAT 연습 문제 : SAT 수학 시험에서 여러 개의 그래프 - 더미

SAT 연습 문제 : SAT 수학 시험에서 여러 개의 그래프 - 더미

를 읽으면 질문이 생길 수 있습니다 하나의 그래프가 아니라 두 개를 포함합니다. 이러한 종류의 질문은 두 가지 그래프 사이의 관계를 탐구하도록 요구합니다. 다른 카운티의 차가운 시리얼 판매를 비교하는 다음 연습 질문에서와 같습니다. 연습 문제 두 가지 질문은 다음을 기반으로합니다 ...

SAT 연습 문제 : Sec, Csc 및 Cot Questions - 더미

SAT 연습 문제 : Sec, Csc 및 Cot Questions - 더미

SOH CAH TOA로 대표되는 삼각 비율의 경우 SAT Math 시험은 세컨드, 코사인 또는 코탄 센트로 작업해야하는 질문이있을 수 있습니다. 다행히도 사인, 코사인 또는 접선의 역수를 찾는 문제 일뿐입니다. 다음 연습 문제는 상호 작전을 수행하도록 요청합니다.

SAT 연습 문제 : 급진주의자를 포함하는 SAT 수학 시험에서 질문을 만났을 때 급식 문제 -

SAT 연습 문제 : 급진주의자를 포함하는 SAT 수학 시험에서 질문을 만났을 때 급식 문제 -

해결 , "9의 제곱근은 무엇입니까? "급진주의자는 그 질문의 한 부분 일 뿐이다. 다음 연습 문제는 위협적으로 보일지 모르지만 급진주의를 해결하는 방법을 알고 있다면 그 문제를 해결할 수 있습니다. 연습 ...

편집자의 선택

흑백 HDR : Photoshop Duotone 도구로 색상 화 - 더미

흑백 HDR : Photoshop Duotone 도구로 색상 화 - 더미

컬러링 (종종 색조 또는 색조라고도 함) 흑백 HDR 이미지는 흑백 이미지보다 하나, 둘 또는 그 이상의 색상을 오버레이하여 결과적으로 노화 또는 기타 창의적인 효과를냅니다. Photoshop에는 Elements (Colorizing, Color Variations 및 Color Layers)와 동일한 기능이 많이 있지만 강력한 제어 기능을 제공하는보다 강력한 사용자 기능이 제공됩니다.

HDR 파노라마의 프레임 혼합 - 더미

HDR 파노라마의 프레임 혼합 - 더미

혼합을 사용하면 Photoshop Elements가 어떻게 서로 다른 레이어를 HDR 파노라마를 만든 다음 합성하여 합성 이미지를 만듭니다. 이 프로세스는 파노라마의 한 프레임에서 어떤 것이 더 좋게 보이지만 그 지점이 다른 요소의 동일한 지점을 선호하도록 요소에 의해 마스크 된 경우에 유용합니다.

매크로 또는 클로즈업 사진 비율 - 대부분의 경우 더미

매크로 또는 클로즈업 사진 비율 - 대부분의 경우 더미

매크로와 클로즈업 사진 사이에는 상관이 없습니다. 피사체에 매우 가까이 다가 갈 수있는 능력이 있으면 작은 세부 사항을 밝히고 더 작은 피사체를 촬영할 수 있지만 피사체에 얼마나 가까이 다가 가느냐는 크기와 메시지에 비례합니다. 더 가까워서 항상 좋은 것은 아닙니다.