개인 재정 데이터 준비의 8 가지 우수 사례 - 인형

데이터 준비의 8 가지 우수 사례 - 인형

차례:

비디오: [태용] 청년 창업과 스타트업 크리에이터를 하며 배운 것들 | TEC콘서트@고양 2024

비디오: [태용] 청년 창업과 스타트업 크리에이터를 하며 배운 것들 | TEC콘서트@고양 2024
Anonim

통계 소프트웨어 패키지는 요즘 매우 강력하지만 품질이 떨어지는 데이터를 극복 할 수는 없습니다. 다음은 통계 모델을 작성하기 전에해야 할 일에 대한 체크리스트입니다.

데이터 형식 확인

분석은 항상 원시 데이터 파일로 시작됩니다. 원시 데이터 파일은 다양한 모양과 크기로 제공됩니다. 메인 프레임 데이터는 PC 데이터와 다르며 스프레드 시트 데이터는 웹 데이터와 다르게 포맷됩니다. 그리고 빅 데이터 시대에, 당신은 분명히 다양한 출처의 데이터에 직면하게 될 것입니다. 데이터 분석의 첫 번째 단계는 주어진 파일을 읽을 수 있는지 확인하는 것입니다.

각 필드의 내용을 실제로 확인해야합니다. 예를 들어, 필드가 문자 필드로 나열되어 실제로는 문자 데이터가 포함되어 있기 때문에이를 신뢰하지 않는 것이 좋습니다.

데이터 유형 확인

모든 데이터는 네가 적절하게 적용 할 수있는 통계의 종류에 영향을 미치는 네 가지 카테고리 중 하나에 속합니다.

  • 명목 데이터는 본질적으로 단순한 이름 또는 식별자입니다.

  • 서수 데이터는 레코드를 가장 낮은 순서부터 가장 높은 순서로 정렬합니다.

  • 간격 데이터는 그 차이가 비슷한 값을 나타냅니다.

  • 비율 데이터는 간격 데이터와 비슷하지만 0의 값도 허용한다는 점만 다릅니다.

통계 소프트웨어에 데이터를 입력하기 전에 데이터가 속하는 카테고리를 이해하는 것이 중요합니다. 그렇지 않으면 완벽하게 합리적으로 보이는 횡설수설로 끝날 위험이 있습니다.

데이터 그래프로 나타 내기

데이터가 분산되는 방식을 이해하는 것이 중요합니다. 얼굴이 파란색 일 때까지 통계 절차를 실행할 수 있지만 그 중 아무 것도 간단한 그래프처럼 보이는 데이터에 대한 많은 정보를 제공하지는 않습니다.

데이터 정확도 확인

원하는 형식으로 데이터를 형식화 한 후에도 정확하고 이해가 필요합니다. 이 단계에서는 작업중인 주제 영역에 대해 어느 정도 알고 있어야합니다.

실제로 데이터 정확성을 확인하는 방법은 없지만 말입니다. 기본 아이디어는 데이터가 보여야한다고 생각하는 일부 속성을 공식화하고 해당 속성이 보유하고 있는지 확인하기 위해 데이터를 테스트하는 것입니다. 주가는 항상 긍정적입니까? 모든 제품 코드가 유효한 제품 코드와 일치합니까? 본질적으로, 당신은 데이터가 실제로 당신이 말한 그대로인지 여부를 알아 내려고합니다.

특이점 식별

특이점은 나머지 데이터와 함께 치열한 데이터 포인트입니다. 이 값은 나머지 데이터 세트와 비교하여 매우 크거나 작은 값입니다.이상 치는 통계 및 통계 절차를 심각하게 손상시킬 수 있기 때문에 문제가됩니다. 단일 아웃 라이어는 평균값에 큰 영향을 줄 수 있습니다. 평균은 데이터의 중심을 나타내는 것으로 가정되기 때문에 어떤 의미에서는이 외곽 값으로 인해 평균이 쓸모 없게됩니다.

특이 치를 접했을 때 가장 일반적인 전략은 특이 치를 삭제하는 것입니다. 그러나 경우에 따라서는이를 고려해야 할 수도 있습니다. 이러한 경우 일반적으로 두 가지 분석을 수행해야합니다. 하나는 특이 치를 포함하고 다른 하나는 특이 치를 제외 시켰습니다. 이를 통해 어느 메소드가 더 유용한 결과를 제공하는지 평가할 수 있습니다.

누락 된 값 처리

누락 값은 가장 일반적이며 괴롭히는 데이터 문제 중 하나입니다. 첫 번째 충동은 분석에서 누락 된 값이있는 레코드를 삭제하는 것일 수 있습니다. 이 문제는 누락 된 값이 자주 약간의 작은 데이터 결함이 아니라는 것을 나타냅니다.

데이터가 분산되는 방식에 대한 가정 확인

많은 통계적 절차는 데이터가 특정 방식으로 배포된다고 가정합니다. 그 가정이 사실이 아닐 경우, 예측의 정확성이 떨어집니다.

이 책에서 논의 된 모델링 기술에 대한 가장 일반적인 가정은 데이터가 정상적으로 배포된다는 것입니다.

그렇지 않습니다. 데이터가 필요에 따라 배포되지 않는 경우 모두가 반드시 손실되는 것은 아닙니다. 데이터를 변형하여 필요한 모양으로 배포 할 수있는 다양한 방법이 있습니다.

통계 모델의 정확성을 검증하는 가장 좋은 방법 중 하나는 구축 된 데이터에 대해 실제로 테스트하는 것입니다. 이를 수행하는 한 가지 방법은 무작위로 데이터 세트를 두 개의 파일로 분리하는 것입니다. 이 파일들을 각각 Analysis와 Test라고 부를 수 있습니다.

데이터를 무작위로 분할해야 효과적입니다. 예를 들어 데이터 집합을 위쪽 절반과 아래쪽 절반으로 간단히 나눌 수는 없습니다. 거의 모든 데이터 파일은 어떻게 든 정렬됩니다. 이것은 파일의 다른 부분에 다른 통계적 특성을 줄 수있는 체계적인 패턴을 도입합니다. 무작위로 파일을 분할하면 각 레코드에 두 파일 중 하나가 같은 기회가됩니다. 비 유적으로, 각 레코드에 대해 동전을 뒤집어서 어떤 파일이 들어가는 지 결정합니다. 임의성은 두 파일 모두 원래 데이터와 동일한 통계적 특성을 제공합니다.

데이터 세트를 분할 한 후 테스트 파일을 따로 보관합니다. 그런 다음 분석 파일을 사용하여 예측 모델을 작성하십시오. 모델이 빌드되면 테스트 파일에 적용하여 모델이 어떻게 작동하는지 확인하십시오.

이러한 방식의 테스트 모델은

over-fitting 로 알려진 현상을 방지하는 데 도움이됩니다. 본질적으로, 통계적 절차는 변수들 사이에 의미있는 관계를 발견하기보다는 데이터 파일을 암기하는 것이 가능합니다. 오버 끼워 맞춤이 발생하면 모델은 테스트 파일에 대해 매우 불량하게 테스트합니다. 당신이하는 모든 것을 백업하고 문서화하십시오.

통계 소프트웨어는 사용이 매우 간편해지기 때문에 데이터 파일은 물론 리포트 및 그래프 생성을 시작하는 것이 중요합니다.단추를 눌러 프로 시저를 문자 그대로 실행할 수 있습니다. 몇 분 만에 여러 가지 데이터 변환을 기반으로 수십 개의 그래프를 생성 할 수 있습니다. 따라서 작업 한 내용을 추적하기가 매우 쉽습니다. 그 이유는 무엇입니까?

당신이 무엇을했는지에 대한 서면 기록을 보관하는 것이 중요합니다. 그래프는 그래프를 생성하는 데 사용 된 데이터의 이름 (및 버전)으로 레이블되어야합니다. 구축하는 통계적 절차는 저장하고 문서화해야합니다.

데이터 파일을 백업하는 것도 중요합니다. 분석 과정에서 변수의 다양한 수정 및 변형을 반영하는 여러 버전의 데이터를 만들 수 있습니다. 이 버전을 만든 절차를 저장해야합니다. 또한 어떤 변형을했는지 그리고 왜 그 변화가 있었는지를 설명하는 방식으로 문서화해야합니다.

문서 작성은 누구도 좋아하지 않는 작업이지만, 우리는 분석 프로젝트와 관련하여 기억에 의존하지 않을 것을 강력히 권장 할 때 경험을 통해 이야기합니다.

방금 설명한 단계를 수행함으로써 통계 모델의 신뢰성을 극대화합니다. 대부분의 경우, prep 작업은 실제 모델 구축보다 실제로 많은 시간이 소요됩니다. 그러나 그것은 필수적입니다. 그리고 그것을 체계적으로 연구 해 주셔서 고맙습니다.

데이터 준비의 8 가지 우수 사례 - 인형

편집자의 선택

Photoshop Elements 14에서의 헤이즈 제거 방법 - 인형

Photoshop Elements 14에서의 헤이즈 제거 방법 - 인형

Photoshop Elements 14는 유용하고 쉬운 사진에서 안개를 빠르게 제거하는 기능입니다. 공기, 먼지, 흙 등에 가벼운 타격 입자로 인한 헤이즈는 날씨와 시간으로 더욱 강화 될 수 있습니다. 때로는 이미지의 대비 및 선명도를 높이면 이미지 품질을 낮추는 데 도움이 될 수 있습니다.

Photoshop Elements 9의 빠른 편집 모드에서 이미지 편집 방법 - Photoshop의 인력

Photoshop Elements 9의 빠른 편집 모드에서 이미지 편집 방법 - Photoshop의 인력

Elements, Edit Quick 모드는 이미지의 전후 미리보기와 같은 몇 가지 고유 한 기능과 함께 기본 수정 도구를 제공하는 편집 전체 모드의 축소 버전입니다. 빠른 수정 모드에서 사진을 복구 할 때 따라갈 수있는 단계별 워크 플로우는 다음과 같습니다. Photoshop Elements에서 하나 이상의 사진을 선택하십시오.

Photoshop Elements 10의 빠른 사진 편집 모드에서 편집하는 방법 - 인형

Photoshop Elements 10의 빠른 사진 편집 모드에서 편집하는 방법 - 인형

빠른 사진 편집 모드 는 전체 사진 편집 모드의 축소 버전으로 기본 고정 도구를 편리하게 제공하고 이미지의 사전 및 사후 미리보기와 같은 몇 가지 고유 한 기능을 토스합니다. 빠른 사진 편집 모드에서 사진을 복구하기 위해 따라갈 수있는 단계별 워크 플로가 있습니다.

편집자의 선택

페이스 북에서 친구가되는 것 - 인형

페이스 북에서 친구가되는 것 - 인형

여러면에서 페이스 북 친구는 실생활 친구와 같은. 이들은 당신과 어울리고, 연락하고, 관심을 가지고 있고, 친구로 공개적으로 인정하고 싶은 사람들입니다. 이들은 Facebook에서 만난 사람들이 아닙니다. 오히려, 그들은 당신이 전화로 부르는 사람들입니다; 멈추고 따라 잡으십시오.

Facebook 메신저는 무엇입니까? - 인형

Facebook 메신저는 무엇입니까? - 인형

Facebook Messenger는 Facebook에 내장 된 인스턴트 메시징 기능입니다. 메신저는 원래 2011 년에 시작되어 그 성공에 힘 입어 2014 년에 등장한 전용 응용 프로그램과 웹 사이트가 생겨났습니다. 응용 프로그램과 웹 사이트는 Facebook 데이터베이스에 연결되고 인앱 Facebook 메시징 서비스를 대신하는 인스턴트 메시징 서비스입니다. 그것은 허용합니다 ...

Aquila Facebook Drone은 무엇입니까? - 인형

Aquila Facebook Drone은 무엇입니까? - 인형

Aquila Drone은 데이터 연결이없는 세계의 외딴 지역에 인터넷을 가져 오려는 Facebook의 시도입니다. 소셜 미디어 거물에 의한이 이니셔티브는 태양열로 가동되는 특수한 무인 항공기를 사용하려고합니다. 무인 항공기는 구역 위를 가리 키도록 설계되어 있으며, 무인 항공기 없이도 웹 연결이 가능합니다. Credit : ...

편집자의 선택

코칭 풋볼 인형 용 치트 시트 - 인형

코칭 풋볼 인형 용 치트 시트 - 인형

코치 풋볼은 당신의 선수들에게 동기를 부여합니다. 연습과 게임을위한 올바른 장비 공급; 축구 경기 전, 경기 중 및 경기 후에 시설과 팀을 준비시켜야합니다.

축구 코치는 다른 시대의 어린이들에게 맞춰져 있습니다 - 인형

축구 코치는 다른 시대의 어린이들에게 맞춰져 있습니다 - 인형

축구 코칭 책임의 일부는 알고 이해하고 있습니다 특정 나이 수준에서 게임을하는 젊은이의 육체적으로나 감정적으로 모두 무엇을 기대해야합니다. 이 연령대의 6 세 이하 아동을 코칭하는 것은 아마도 전에는 축구를 해보지 않았을 것이고, 이번 시즌은 매우 잘할 것입니다.

축구 코치의 하프 타임 팀과의 대화 - 인형

축구 코치의 하프 타임 팀과의 대화 - 인형

터치 다운을 기록하고, 패스를 떨어 뜨리고, 다이빙 태클을 만들고, 공을 더듬는 등 모든 종류의 것들을 볼 수 있습니다. 선수가 하프 타임을 위해 필드에서 벗어날 때, 머리 속에 많은 정보를 갖게되며 많은 시간을 소모하지 않게됩니다 ...