비디오: [2019 GGGF] 김준호 신한카드 셀장 “금융 데이터 개방하면 주도권 소비자에 옮겨갈 것” 2024
예측 분석 프로젝트의 경우 적절한 데이터 소스를 확인하고 해당 소스의 데이터를 풀어 놓아야합니다 구조화되고 체계적인 형식으로 제공됩니다. 이러한 작업은 매우 어려울 수 있으며 조직 전체의 서로 다른 데이터 책임자간에 신중하게 조정해야합니다.
분석 할 변수도 선택해야합니다. 이 프로세스는 데이터 제약, 프로젝트 제약 및 비즈니스 목표를 고려해야합니다.
선택한 변수는 예측력을 가져야합니다. 또한 예산 및 기간 내에서 프로젝트에 가치 있고 실현 가능한 변수를 고려해야합니다. 예를 들어, 범죄 수사에서 은행 거래를 분석하는 경우 관련된 모든 당사자의 전화 기록은 분석과 관련있을 수 있지만 분석가는 액세스 할 수 없습니다.
프로젝트의이 단계에서 상당한 시간을 할애 할 것으로 예상됩니다. 데이터 수집, 데이터 분석 및 데이터 컨텐츠, 품질 및 구조를 처리하는 프로세스는 시간 소모적 인 작업 목록을 추가 할 수 있습니다.
데이터 식별 과정에서 데이터와 그 속성을 이해하는 데 도움이됩니다. 이 지식은 모델 작성에 사용할 알고리즘을 선택하는 데 도움이됩니다. 예를 들어, 시계열 데이터는 회귀 알고리즘으로 분석 할 수 있습니다. 분류 알고리즘을 사용하여 개별 데이터를 분석 할 수 있습니다.
변수 선택은 데이터를 얼마나 잘 이해하는지에 따라 달라집니다. 최소한 처음에는 수백 가지 변수를보고 평가해야한다면 놀라지 마십시오. 다행히도 이러한 변수로 작업하고 핵심 통찰력을 얻기 시작하면 몇 가지로 좁혀갑니다. 또한 프로젝트 전반에 걸쳐 데이터 변경 사항을 이해함에 따라 변수 선택이 변경 될 것으로 기대하십시오.
당신이 아는 것을 추적하고, 모르는 것을 추적하고, 누락 된 부분을 추적하는 데 사용할 수있는 데이터 목록을 작성하는 것이 유익 할 수 있습니다. 데이터 목록에는 다양한 데이터 요소 목록과 프로세스의 후속 단계에서 관련된 모든 특성이 포함되어야합니다.
예를 들어 특정 기간 동안 우편 번호가 누락되었거나 누락 된 레코드가 있는지 여부를 문서화 할 수 있습니다.
비즈니스 지식을 가진 사람들 ( 도메인 지식 전문가 라고도 함)은 프로젝트 결과에 긍정적 인 영향을 미칠 수있는 주요 변수를 선택하는 데 도움을줍니다. 그들은 당신에게이 변수의 중요성뿐만 아니라 어디서 어떻게 얻을 수 있는지, 다른 가치있는 의견들 사이에서 당신을 설명하는 것을 도울 수 있습니다.