비디오: [도구로 푸는 통계 강의, R] 42. 중복 된 값을 다루는 함수 (unique, duplicated) 2024
데이터는 다른 시스템에서 다른 방식으로 저장됩니다. 따라서 다양한 소스의 데이터를 수집하고 통합 할 때 중복 된 팝업이 가능하다는 것은 놀라운 일이 아닙니다. 특히 개별 레코드를 고유하게 만드는 것은 시스템마다 다릅니다.
투자 계정 요약은 계좌 번호에 첨부됩니다. 포트폴리오 요약은 개인 또는 세대 단위로 저장 될 수 있습니다. 그리고 모든 계정의 거래 내역은 개별 거래 수준에 저장됩니다.
데이터 파일의 고유 레코드를 구별 할 대상을 분명히하는 것이 중요합니다. 예를 들어 거래 레벨 파일 인 경우 계좌 번호와 세대 ID가 복제됩니다. 이 사실을 이해하고 트랜잭션 수준의 분석을 수행하는 동안에는 괜찮을 것입니다.
하지만이 데이터를 사용하여 각 세대가 보유한 계정 수를 분석하는 데 관심이 있다면 문제가 발생할 것입니다. 더 자주 거래하는 가구는 많이 거래하지 않는 가구보다 많은 기록을 보유하게됩니다. 계정 수준에서 파일이 있어야합니다.