데이터 전처리
데이터 정제
1. 데이터 정제 절차① 데이터 오류 원인 분석
② 데이터 정제 대상 선정
③ 데이터 정제 방법 결정
2. 데이터 정제 기술① 데이터 일관성 유지를 위한 정제 기법
② 데이터 정제 기술
3. 데이터 세분화(Data Segmentatioin)
데이터 결측값 처리
1. 데이터 결측값의 종류
2. 데이터 결측값 처리 절차① 결측값 식별
② 결측값 부호화
③ 결측값 대체
3. 데이터 결측값 처리 방법① 단순 대치법(Single Imputation)
② 다중 대치법(Multiple Imputation)
데이터 이상값 처리
1. 데이터 이상값 발생 원인① 데이터 입력 오류
② 측정 오류
③ 실험 오류
④ 고의적인 이상값
⑤ 표본추출 에러
2. 데이터 이상값 검출 방법① 개별 데이터 관찰
② 통계 기법(값) 이용
③ 시각화 이용
④ 머신 러닝 기법 이용
⑤ 마할라노비스 거리(Mahalanobis Distance) 활용
⑥ LOF(Local Outlier Factor)
⑦ iForest(Isolation Forest)
3. 데이터 이상값 처리① 삭제(Deleting Observations)
② 대체법(Imputation)
③ 변환(Transformation)
④ 박스 플롯 해석을 통한 이상값 제거
⑤ 분류하여 처리
분석 변수 처리
1. 변수 선택① 변수 유형
② 변수 선택
③ 변수 선택 기법
㉮ 필터 기법(Filter Method) Show
㉯ 래퍼 기법(Wrapper Method)
㉰ 임베디드 기법(Embedded Method)
2. 차원축소
3. 파생변수 생성
4. 변수 변환
① 단순 기능 변환(Simple Functions Transformation)
② 비닝(Binning)
③ 정규화(Normalization)
④ 표준화(Standardization)
5. 불균형 데이터 처리
① 언더 샘플링(Under-Sampling)
② 오버 샘플링(Over-Sampling)
③ 임곗값 이동(Threshold-Moving)
④ 앙상블 기법(Ensemble Technique)
|