본문 바로가기

Brightics

[삼성 SDS Brighitics] 【데이터 전처리 시리즈-⑥】 데이터 속 결측값처리(2)

안녕하세요!!

베키입니다!!

오늘은 저번 실습에 이어서 결측값 처리 2단계를 진행해보겠습니다!!!


앞의 실습(결측값 처리 2단계)을 같이 했다면 필요없겠지만,

필요한 분드은 데이터 셋을 다운 받아 주세요!!

 

▼데이터와 자세한 튜토리얼 내용은 아래 링크를 참고해주세엽!!▼

https://www.brightics.ai/docs/ai/s1.0/tutorials/09_2_py_Missing_Number_Imputation?type=insight


앞에서 마지막에 unload로 저장까지 해둔 데이터 파일을 다시 불러와 줍니다!!

이번에는 double형의 숫자값으로 구성된 칼럼의 결측값을 처리할 것이기에,

Statistic Summary 함수를 사용해 요약통계량을 알아보겠습니다!!

오른쪽 화면 처럼 group by를 사용해 성별별로 묶었을 때의 weight, height, bmi 데이터의 요약통계량이 계산됩니다!

보면,,,, weight,,,, bmi,,,,에 null 값이 있습니다..

매꾸어 줘야합니,,,,ㅎ,,,ㅎ,,,,

Replace Missing Number함수를 사용해,

height와 weight의 null값을 각자 칼럼의 Mean(평균)으로 대체시켰습니다!!

그러면 weight와 height에는 오른쪽 결과처럼 null이 없어집니다!!

여기서 한 번 더 bmi값의 null값을 처리해야하는데요!!

수정 된 입력 변수의 평균값을 재사용하는 계산을 수행하기보다는

표준 BMI 레벨에 대응하는 고정 값 20이 할당되는 것이 더 나은 방법!!

(weight나 height가 하나만 null이어도 bmi가 null이고,

방금 weight나 height를 각자의 평균으로 채웠어도,

bmi 계산에는 적합하지 않음,,,,)

Replace Missing Number함수를 한 번 더 사용해

모든 bmi 칼럼의 null값을 20으로 바꾸어 줍니다!!

Discretize Quantile 함수를 사용해 방금 null를 다 제거한 bmi 데이터를

성별에 따라 3개의 구간으로 나누어 값(0,1,2)을 가지게 합니다!!

이 결과를 바탕으로 chart setting을 해보면,,,

왼쪽 위는 그냥 전처리로 null값이 다 지워진 데이터 테이블,

왼쪽 아래는 성별에 따른 bmi지수의 상자도표,

오른쪽 위는 height의 값 별 count수,

오른쪽 아래는 3개로 나뉜 bmi 단계에서의 성별별 추이를

알 수 있다!!!

마지막으로 bmi, height, weight모두 성별별로 평균을 산출해보았다!!

이렇게 실습 끄읏!!!

#브라이틱스 #Brightics #Studio #실습 #튜토리얼 #데이터 #전처리 #시리즈 #6탄 #결측값 #처리 #2단계 #직접 #트라이 #학생 #몸무게 #키 #bmi #지수 #데이터셋 #요약통계 #결측 #null #널값 #서포터즈 #삼성 #SDS #전처리단계 #링크 #지원 #다운로드 #댓글 #대체 #평균 #요약 #통계 #저장