본문 바로가기

Brightics

[삼성 SDS Brighitics] 【데이터 전처리 시리즈-④】데이터 샘플링-다양한 샘플링 기법 활용

안녕하세요!!

베키입니다!!

오늘은 데이터를 모델링했다면

실제로 성능 측정을 위해 꼭 필요한 테스트 데이터를 만들어보는 실습을 해보겠습니다!!

데이터 샘플링 실습으로 바로 ㄱㄱ~~


▼오늘 실습에 사용한 데이터셋과 튜토리얼은 모두 아래 링크를 들어가면 지원받을 수 있습니다!▼

https://www.brightics.ai/docs/ai/s1.0/tutorials/10_py_sampling?type=insight


일단 브라이틱스를 모두 실행시켜주세여~~

프로젝트 '데이터 전처리 시리즈' 안에 '4탄 : 데이터 샘플링'이라는 모델을 생성했습니다!!

Row가 1000개 나 되는 데이터를 load시켰습니다!

이제 데이터를 train datatest data로 나누는 것을 쉬운 일입니다!!

Split Data함수를 사용!!

Train : Test = 4:6 비율로 split하면

>>>>>>>>

오른 쪽의 결과처럼 데이터가 Train과 Test로 나뉘어집니다!

※※※※※참고※※※※※

Seed를 설정하는 이유는??

다음에 같은 데이터로 같은 시행을 해도 같은 식으로 뽑히도록

뽑힌 경우를 고정!!하기위해서!!

▶▶▶▶▶난수 생성기의 seed인거죠!!


여기서 Random Sampling 도 사용해보았는데요!!

Random으로 겹치는 것 없이, 그룹이 있다면 비율에 맞춰서 뽑는 것입니다!

오른쪽의 결과를 보면 0.3의 비율에 맞게 랜덤으로 그룹에 따라 뽑힌 결과입니다!

1000개의 0.3%이면 3개이고, 그룹이 3개니까 각 1개씩 뽑힌거네요!!

이렇게 실습을 마치겠습니다!!

끄읏!!

#브라이틱스 # Brightics #튜토리얼 #실습 #데이터 #전처리 #시리즈 #4탄 #샘플링 #train #test #split #데이터분할 #샘플 #모델링 #필요 #전처리함수 #대학생 #서포터즈 #seed #난수생성 #난수 #랜덤 #샘플뽑기 #서포터즈 #Studio #링크 #검색 #직접해보기 #자체 #실습