안녕하세요!!
베키입니다!!
오늘은 데이터를 모델링했다면
실제로 성능 측정을 위해 꼭 필요한 테스트 데이터를 만들어보는 실습을 해보겠습니다!!
데이터 샘플링 실습으로 바로 ㄱㄱ~~
▼오늘 실습에 사용한 데이터셋과 튜토리얼은 모두 아래 링크를 들어가면 지원받을 수 있습니다!▼
https://www.brightics.ai/docs/ai/s1.0/tutorials/10_py_sampling?type=insight
일단 브라이틱스를 모두 실행시켜주세여~~
프로젝트 '데이터 전처리 시리즈' 안에 '4탄 : 데이터 샘플링'이라는 모델을 생성했습니다!!
Row가 1000개 나 되는 데이터를 load시켰습니다!
이제 데이터를 train data와 test data로 나누는 것을 쉬운 일입니다!!
Split Data함수를 사용!!
Train : Test = 4:6 비율로 split하면
>>>>>>>>
오른 쪽의 결과처럼 데이터가 Train과 Test로 나뉘어집니다!
※※※※※참고※※※※※
Seed를 설정하는 이유는??
다음에 같은 데이터로 같은 시행을 해도 같은 식으로 뽑히도록
뽑힌 경우를 고정!!하기위해서!!
▶▶▶▶▶난수 생성기의 seed인거죠!!
여기서 Random Sampling 도 사용해보았는데요!!
Random으로 겹치는 것 없이, 그룹이 있다면 비율에 맞춰서 뽑는 것입니다!
오른쪽의 결과를 보면 0.3의 비율에 맞게 랜덤으로 그룹에 따라 뽑힌 결과입니다!
1000개의 0.3%이면 3개이고, 그룹이 3개니까 각 1개씩 뽑힌거네요!!
이렇게 실습을 마치겠습니다!!
끄읏!!
#브라이틱스 # Brightics #튜토리얼 #실습 #데이터 #전처리 #시리즈 #4탄 #샘플링 #train #test #split #데이터분할 #샘플 #모델링 #필요 #전처리함수 #대학생 #서포터즈 #seed #난수생성 #난수 #랜덤 #샘플뽑기 #서포터즈 #Studio #링크 #검색 #직접해보기 #자체 #실습
'Brightics' 카테고리의 다른 글
[삼성 SDS Brighitics] 【데이터 전처리 시리즈-⑥】 데이터 속 결측값처리(2) (0) | 2020.08.04 |
---|---|
[삼성 SDS Brighitics] 【데이터 전처리 시리즈-⑤】 데이터 속 결측값처리(1) (0) | 2020.08.04 |
[삼성 SDS Brighitics] 【데이터 전처리 시리즈-③】데이터 변경 - 성적 데이터를 조건에 따라 데이터 변경 (0) | 2020.08.04 |
[삼성 SDS Brighitics] 【데이터 전처리 시리즈-②】 파생변수 생성과 데이터 저장 ▶날짜 변수에서 월과 요일 변수 생성 (0) | 2020.08.04 |
[삼성 SDS Brighitics] 【데이터 전처리 시리즈-①】 Join 함수를 이용한 데이터 결합 (0) | 2020.08.04 |