본문 바로가기

Brightics

[삼성 SDS Brightics]【5주차 개인 분석 미션 ②//데이터 전처리 총정리】 (채널 별로, 분야별로)_더 필요하면 json에서 데이터 추가가능!

안녕하세요!!

베키입니다!!!

이번 포스팅에서 전체적으로 어떻게 전처리를 했는지!!!

보여드리려고 합니다!!!!


<채널 별 전처리>

1단계 : publishedDate(업로드날짜)를

python Script를 사용해, 깔끔하게 변환!!

2단계 : 변환된 publishedDate(업로드날짜)를

python Script를 사용해, 깔끔하게 업로드 날짜 간격 구하기!

위의 스크립트에 이렇게 python 코드만 바꾸면 완료!!

3단계 : 채널별로 구독자수가 다르기에, Normalization function을 사용해

comments, views, likes, dislikes 수는 다 채널 별로 각각 MinMax Scaling 화 하기!!

보시면 이런게

0~1 사이의 값들로 스케일링해서 다른 채널끼리 비교가 가능해졌습니다!!

4 단계 : 결측값 채우기!!!

간혹 결측값이 있는 경우가 있습니다.

그럴 경우에는 Brightics studio의

이 null 값 채우는 function을 사용하면 되겠죠!!!


<분야 별 전처리>

위처럼 개별적으로 전처리가 끝났다면!!!

Join을 사용해서

채널 별로 데이터를 합치면 됩니다!!

이런식으로 16개의 운동채널을 다 합치면 됩니다!!

다합쳤다면!!!

1단계 : 전체적으로 영상 제목의 text데이터에서

토큰화 한 후!! stopword 제거까지!! 수행!!

이렇게 Brightics에서 지원되는 Korean tokenizer 로 영상 제목 데이터를 다 조각조각 자르고,

Stopwords Remover로 자르면!!

이렇게 아래 처럼 워드 클라우드로 키워드를 뽑아 자주 사용된 단어를 볼 수가 있어요 ㅎㅎ

워드 클라우드 뽑을려고 텍스트 데이터를 전처리 한거는 아닙니다 ㅋㅋㅋ

다음주에 진행할 텍스트 마이닝 관련해서 전처리가 필요해서 수행한 과정들입니다!!

2단계 : '좋아요'와 '싫어요'의 상대지수 계산 -> 상대적인 값을 사용

'좋아요'수/'싫어요수' = 상대지수

이렇게 계산해서 싫어요수 대비 좋아요수를 계산!!

이렇게 저번주에 코드상으로 표현했던 좋아요/싫어요 값을

Brightics의 Add Fuction Columns를 사용해서 구해봤어요!!!

진짜로!

이게 너무 편해요!!

Add Function Columns 함수 클릭

-> 새로운 칼럼 이름 입력, likes/dislikes입력

만 하면 끝!!

진짜 편하죠??

저번주에 코드 치면서 하고 있었는데,,,,

바로 Brightics 키고 할 걸 그랬어요 ㅎㅎ

이렇게 이번주 포스팅을 마치겠습니다!!

#Brightics #AI #데이터분석 #유튜브 #데이터 #전처리 #총합본 #합치기 #오류 #문제해결 #스케일링 #정규화 #join #업로드 #날짜 #계산 #파이썬 #Script #우수한 #기능 #사용 #브라이틱스 #삼성SDS #크롤링 #개인미션 #텍스트전처리 #토큰화 #데이터사이언스 #소프트웨어 #응용통계 #EDA