안녕하세요!!
베키입니다!!
오늘 아주 중요한 얘기를 먼저 시작하겠습니다!!!
일단!!!!!
저의 개인 미션 주제가 많은 생각과 고민 끝에 변경되었습니다!!!!
기존 주제 : This is Korea Factfulness
▼▼▼
확정 주제 : 제 2의 직업, 유튜버 (채널 분야별 성공 공식이 있을까?)
아무리 생각해봐도,,,이 주제가 좀 더 fascinating 해요! 매력적!
요.즘.에.
직장인Vlog, 퇴사 채널, 퇴근 후 Fitness 채널 등 인플루언서가 아니어도,
평범한 직장인도 누구나 크리에이터에 도전하고 있는데요,
개인의 특징을 살려 콘텐츠화시켜 전문 크리에이터로 전향한 경우도 정말 많습니다.
그.런.데.
성공하는 유튜브는 정말 일부이고,
수요가 많은 만큼 대중들의 관심 속에서 쉽게 잊혀지기도 합니다.
그래서! 저는 유튜브에도 성공 공식이 있다고 생각하고,
이 성공 공식을 알아보려고 합니다!!
★NEW 프로젝트 목적★
채널 분야별 성공 공식 찾기!!!
내가 만약 유튜버로 전향한다고 가정할 경우,
어떤 분야 채널은 어떻게 운영해서 어느 정도 결과가 나올 수 있음을
예상할 수 있는 수준까지 데이터로 분석해보기!!!
★데이터 수집 경로★
YouTube의 경우 bs4(BeautifulSoup)을 사용한 Parsing 형식의 크롤링을 막고 있는데요ㅠㅠ
40개의 영상의 데이터를 크롤링하는 경우, 창이 바로 닫힙니다...
그래서 이와 같은 문제점을 해결하고자
Selenium을 사용하면서 40개 단위에 맞추어서 크롤링하면 되지만ㅇㅇㅇ
그 많은 영상들을 40개씩 데이터를 수집하는 것은 시간적 효율이....ㅎ.....
(bs4로 크롤링 하면 대략,,,,, 돌리는 시간만 3일??......이건 아닌 것 같은ㄴㄴ데,,,)
그래서 Google Developer에서
지원하는 YouTube API를 사용하려고 합니다.
Google Cloud Platform
하나의 계정으로 모든 Google 서비스를 Google Cloud Platform을 사용하려면 로그인하세요. 내 계정 찾기 계정 만들기 Google 계정 하나면 OK
console.developers.google.com
사용할 API 는 ‘YouTube Data API v3’입니다.
위의 API는 !!!
유튜브 영상의 기본적인 통계 정보,
예를 들면 조회수, 좋아요수, 싫어요수, 구독자수, 댓글 수,
영상 태크 종류, 라이브 방송 여부 등 등을 제공합니다.
위의 API를 사용하여 총 5가지 분야의 데이터를 확보하려고 합니다!
- Health & Fitness 유튜브 채널 20개
- Beauty 유튜브 채널 15개
- 영상(영화, 드라마) 리뷰 유튜브 채널 15개
- Food 크리에이터 채널 10개
(먹방X, 뒷광고 여파가 커 댓글수, 좋아요수, 싫어요수가 영상 업로드 날짜와 맞지 않음.)
- 경제,시사,영어공부 전문 지식 채널 20개 (필요에 따라 세분화될 가능성 있음.)
*위의 5가지로 분야를 설정한 이유는 평범한 일반인이 유튜브를 시작할 때, 흔히 시작하는 분야이고, 그렇기에 채널 분야별 성공 공식을 아는게 매우 필요한 중요하다고 생각했습니다.
*위의 개수는 채널의 개수이고, 채널마다 수집하는 영상의 개수는 최소 50개에서 많게는 500개까지 다양합니다. 즉, 수집할 총 영상 데이터는 최소 15000개 정도입니다.
★데이터 전처리 계획★
이번주가 원래는 데이터 전처리 주인데,,,,
제가 하루 전에 API를 사용해 데이터를 불러오는 코드를 완성해서,,,,
지금 채널주소를 바꾸면서 데이터를 확보하고 있는 상태입니다....
그래서!!! 어떻게 전처리 해야하는지 간단하게 정리해보았습니다!!
① Json 파일-> DataFrame
위의 Google YouTube API를 사용해서 데이터를 수집할 경우 우리가 편하게 사용했던
CSV 파일 형식으로 데이터가 저장되지 않고 json 파일 형식으로 데이터가 저장됩니다.
Key, Value로 구성된 형식이기에 python의 dictionary 자료형을 사용해 DataFrame으로 만들면 no problem!!.
② 업로드 날짜, 영상 제목 외의 string 자료형은 기본적인 텍스트 전처리 필요
업로드 날짜의 경우, json으로 뽑아질 때, ‘2020-07-09T11:00:02Z’ 형태인데,
정규식(Re)나 datetime같은 class를 사용해 2020-07-09 식으로 바꾸어야하고,
필요에 따라 연, 월, 일로 쪼개서 칼럼 생성해도 될 것 같습니다.
또한 영상 제목에 생각보다 다양한 문자가 많이 들어가는데,
정규식(Re)을 사용해 특수문자를 제거해주고,
텍스트 마이닝에 사용할 수 있게 토큰화(tokenize)하는 작업을 수행하면 끄읏!!
③ 이외의 필요한 전처리가 있다면, 다음 주 블로그 포스팅 시, 충분히 작성하도록 하겠습니다.
★분석 대상★
☆ 분야별 영상 조회수와 실질 구독자 수의 상관성
☆ 업로드 일정에 따른 구독자수와 조회수의 변화 추이
☆ 텍스트분석을 통해, 채널 분야에 맞는 최적의 영상 제목은?
☆ 영상 별 태그를 통해 분야 별 중요한, 필수 태그는?(태크를 카운트)
☆ “조회수, 구독자수가 ?? 만 명정도 되려면 ??개의 영상 업로드와
좋아요수, 댓글수, 채널 운영기간은 나와야한다”식의 인사이트 얻기
☆ 테스트 데이터를 사용해 실제 조회수, 좋아요수 예측 ML 모델링
나름 적어 봣는데,,,, 더 추가/삭제 될 수 있습니다....
일단 요 정도에서 포스팅을 마치고
2차 포스팅으로 넘어가 데이터 확보한 내용을 좀 더 자세히 말씀드리겠습니다!!
#삼성SDS #브라이틱스 #서포터즈 #데이터분석 #AI #개인미션 #유튜브 #크롤링 #API #youtube #Google #Developer #데이터확보 #주제선정 #주제수정 #계획서 #크리에이터 #성공공식 #데이터 #분석미션 #주제 #BrighticsAI #Brightics #Studio