안녕하세요!!
브라이틱스 서포터즈 베키입니다!!!
이번 Brightics Studio 리뷰로
k-mean clustering을 사용한 iris 꽃 품종 분류 분석을 해보겠습니닷!!
저는 이 두개의 영상을 참고했습니당~
먼저 바탕화면에 설치된 Brightics 아이콘을 더블 클릭해주면,
◁요롷게 생긴 아이콘입니당
아래와 같은 화면이 뜹니다.
이렇게 Brightics Studio Launcher 창이 뜹니당~
뭐지?? 당황하지 말구 Start All Services for ML 을 누르세요!!
(우리는 단순 분류를 해볼것이기에 딥러닝DL이 아니라 머신러닝 ML 서비스를 사용할 거에여~~,
다음에 파이토치를 사용하거나, 이미지 딥러닝을 하다면 위에서 DL로 바꾸어야 겠죠!?!)
이렇게 3개의 항목이 다 Loading 되는데, 시간이 오래 걸리지는 않아여~
이렇게 loading이 자동으로 끝났는데,,,,
저는 Stop Python Process 항목은 Ready가 안 뜨는데,,,,,;;;
아마도 현재 제가 사용하고 있는 노트북은 최근에 패키지 관리로 Python 3.xx버전을 지우고,
Anaconda만 정리해 놓아서 Python자체는 설치가 안되어서 stop할 수가 없는 게 아닐까 싶습니다.
이렇게 자동으로 Chrome 브라우저로 Brightics studio가 열립니다!
저는 ‘K-mean clustering’라는 이름의 새로운 프로젝트를 실행해보려고 합니다.
이렇게 프로젝트가 생성된 것을 확인할 수 있습니다!
그리고 New를 클릭해 새로운 모델을 만듭니다!
저는 이렇게 모델 이름과 설명을 작성했는데요,
제 프로젝트, 모델 이름만 보고 바로 Template 추천을 해주었는지,
iris, classification, clustering 등 다양한 ML Classification 분류 모델을 추천으로 보여주고 있습니다
저는 직접 K-mean clustering 분석을 해볼 것이기에 Default를 누르고 시작하겠습니당!
빈화면에서,
일단은 Load 함수로 iris 데이터를 불러와야합니다.
왼쪽에 Input Path를 클릭해서 Brightics studio >upload>sample_iris.csv을 클릭!
그리고 Run 누르기!
분류를 위해 K-Means 함수를 선택!
여기서 잠깐,,
K-Mean Clustering이 뭘까요??
k-평균 알고리즘(K-means algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로,
각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작!
클러스터 위치를 조금씩 이동해 가면서, k개이 군집으로 데이터를 분류!
▶ 군집 분석의 방법이자, 어떻게 보면 분류에 속하기도 함.
(참고!)
Input 데이터로 Select Columns 에서 sepal_length와 sepal_width를 클릭,
그리고 Number of Cluster(k)를 3으로 설정!
Run을 눌러, K-Means 함수를 실행시키면
오른쪽에 prediction 결과가 뜨는데, 0,1,2 이렇게 3가지로 예측 분류 된 것을 알 수 있습니다.
여기서 차트를 그려보려고 합니다.
Chart setting에서 type을 Scatter plot(산점도)로 하고, Color By를 String-species로 설정합니다.
그럼 아래처럼 됩니다.
차트를 복제(Duplicate)하고 vertical로 새워주면 이렇게 됩니다.
오른쪽 산점도는 Color By 를 integer – prediction으로 설정해주면 아래처럼 됩니당!
보면,,
Setosa 품종은 0번으로 분류되고,
Versicolor 품종은 2번으로 분류되고,
Virginica 품종은 1번으로 분류된 것을 알 수 있습니다.
어느 정도의 정확도로 분류했는지, evaluation 함수를 사용해 모델을 평가해보려고 합니다.
Evaluate Classification함수를 선택!
Label Column은 정답이므로 ‘species’로 하고, Prediction Column은 ‘prediction’ 값을 넣기
이렇게 Run 하면 ERROR!가 발생!!
Label 값은 String(문자값), Prediction 값은 integer(정수값)이어서 에러발생!!!
Add Column 함수를 추가해서 에러를 해결하려고 합니다.
아래와 같이 Add Column 조건을 작성하고 실행해보면,,,
Run을 돌리면 에러없이 돌아가고
다시 Evaluation함수로 돌아가 Prediction Column을 prediction->Pred 로 변경 후 Run!!
이렇게 K-means로 실행한 Classification의 결과가 반환됩니다.
Setosa 정확도는 100%, versicolor 품종 정확도는 71.69%, virginica 품종 정확도는 0.744로 꽤 높은 정확도를 보임을 알 수 있습니다!!
이렇게 2차미션이자, ML을 배웠던 사람이라면
흔히 접하는 iris데이터를 사용해 분류하는 시간을 가졌는데요ㅠㅠㅠ
종강 후에 열심히 급하게 쓰느라 약간 아쉬움도 많이 남는 리뷰였던 것 같습니다 ㅠㅠㅠ
다음 리뷰에서 만나요~~~