
안녕하세요 삼성 Brightics 서포터즈 3기 문수빈입니다!
이번 서포터즈로 활동할 수 있어서 감사하고 영광입니다 ㅎㅎ
이 블로그에 들어오신 분들은 데이터 분석을 하실 때 더 편리하게 하고 싶어서 들어오셨다고 생각합니다!
비전공자분들도 쉽게 데이터 분석을 할 수 있어서 참고하시면 좋을 것 같아요~!
제가 실제로 파이썬을 썼을 때와 비교하면서 어떤 점이 편리했는지 마지막에는 정리하려고 해요 ~~
면접 후기와 발대식 후기는 차근차근 올리도록 할게요!!
본격적인 데이터 분석에 앞서 Brightics Studio를 체험해 보고 자세한 후기 알려드리는 첫 포스팅!!
시작합니다~~!

Brightics AI 버전과 Studio 버전 무엇이 다를까??
Brightics라고 검색하면 AI 버전과 Studio 버전이 있는데요 두 개의 차이점은
AI 버전은 유료이고 Studio 버전은 무료로 사용이 가능해요! 그리고 AI 버전은 Scala, SQL, R, Python 언어를 지원하고 Studio 버전은 Python, SQL을 지원하고 있습니다~! 아무래도 AI 버전이 많은 언어를 지원하고 있네요!
이번에 저희가 다운로드하고 체험해 볼 버전은 Studio 버전입니다~!!
이제 본격적으로 Studio 버전을 설치하러 가볼까요??
1. 로그인 및 설치
이 링크로 들어가면 다운로드할 수 있는 창이 나옵니다!

계정을 만들고 자신의 컴퓨터에 맞는 운영체제를 선택해 주세요!

다운로드를 하고 나면 이 폴더가 생긴 것을 볼 수 있어요!
* Edge에서 다운로드하시면 안 되고 Google Chrome(50.0 버전 이상) > 최신 버전 사용 권장
크롬에서 다운로드하셔야 합니다!!!
* 방화벽 문제가 생겼을 경우 계속 다운로드하기 버튼 누르시면 됩니다!
2. Brightics Studio 실습

저는 이미 이전에 스튜디오를 설치 한 경험이 있어서 2개의 프로젝트가 있어요!
설치 후 실행을 해주면 이런 화면이 뜨는데요 여기서 + 버튼을 누르고 프로젝트를 만듭니다

저는 지난 학기에 다변량 데이터 분석 과목을 들으며 Python으로 미국의 월 임대료에 영향을 주는 요인을 분석하는 다중회귀분석을 과제로 했었는데요 그래서 전 Term Paper 이름으로 프로젝트를 만들었어요!

여기서 New를 클릭합니다!

원하는 Template를 고를 수 있는데 저는 제가 원하는 방식으로 데이터 분석 과정을 하고 싶어서 Default를 선택했어요~! 이번 학기에 다변량 데이터 분석 과목 시간에 과제로 했던 데이터를 가지고 해보겠습니다!
회귀 분석 과정은 위와 똑같은 과정으로 진행해도 되지만 저는 다중회귀분석을 하고 싶기 때문에 튜토리얼을 참고해서 분석 과정을 바꿨습니다~~!

다중 선형회귀분석(1) | Brightics ML v3.7 Tutorial < 저는 이 링크를 참고했습니다!
다양한 튜토리얼을 제공하기 때문에 분석 과정을 참고하고 싶은 분들은 가서 보셔도 좋을 것 같아요!!

저의 분석 flow입니다!!
데이터 불러오기

데이터를 불러오기 위해 경로를 선택합니다!

Add 버튼을 클릭합니다

Local을 누르고 원하는 데이터를 불러옵니다!
One Hot Encoder

범주형 변수는 분석 과정에서 컴퓨터가 인식하지 못하기 때문에 숫자로 변환하여 분석 가능한 형태로 변환합니다!
그래서 One Hot Encoder 함수를 사용합니다
인코더 후 state와 bld_type의 더미 변수가 생긴 것을 볼 수 있습니다!
독립변수 이상치 1차 제거

빨간색으로 표시된 부분을 선택합니다

Filter 함수를 이용해서 area(면적) bed_cnt(침대의 개수) baths_cnt(침실의 개수)가 0인 것은 데이터에서 제거합니다
그 이유는 면적, 침대의 개수 침실의 개수가 0이면 월 임대료에 영향을 주지 않을 것이라고 판단했기 때문입니다!

Filter 이후 10,000개에서 9,632개로 데이터가 줄어든 것을 볼 수 있습니다!
종속변수 이상치 확인

종속변수가 이상치를 가지고 있는지 보기 위해 load 과정에서 box-plot으로 그려줍니다
x-axis: Column names
y-axis: rent_month
box-plot으로 확인해 보니 위에 이상치가 많이 분포하는 걸 볼 수 있네요!
독립변수 이상치 2차 제거 & 종속변수 이상치 제거
이상치를 제거하기 위해서 Outlier Detection(Tukey/Carling) 중 일반적으로 쓰는 Tukey 방식을 사용했습니다!

box-plot에서 일반적으로 사용하는 이상치 제거 기준인 사분위 범위의 1.5배를 기준으로 이상치를 제거합니다!
< 종속변수 이상치 제거 전후 비교>

아까보다 위에 있던 이상치가 줄어든 것을 확인할 수 있습니다!

위의 과정을 코드로 구현한다면... 이렇게 복잡한 과정을 거쳐야 했는데 Brightics Studio 최고 최공

y가 rent_month 중 그나마 상관계수가 높은 변수는 area(0.17)로 결과가 나옵니다!
데이터 분리하기(Train과 test)

Train과 Test 데이터로 분리합니다! 비율은 Train data 7, Test data 3으로 나누었습니다
seed는 난수라고 보면 되는데요! 데이터가 분리될 때 무작위로 분리되는 것을 막기 위해 seed를 설정해 주어야 합니다! 저는 123이 생각나서 123으로 설정했습니다~~!
다중 선형회귀분석
독립변수: rent_month 제외 한 모든 변수
종속변수: rent_month(월 임대료)


분석 결과 Adj.R squared는 0.106으로 정확도가 매우 낮게 나타납니다
이럴 경우 다중 공산성 검정과 잔차 검정을 통한 모형 수정이 필요하고 모형 수정 후에 정확도가 그전에 비해 어떻게 바뀌는지 분석할 필요가 있습니다! 이 과정은 다음에 블로그 글에서 자세히 다뤄 보도록 하겠습니다!
Brightics를 쓰면서 python과 차별화되는 장점이 있었는데요~~!
무엇보다 코딩 시간이 단축된다는 점!!!
python에서는 코드를 직접 입력하느라 시간이 오래 걸렸는데 Brightics를 이용하면서 시간이 단축돼서 좋았어요~!
비전공자도 데이터 분석을 해볼 수 있다는 점!!!
데이터 분석하면 전문적이고 어렵게 느껴지실 텐데 Brightics 하나면 충분히 자신이 분석하고 싶은 데이터를 쉽게 분석할 수 있어요! (파이썬 기능은 숙지한다는 가정하에요!)
데이터를 따로 파일에 저장하는 코드를 안 써도 된다는 점!!!
제가 Python에서 분석을 할 때 데이터에서 Train data와 Test data를 나누고 저장하는 코드를 따로 쓰고 다시 분석할 때 불러오는 과정을 거쳐야 했는데 Brightics에서는 파일을 저장하는 코드를 따로 쓰지 않고 쉽게 마우스로 연결해서 분석할 수 있다는 점이 좋았어요(파이썬에서 분석할 때 파일 이름이 잘못 들어가서 분석에 오류가 나는 경우도 있었답니다..)
Brightics의 매력은 여기서 다가 아니죠~ Brightics를 이용해 분석해 보면서 앞으로 많은 매력을
알아가 볼 예정입니다~~!
지금까지 서포터즈 3기 문수빈이었습니다 읽어주셔서 감사합니다 •ө•
앞으로 개인/팀 분석과 발대식 후기 등 다양한 게시물을 올릴 예정이니 많은 관심 부탁드려요🤍
* 본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.
#대외활동 #삼성 SDS #Brightics #Brightics Studio #브라이틱스 #브라이틱스서포터즈 #모델링 #데이터 분석 #코딩 #빅데이터 #인공지능 #파이썬 #분석 툴 #분석프로그램 #회귀분석 #다중선형회귀분석
'Brightics 서포터즈 3기' 카테고리의 다른 글
[삼성 SDS Brightics] 자율주행 센서의 성능UP! #팀 분석 프로젝트 1편 #팀 분석 프로젝트 1편 (0) | 2022.08.16 |
---|---|
[삼성 SDS Brightics] 개인분석 #1-3 브라이틱스로 고객 이탈 여부를 얼마나 잘 맞출까?(feat.로지스틱회귀분석) (0) | 2022.07.12 |
[삼성 SDS Brightics Studio ]#1-2 고객 이탈 여부 예측하기 2탄!(더미변수가 뭐람) (0) | 2022.07.03 |
[삼성 SDS Brightics Studio]#1-1 브라이틱스로 고객 이탈 여부 예측하기!(전처리.. 왜 필요한 거지?) (0) | 2022.06.28 |
삼성 SDS Brighitcs 서포터즈 3기] 발대식에선 과연 무슨 일이??(EBC 센터는 어떤 곳이람) (0) | 2022.06.27 |