
안녕하세요 Brightics 서포터즈 3기 문수빈입니다!
지난번에는 장애인 인구수 데이터를 추가하고 2021년도의 장애인 인구 비율과 노인인구 비율이 21년도 전화사기 건수에 어떤 영향을 미치는지 살펴보았습니다.
이번에는 총인구 수를 로그 변환하고 총 전화사기 건수를 로그 변환하고
독립변수를 노인인구 비율과 장애인 인구 비율과 로그 변환된 총인구 수를 넣고 종속변수를 연도별 전화사기 건수로 다중 선형회귀분석을 해보고자 합니다!
로그 변환 왜 필요할까?
log 변환을 하기 전에! 로그 변환이 왜 필요한지부터 알아야겠죠!
데이터에 log를 취하는 이유는 정규성을 높이고 분석에서 정확한 값을 얻기 위함입니다. 데이터 간 편차를 줄여 왜 도와 첨도를 줄일 수 있기에 정규성이 높아집니다.
여기서 왜도란 데이터의 분포가 한쪽으로 쏠린 것을 의미합니다.
첨도란 분포의 뾰족한 정도를 의미합니다.
총인구수 그래프와 2021년 총 전화사기 건수 그래프

위 그래프는 총인구수와 2021 총 전화사기 건수 그래프입니다! 왼쪽으로 치우쳐있는 모습을 보아 왜도 문제가 발생했습니다. 앞서 살펴봤던 로그 변환이 필요한 상황입니다.
Add function으로 로그 변환


log(로그 변환할 변수의 이름)을 넣어서 로그 변환을 해줍니다. 실행 후 로그 변환 된 새로운 변수가 잘 생긴 것을
확인할 수 있습니다.
여기서 잠깐! add function columns에 노인인구 비율(총 노인인구수/총인구수)과 장애인 인구 비율(총 장애인 인구수/총인구수) 변수도 추가해 줍니다!

split data & linear regression


학습 데이터와 테스트 데이터를 7:3으로 분리해 주고 독립변수를 3개를 넣고 다중 선형회귀분석을 진행합니다!
다중 선형회귀분석은 독립변수가 여러 개인 회귀 모형을 뜻합니다.
회귀계수와 p-value 확인하기

pvalue check
먼저 P-value를 살펴보면 disable_21의 P-value는 0.05보다 큰 0.1이기 때문에 유의하지 않은 변수입니다.
old_21은 P-value가 0.05보다 작기에 유의한 변수입니다.
coef check
회귀계수를 살펴보면 disable_21은 0.8로 장애인 인구 비율이 총 전화사기 건수를 높이는 변수이고 노인인구 비율의 회귀계수는 -6.6으로 전화사기 건수를 낮추는 변수라고 해석할 수 있습니다. 하지만 장애인 인구 비율 같은 경우 pvalue 값이 유의하지 않기에 장애인 인구 비율이 총 전화사기 건수를 높일 수 있는 가능성이 있다고 말할 수 있습니다!
모델 평가

모델 평가까지 마치면! 정확도가 0.913으로 높게 나오는 것을 확인할 수 있었습니다!
다음 포스팅에서는 2019~2021년도의 회귀계수를 한눈에 정리하고 노인인구 비율과 장애인 인구 비율이 전화사기 건수에 어떤 영향을 미쳤는지 살펴보고 개인 분석프로젝트를 마무리하면서 느낀 점과 활동 후기를 작성해 보겠습니다!
궁금한 점은 언제든 댓글 달아주세요!
* Brighitcs 서포터즈 활동의 일환으로 작성된 포스팅입니다.
#삼성SDS #삼성SDSBrightics #Brightics #브라이틱스 #Brightics서포터즈 #브라이틱스서포터즈 #BrighticsAI #BrighitcsStudio #AI #데이터분석 #빅데이터 #SamsungSDS #분석초보 #브라이틱스스튜디오 #모델링 #노코드AI오픈소스