본문 바로가기

Brightics 서포터즈 3기

[삼성 SDS Brightics] 노인인구비율와 장애인인구비율이 높을수록 총 전화사기 건수로 늘어날까?(with 노코드 AI 오픈소스)

안녕하세요 Brightics 서포터즈 3기 문수빈입니다!

지난번에는 장애인 인구수 데이터를 추가하고 2021년도의 장애인 인구 비율과 노인인구 비율이 21년도 전화사기 건수에 어떤 영향을 미치는지 살펴보았습니다.

이번에는 총인구 수를 로그 변환하고 총 전화사기 건수를 로그 변환하고

독립변수를 노인인구 비율과 장애인 인구 비율과 로그 변환된 총인구 수를 넣고 종속변수를 연도별 전화사기 건수로 다중 선형회귀분석을 해보고자 합니다!

로그 변환 왜 필요할까?

log 변환을 하기 전에! 로그 변환이 왜 필요한지부터 알아야겠죠!

데이터에 log를 취하는 이유는 정규성을 높이고 분석에서 정확한 값을 얻기 위함입니다. 데이터 간 편차를 줄여 왜 도와 첨도를 줄일 수 있기에 정규성이 높아집니다.

여기서 왜도란 데이터의 분포가 한쪽으로 쏠린 것을 의미합니다.

첨도란 분포의 뾰족한 정도를 의미합니다.

출처: https://yjam.tistory.com/90

총인구수 그래프와 2021년 총 전화사기 건수 그래프

위 그래프는 총인구수와 2021 총 전화사기 건수 그래프입니다! 왼쪽으로 치우쳐있는 모습을 보아 왜도 문제가 발생했습니다. 앞서 살펴봤던 로그 변환이 필요한 상황입니다.

Add function으로 로그 변환

 

log(로그 변환할 변수의 이름)을 넣어서 로그 변환을 해줍니다. 실행 후 로그 변환 된 새로운 변수가 잘 생긴 것을

확인할 수 있습니다.

여기서 잠깐! add function columns에 노인인구 비율(총 노인인구수/총인구수)과 장애인 인구 비율(총 장애인 인구수/총인구수) 변수도 추가해 줍니다!

split data & linear regression

 

학습 데이터와 테스트 데이터를 7:3으로 분리해 주고 독립변수를 3개를 넣고 다중 선형회귀분석을 진행합니다!

다중 선형회귀분석은 독립변수가 여러 개인 회귀 모형을 뜻합니다.

회귀계수와 p-value 확인하기

pvalue check

먼저 P-value를 살펴보면 disable_21의 P-value는 0.05보다 큰 0.1이기 때문에 유의하지 않은 변수입니다.

old_21은 P-value가 0.05보다 작기에 유의한 변수입니다.

coef check

회귀계수를 살펴보면 disable_21은 0.8로 장애인 인구 비율이 총 전화사기 건수를 높이는 변수이고 노인인구 비율의 회귀계수는 -6.6으로 전화사기 건수를 낮추는 변수라고 해석할 수 있습니다. 하지만 장애인 인구 비율 같은 경우 pvalue 값이 유의하지 않기에 장애인 인구 비율이 총 전화사기 건수를 높일 수 있는 가능성이 있다고 말할 수 있습니다!

모델 평가

모델 평가까지 마치면! 정확도가 0.913으로 높게 나오는 것을 확인할 수 있었습니다!

다음 포스팅에서는 2019~2021년도의 회귀계수를 한눈에 정리하고 노인인구 비율과 장애인 인구 비율이 전화사기 건수에 어떤 영향을 미쳤는지 살펴보고 개인 분석프로젝트를 마무리하면서 느낀 점과 활동 후기를 작성해 보겠습니다!

궁금한 점은 언제든 댓글 달아주세요!

* Brighitcs 서포터즈 활동의 일환으로 작성된 포스팅입니다.

#삼성SDS #삼성SDSBrightics #Brightics #브라이틱스 #Brightics서포터즈 #브라이틱스서포터즈 #BrighticsAI #BrighitcsStudio #AI #데이터분석 #빅데이터 #SamsungSDS #분석초보 #브라이틱스스튜디오 #모델링 #노코드AI오픈소스