

시도별 장애인 인구수가 없어서... 장애인 인구수 변수는 추가하지 못하고 분석을 진행했는데요
보건복지부 홈페이지 > 정보 > 현황에서
시도별장애인등록현황 데이터를 볼 수 있더라구요!
제가 세운 가설은 취약계층일수록 전화사기를 더 많이 당할 것이라고 가정해서 노인인구수를 독립변수로 넣어서 분석했었는데요!
취약계층에 해당하는 장애인 인구수를 독립변수로 넣어서 전화사기 건수와 어떤 관계를 가지는지 살펴보고자 합니다!

장애인 인구수 데이터를 다운 받고 전화사기 건수 데이터와 합쳐줍니다.
다중 공산성이란?
제가 진행한 분석은 회귀분석인데요! 회귀분석에는 가정이 있답니다 ㅎ
회귀분석의 가정: 독립변수들 간에 상관성이 없으며 독립변수들은 서로 독립적이다.
다중 공산성은 언제 일어날까?
● 설명변수들 간의 상관관계가 매우 높은 경우
● 한 설명변수를 모델에 추가하거나 제거할 경우 회귀계수의 크기, 부호, 유의도가 크게 변하는 경우
● 결정 계수(R2)는 높은데 비해 유의한 회귀계수가 적은 경우
● 중요한 영향력을 가질 것으로 예상되었던 독립변수가 유의하지 않을 경우
● 회귀계수가 기존 연구 이론과 반대의 부호를 보이는 경우
다중 공산성 판단 기준
VIF(Variance Inflation Factor)가 10 이상인 경우에 다중 공산성이 있다고 판단할 수 있습니다.
다중 공산성 해결 방법
1. DO Nothing
2. Drop a Redundant Variable
3. Transform the Multicollinear Variables
4. Increase the Sample Size
가 있습니다!
저희가 왜 다중 공산성 개념을 알아본 걸까요?? 그 이유는!!!

총인구 수와 노인인구수의 상관관계를 살펴봤을 때 상관관계가 높게 나왔던 거 기억하시나요~~? 안 보신 분들이 있다면 아래의 링크를 참고해 주세요! ㅎㅎ
My moment : 네이버 블로그 (naver.com)
상관관계가 높게 나온 이유는 설명변수들 간의 상관관계가 매우 높은 경우에서 생긴 다중 공산성 때문입니다. 다중 공산성 문제 때문에 위와 같이 명수로 상관관계를 파악하면 안 되고 같은 총인구수 노인인구 비율(노인인구수/총인구수) 와 총인구 대비 전화사기 건수(전화사기 건수/총인구수)의 상관관계를 파악한 겁니다!
21년도의 전화사기 건수 예측

x축에는 21년도 총인구 수와 21년도 노인인구 비율 그리고 21년도 노인인구 비율을 변수로 넣었습니다!
y 축에는 21년도 전화사기 건수를 넣었습니다!

모델 결과를 살펴보면 pops_21 변수는 p 값이 0.05보다 작기에 유의한 변수이고 old_ratio_21 변수는 0.05보다 커서 유의하지 않는 변수입니다. 즉 21년도 전화사기 건수에 영향을 미치는 변수라고 볼 수 없습니다.
disable_ratio_21 변수는 p 값이 0.05보다 작기에 유의한 변수입니다. coef는 회귀계수를 의미합니다! disable_ratio_21 변수의 coef를 살펴보면 -0.2418로 21년도의 장애인 인구 비율이 증가하면 21년도 총 전화사기 건 수가 감소하는 관계를 보입니다. 따라서 21년도에 취약계층에 해당하는 장애인이 전화사기에 취약하지 않다는 점을 알려줍니다.
다음 시간에는 19년도 20년도의 모델을 살펴보고 2019~2020년도의 회귀계수를 총정리하고 분석 프로젝트를 마무리하도록 하겠습니다!
모르는 점은 댓글 달아주세요!

* Brighitcs 서포터즈 활동의 일환으로 작성된 포스팅입니다.
#삼성SDS #삼성SDSBrightics #Brightics #브라이틱스 #Brightics서포터즈 #브라이틱스서포터즈 #BrighticsAI #BrighitcsStudio #AI #데이터분석 #빅데이터 #SamsungSDS #분석초보 #브라이틱스스튜디오 #모델링 #노코드AI오픈소스