본문 바로가기

분류 전체보기

(21)
[삼성 SDS Brightics] log-log를 통해 전화사기 건 수 예측 결과 해석해 보기 안녕하세요 brightics 서포터즈 3기 문수빈입니다. 오늘은 노인인구 비율과 장애인 인구 비율이 증가할수록 전화사기 건수도 증가할까? 분석 프로젝트 정리를 해보고자 합니다! 공식적인 분석 프로젝트는 끝났지만 ㅎ 마무리를 해보려고 합니다~! ​ 2019년도의 노인인구 비율의 회귀계수는 -9.5로 전화사기 건수를 낮추는 변수라고 해석할 수 있습니다. 2020년도의 노인인구 비율의 회귀계수는 -5.2로 전화사기 건수를 낮추는 변수라고 해석할 수 있습니다. 2021년도의 노인인구 비율의 회귀계수는 -6.6으로 전화사기 건수를 낮추는 변수라고 해석할 수 있습니다 이중 로그 함수(double log, log-log) log-log는 종속변수와 독립변수에 모두 로그를 취한 함수를 의미합니다. -> x가 1% 증가..
[삼성 SDS Brightics] 노코드 AI 오픈소스인 브라이틱스와 함께한 5개월 서포터즈 활동 후기ෆ 안녕하세요 Brightics 서포터즈 3기 문수빈입니다! 이번 포스팅은 이제 마지막 포스팅이 될겁니다.. 브라이틱스 서포터즈 활동이 끝났거든요.. 너무나도 아쉽지만 이제 서포터즈 활동을 보내주어야 할 때가 온 것 같아요 ​ 6/20일 첫 포스팅을 시작으로 11/20일인 오늘 브라이틱스와 함께한 서포터즈 활동이 끝이 납니다 서포터즈 활동 전 미리 브라이틱스 사용을 해보다! 저는 2-1학기 때 다변량 데이터 분석을 배우며 코랩을 이용해서 분석만 했었는데 서포터즈를 준비하며 Brightics로 분석할 수 있다는 점을 알게 되었어요! 브라틱스 서포터즈 서류와 면접을 준비할 때 전 기수분들의 서포터즈 면접 준비를 많이 참고했었어요 브라이틱스 서포터즈를 하기 위해 준비된 사람이고 열정이 가득한 사람임을 보여주기 위..
[삼성 SDS Brightics] 노인인구비율와 장애인인구비율이 높을수록 총 전화사기 건수로 늘어날까?(with 노코드 AI 오픈소스) ​ 안녕하세요 Brightics 서포터즈 3기 문수빈입니다! 지난번에는 장애인 인구수 데이터를 추가하고 2021년도의 장애인 인구 비율과 노인인구 비율이 21년도 전화사기 건수에 어떤 영향을 미치는지 살펴보았습니다. 이번에는 총인구 수를 로그 변환하고 총 전화사기 건수를 로그 변환하고 독립변수를 노인인구 비율과 장애인 인구 비율과 로그 변환된 총인구 수를 넣고 종속변수를 연도별 전화사기 건수로 다중 선형회귀분석을 해보고자 합니다! ​ 로그 변환 왜 필요할까? log 변환을 하기 전에! 로그 변환이 왜 필요한지부터 알아야겠죠! 데이터에 log를 취하는 이유는 정규성을 높이고 분석에서 정확한 값을 얻기 위함입니다. 데이터 간 편차를 줄여 왜 도와 첨도를 줄일 수 있기에 정규성이 높아집니다. 여기서 왜도란 데..
[삼성 SDS Brightics] 개인 분석 프로젝트 6. 전화사기 건수에 미치는 영향 분석(with 노코드 AI 오픈소스) ​ e-나라지표 지표조회상세 (index.go.kr) 시도별 장애인 인구수가 없어서... 장애인 인구수 변수는 추가하지 못하고 분석을 진행했는데요 보건복지부 홈페이지 > 정보 > 현황에서 시도별장애인등록현황 데이터를 볼 수 있더라구요! 제가 세운 가설은 취약계층일수록 전화사기를 더 많이 당할 것이라고 가정해서 노인인구수를 독립변수로 넣어서 분석했었는데요! 취약계층에 해당하는 장애인 인구수를 독립변수로 넣어서 전화사기 건수와 어떤 관계를 가지는지 살펴보고자 합니다! ​ ​ ​ ​ 장애인 인구수 데이터를 다운 받고 전화사기 건수 데이터와 합쳐줍니다. 다중 공산성이란? 제가 진행한 분석은 회귀분석인데요! 회귀분석에는 가정이 있답니다 ㅎ 회귀분석의 가정: 독립변수들 간에 상관성이 없으며 독립변수들은 서로 독립적..
[삼성 SDS brightics] 개인 분석 프로젝트 5. 사람이 많으니 전화사기 건수도 많은 건 당연하다?(feat. 노코드 AI 오픈소스) 안녕하세요 Brightics 서포터즈 3기 문수빈입니다! 이제 곧 개인 분석 프로젝트도 끝나가는데요.. 너무 아쉽지만 그래도 끝까지 최선을 다하도록 하겠습니다! 오늘은 연도별 노인인구수와 전화사기 건수의 상관관계를 살펴보고 지난번에 예측 정확도가 높게 나왔었는데 잘못된 데이터를 가지고 했기 때문에 모델링을 다시 한번 진행해 보고자 합니다! 그. 전.에!! Brightics는 상용화 버전의 Brightics AI, 지금 저희가 사용하고 있는 Brightics Studio, 그리고 중/고등 교육용 Brightics Education 버전으로 나뉩니다. 기존 Brightics Studio와 Education이 통합된 통합 버전이 출시​되었습니다!! 새롭게 출시된 통합 버전은 데이터 분석을 위한 200개 이상의..
[삼성 SDS brightics] 개인 분석 프로젝트 4. 노코드 AI 오픈소스의 대명사 Brightics Studio로 진행해 보는 전화사기 모델링 안녕하세요 brightics 서포터즈 3기 문수빈입니다 오늘은 발생 시간 대별 전화사기 건수를 brightics의 기능을 이용해 시각화를 해보고 2019~2021년도의 노인 인구수 데이터와 2019~2021년도 전화사기 건수 데이터를 합친 후 모델링을 진행해 보려고 합니다! 그럼 지금부터 고고링~~! 발생 시간대별 전화사기 건수 시각화 brightics에서 chart settings를 클릭하고 차트 유형을 pie로 바꿔주고 color by에서 발생 시간대를 바꿔주면서 그래프를 그려보겠습니다. TIZN_00은 00시 00분~00시 59분에 발생한 사기 건수를 의미합니다! 나머지 변수에 붙은 숫자도 방금 말한 예시처럼 이해하시면 됩니다! TIZN_00~TIZN_05 변수를 살펴보면 데이터가 주로 0값으로 이..
[삼성 SDS brightics] 개인 분석 프로젝트 3. 전화사기 건수 단계구분도로 시각화 가능!?(feat.노코드 AI 오픈소스) ​ ​ 안녕하세요 brightics 서포터즈 3기 문수빈입니다! ​ ​ 지난 시간에는 행 결합 이후 결측치가 증가한 문제를 해결하고 이상치를 판단할 때 어떻게 판단하면 좋을지 그리고 지도 시각화를 해봤습니다! ​ ​ 변수의 의미 파악하기 데이터 분석 전 중요한 과정! 범주형 변수가 있다면 수치형 변수로 만드는 더미변수화를 하겠지만 컬럼 정의서에도 나와있듯이 기준년도,시도,시군구,행정동 이외에는 모두 수치형 변수이기에 더미 변수는 분석 과정에서 제외했습니다! 데이터를 분석하기 전 먼저 변수의 의미를 파악하는 게 먼저겠죠 ㅎㅎ 지난번에 결측치와 이상치를 처리할 때만 해도 변수의 의미는 생각하지 않고 했는데 그런 저를 반성하게 되었습니다.. 컬럼 정의서에는 not null의 여부와 데이터타입 길이 등이 나와있..
[삼성 SDS brightics] 개인 분석 프로젝트 2. 전화사기에 미치는 요인 분석하기(feat. 지도 시각화) ​ ​ ​ ​ 안녕하세요 brightics 서포터즈 3기 문수빈입니다!😆 지난 시간에는 3개의 데이터를 결합하고 결측치와 이상치를 판단해 봤는데요 행 결합 이후 결측치가 증가한 문제와 이상치를 판단할 때 어떻게 판단하면 좋을지 그리고 지도 시각화를 해보겠습니다! ​ 기준년도 시도 시군구 행정동 인구 신고성별남성 신고성별여성 신고성별불상 신고성별기타 접수긴급유형긴급 접수긴급유형중요 접수긴급유형일반 접수긴급유형민원 접수긴급유형기타 발생요일일요일 발생요일월요일 발생요일화요일 발생요일수요일 발생요일목요일 발생요일금요일 발생요일토요일 발생시간대00 발생시간대01 발생시간대02 발생시간대03 발생시간대04 발생시간대05 발생시간대06 발생시간대07 발생시간대08 발생시간대09 발생시간대10 발생시간대11 발생시간대..