
안녕하세요 brightics 서포터즈 3기 문수빈입니다!😆
지난 시간에는 3개의 데이터를 결합하고 결측치와 이상치를 판단해 봤는데요
행 결합 이후 결측치가 증가한 문제와 이상치를 판단할 때 어떻게 판단하면 좋을지 그리고 지도 시각화를 해보겠습니다!
<데이터 컬럼 정의서>
기준년도
시도
시군구
행정동
인구
신고성별남성
신고성별여성
신고성별불상
신고성별기타
접수긴급유형긴급
접수긴급유형중요
접수긴급유형일반
접수긴급유형민원
접수긴급유형기타
발생요일일요일
발생요일월요일
발생요일화요일
발생요일수요일
발생요일목요일
발생요일금요일
발생요일토요일
발생시간대00
발생시간대01
발생시간대02
발생시간대03
발생시간대04
발생시간대05
발생시간대06
발생시간대07
발생시간대08
발생시간대09
발생시간대10
발생시간대11
발생시간대12
발생시간대13
발생시간대14
발생시간대15
발생시간대16
발생시간대17
발생시간대18
발생시간대19
발생시간대20
발생시간대21
발생시간대22
발생시간대23
행 결합 이후 결측치가 증가한 이유는 컬럼의 값이 달랐기 때문
지난 시간에 행 결합 이후 결측치가 증가했었는데요 그 이유를 해결했습니다.

문제 해결
3개의 데이터의 컬럼의 이름이 다른 것이 있었기 때문입니다! brightics 내에서 컬럼 값이 인식이 잘 안되는 것이 있어서 제가 그때 당시 원하는 이름으로 바꾸다 보니 3개의 데이터의 칼럼 이름이 달랐던 겁니다.

3개의 데이터의 컬럼의 이름을 모두 같게하고 데이터를 불러오고 행 결합을 해보겠습니다!

행 결합 이후 결합전과 똑같이 Total Missing이 0.0%로 나오는 것을 확인할 수 있습니다.
데이터를 결합할 때 결합하려는 데이터 셋의 컬럼이름이 똑같은지 확인해 볼 필요성이 있습니다!
0이 대부분인 데이터의 이상치의 판단 여부

0이 대부분인 값을 이상치라고 판단할 수 있을까?에 대한 답은
범주형 변수라면 0은 이상치라고 볼 수 없습니다! 만약 범주형 변수가 아니라 수치형 변수라면 0을 결측치라고 볼 수도 있습니다. 범주형 변수는 더미변수로 만들어주는 과정이 필요한데요 다음 포스팅에서 다뤄보도록 하겠습니다.
전화 사기 어느 지역에 많이 발생할까?
전국 지도 시각화
주소를 위도 경도로 변환하는 방법은 여러 가지가 있습니다. 먼저 제가 처음에 도전한 방법은 구글 스프레드 시트 부가기능을 사용해 봤습니다.
하지만.. 30분이 지났는데도 위도, 경도가 변환이 되지 않았습니다. 그래서 저는 다른 방법을 찾았습니다.

지오서비스웹(GEOSERVICE-WEB) – GIS Developer
위 사이트에 가서 설치를 한 후에 위도, 경도 좌표를 변환했습니다. 변환 방법은 위 링크의 동영상을 참고해 주세요!
Add function column으로
도와 시 합치기

지도를 시각화하기 전에 사진에서 왼쪽 테이블을 보시면 데이터에서 도와 시 동 열이 각각 있는 것을 확인할 수 있습니다. 위도 경도를 변환하기 위해 지 오 서비스 웹에서 한 개의 열만 선택이 가능하기에 도와 시를 합치는 과정이 필요합니다.

저에게는 파이썬이 익숙해서 식에 area + city라고 적었다가 오류가 나서 왜 오류가 나지 의문이 들었는데
SQLite에서 컬럼을 합치기 위해서는 || 문법을 써야 한다고 합니다!
지도 파일 불러오기


행 결합을 한 상태에서 map을 이용해 전국 데이터를 불러옵니다. 위도와 경도를 합쳐준 파일을 가져오고 데이터에 적용시키면 데이터가 한눈에 시각화되는 것을 볼 수 있습니다!
전국 전화사기 건수

짜잔 위는 전국의 전화사기 건수를 나타낸 지도입니다
어느 지역이 많아 보이시나요??


지도출처: https://blog.naver.com/427kh/222659377267
사실 중심점이 겹쳐서 어느곳이 많은지는 확인하기 어려운데 서울,고양,파주에서 그리고 여수에서 전화사기 건수가 높아 보입니다❗️
다음 시간에는 지도 시각화에 대한 자세한 과정을 설명하고 더미변수화와 지도 시각화를 추가로 해보도록 하겠습니다~!!

* Brighitcs 서포터즈 활동의 일환으로 작성된 포스팅입니다.
#삼성SDS #삼성SDSBrightics #Brightics #브라이틱스 #Brightics서포터즈 #브라이틱스서포터즈 #BrighticsAI #BrighitcsStudio #AI #데이터분석 #빅데이터 #SamsungSDS #분석초보 #브라이틱스스튜디오 #모델링 #대학생 #대외활동 #대학생대외활동