08/25

채언·2022년 8월 25일
0

서울시 각 구별, CCTV 설치 대수 현황과 각 구별 인구수의 데이터값을 통한 상관관계 분석

1. CCTV 데이터와 인구수 데이터 병합 및 정리

  • 서울 각 구별 CCTV 설치 현황 데이터프레임과 서울 각 구별 인구수에 대한 데이터프레임을 병합한다. 이때, 구 이름 을 기준으로 병합하며 같은 구이름을 가진 행의 각 칼럼별 값 들이 합쳐지게된다.

  • 각 구의 인구수별 CCTV 현황에 관한 상관관계를 분석하기 위해서 년도별 인구수는 필요가 없으므로 삭제한다.

2. CCTV 데이터와 인구수 데이터의 상관계수

  • 상관계수 값을 계산하기 위해서는, 모든 값의 타입이 문자열이 아니어야한다. info() 메소드를 통해 타입을 확인했더니 object 형태의 값들이 있어서, astype() 메소드를 이용해 값의 타입을 변환해주었다.

  • 상관계수랑 각 값끼리의 상관관계를 나타낸 것으로, 보통 0.4 이상일 경우부터 관련이 있다고 보고 0.2 이상부터 비교해 볼 수 있다. corr() 메소드를 이용해서 구하며, 자기 자신과 자신의 관계는 당연히 1.0으로 나오기 때문에 대각선은 모두 값이 1.0이다.

  • CCTV 비율이라는 컬럼을 만들어, CCTV 총 개수를 / 인구수로 나눈값의 비율을 구해보았다.

  • 인구수 별 CCTV 설치 현황 비율에 대해 구했고 그를 오름차순 및 내림차순으로 정렬하여, 어느 구가 인구수에 비해 CCTV가 많고 적은지 비교할 수 있다.

3. matplotlib의 기초

  • matlab의 그래프 그리기 방식을 파이썬에 가져온 패키지이다.

  • matplotlib 사용중 한글을 사용할시, 깨지지 않도록 설정해주는 부분이다.

  • 기본적인 직선그래프이며. plot() 메소드안에 리스트 형태로 x축의 값들과 y축의 값을 각 각 리스트로 표현하면 직선그래프가 되고 , show()로 출력한다.

  • 넘파이의 arage()를 사용하여 숫자를 일정 간격으로 나열한다. 각 그래프선이 뜻하는 값의 명, 그래프의 격자무늬 표시, 그래프의 사이즈, 그래프의 이름 , 그래프 명을 나타내는 박스의 위치 등등을 지정할 수 있는 메소드들이다. 간단하게 넘파이의 sin cos 함수를 출력했다.
profile
화이팅!

0개의 댓글