08/31

채언·2022년 8월 31일
0

1. 데이터 정리 및 정규화

  • 모든 컬럼별로 어떤 컬럼은 3000-5000대 , 어떤 컬럼은 200-400 대 이런식으로 분포되어있는 숫자의 범위가 다르지만, 그래도 개중에 그 컬럼내에서 크고작다 자체를 비교하고싶을때, 정규화를 쓴다. 그 컬럼내에서 가장 큰 값으로 모든 데이터를 나눠주면 0-1사이에서 값이 분포된다.
  • 각 죄목별로 각 행의 max 값으로 나눈 값을 새로운 데이터프레임에 넣어준다. 그런다음, 이전 데이터프레임에서의 각 범죄율 데이터를 그대로 가져와서 컬럼에 넣어준다.

    2. 행 별로 평균값 구하여 새로운 컬럼만들기 (np.mean)

  • np.array()를 하면 넘파이 배열을 이용해 2차원 배열을 생성할 수 있다. 행렬과 같다고 생각하면 된다. 넘파이의 함수 중에 ,mean() 함수를 사용하면 그 배열내에서 평균값을 구할 수 있다.
  • 이때, columns의 axis는 반대로 1이 행을 나타내고 0이 열을 나타낸다.
  • 즉, 이런 배열에서는 (3,3) 배열 = 행렬이 만들어진다.
  • 각 죄목별 검거율의 평균값도 구하여 새로운 컬럼 검거 생성!

3. seaborn 사용

  • seaborn 패키지를 사용하기 위해, 한글 사용과 import를 해준다. 넘파이를 이용해 np.linspace(0,10,100) 을 하면 0 - 10 까지 100개의 수로 일정하게 array 배열로 출력한다.

  • 그래프를 그릴때는 보통 matplotlib 와 seaborn 을 같이 사용한다. matplotlib로 그래프를 그리고 그 외의 특이사항 등을 seaborn을 이용해 지정 할 수 있다.

  • 넘파이에서 지원하는 사인 함수를 그리기 위해 np.sin()을 한다.

  • plt.figure(figsize=(10,6)) = 그릴 그래프의 전체 사이즈 10X6 이고 ,
    plt.plot(x,y1,x,y2,x,y3,x,y4) = x,y/ x,y1/ x,y3/ x,y4
    이렇게 네개의 그래프를 그린다는 의미
    plt.show = 출력해라 는 의미이다.

  • seaborn 을 이용해, set_style로 그래프의 배경색을 어둡게 지정할 수 있다.

  • white, whitegrid 등 색 및 격자를 줄지 안줄지 스타일 설정가능하다.

profile
화이팅!

0개의 댓글