mpg(mile per gallon) 실습

suumer im·2023년 11월 7일
1

데이터분석

목록 보기
3/3

라이브러리 및 데이터 불러오기

요약통계량 확인

컬럼명 바꾸기(rename)

파생변수(컬럼) 만들기

  • total 컬럼 생성하기 = 도시와 고속도로의 연비의 평균

  • 통합연비 평균 구하기

연비의 기준값을 설정해 기준값을 넘으면 'pass' , 넘지 못하면 'fail'으로 분류

  • 기준값 정하기
    **평균연비(total)의 평균과 중앙값 확인

**자동차들의 연비 분포 확인

**요약통계량과 히스토그램을 통해 기준값 설정

  • total 연비의 평균과 중앙값이 약 20이다
  • total 연비가 20~22.5 사이인 모델이 가장 많다
  • total 연비는 대부분 25이하이고, 25넘기는 모델은 많지 않다
  • total 변수가 20을 넘으면 합격(pass), 넘지 못하면 불합격(fail)

np.where 패키지 함수 사용

  • 평균연비가 20이상이라면 pass,아니라면 fail 값을 출력
  • test 라는 새로운 컬럼 생성 후 값 담아주기

합격 판정 자동차 수 확인하기

막대그래프로 빈도 표현하기

  • total이 30이상이면 'A', 20-29이면 'B', 20미만이면 'C'등급으로 분류
  • 'grade' 컬럼 생성해서 값 담아주기

등급별 빈도 확인하기

알파벳 순으로 정렬

막대 그래프 연비 등급 확인하기

조건을 이용하여 파생변수 만들기

** 여러 조건시, &(and) / |(or)
조건을 ( )묶어주기

** isin메서드 활용(변수의 값이 입력한 목록에 해당하는지 확인)

(실습) 아우디와 도요타 도시 연비 평균 구하기

** mean() 평균

카테고리가 suv,compact의 차종의 도시 연비 평균 비교

쉐보레,포드,혼다 자동차의 고속도로 연비 평균을 구해보기

**in연산자/변수명 in 리스트

groupby 사용

  • 데이터를 그룹화하여 연산을 수행하는 메서드

**제조사별 도시연비 평균 구하기

**제조사별 city_mean과 high_mean의 값 확인하기

**제조사별 등급나누기
제조사별로 등급의 개수(A,B,C)

(실습)

  • 고속도로 연비가 가장 높은 제조사를 확인하기 위해 고속도로 연비 평균이 높은 회사 3곳 출력

  • 어떤 회사에서 compact 차종을 가장 많이 생산했는지 내림차순으로 정렬

산점도(scatter)그래프

**x축, y축 설정 (xlim,ylim)

막대 그래프

  • 그래프 정렬하기

구동방식별 빈도표 만들기

  • 막대그래프 그리기

profile
안녕하세요

0개의 댓글