[2025 동계 모각코] 2주차 결과

성채원·2025년 1월 14일
0

멕시코풍 프랜차이즈 chipotle의 주문 데이터 분석하기 (~Step 01)

기본 세팅

documents 폴더에 새로운 워크스페이스를 생성해준다. 필자는 'Seong'이라는 폴더를 생성하겠다.

해당 파일에 제공된 데이터들을 붙여넣기 하면 된다.

다시 주피터로 돌아와서 Documents 파일을 들어가면

위에서 생선한 Seong 폴더가 있는 것을 알 수 있다.

계속 들어가면 이러한 데이터 자료들이 나온다. 우리는 chipotle 전용 코드를 작성해야되기 때문에 파일을 새로 생성해준다. 이제 저 chipotle.ipynb에서 코드를 작성해주면 된다.

chipotle 데이터셋의 기초 정보 출력하기

  • 데이터를 불러온 후 데이터의 기본 구성을 출력하는 코드
  • read_csv(): 데이터 파일의 경로를 입력하여 데이터를 불러온다.
  • ./data/chipotle.tsv: 현재 폴더에 있는 data 폴더를 들어가겠다는 의미!

위의 결과를 보면 order_id는 송장번호 같은 의미고 순서대로 양, 메뉴, 토핑, 가격을 순서대로 나타내었다.

  • shape(): 행과 열의 크기 반환, 위에서는 5개의 피처와 4622개의 행으로 구성되어 있음을 알 수 있다.
  • info(): 행의 구성 정보와 열의 구성 정보를 나타낸다.
  • Dtype: 타입, int64는 숫자, object는 문자열로 이루어져 있다.
  • Non-Null Count: 비어 있지 않은 문자열 데이터 정보, 3376 non-null은 비어 있지 않은 문자열 데이터가 있다는 정보

!!! 피치 형태의 종류 !!!
수치형 피처
1. 연속형 피처: 어떤 구간 안의 모든 값을 데이터로 써 가질 수 있다 ex) 키, 몸무게
2. 비연속형 피처: 셀 수 있으며, 일정 구간 안에서 정해진 몇 개의 값을 가져야 한다 ex) 나이
범주형 피처
1. 순서 있는 범주형 피처: 순서가 있으나 수치는 아니다. ex) 학점 A, B, ... F
2. 순서 없는 범주형 피처: 데이터가 구분되면서도 순서가 없다 ex) 혈액형

  • describe(): int, float과 같은 숫자 데이터(수치형 피처)에 관한 통계 정보 제공
  • order_id는 수치의 의미를 갖지 않기 때문에 str 타입으로 바꿈
  • 'mean'은 quantity의 평균 주문 수량이 1.07이라는 것을 나타냄

  • unique(): 범주형 피처에서 사용, 피처 내에서 몇 개의 범주가 있는지 확인

0개의 댓글