pd.read_csv & Tabular

정민·2024년 2월 28일

데이터분석

목록 보기
2/11

1. pd.read_csv()


csv 데이터 불러오기
어디서 가져오는 건지 파일 path도 가져와야 한다

import pandas as pd
df = pd.read_csv('path/file.csv')
# iris 데이터 불러오기
# colab 파일 우클릭 -> 경로 복사 (copy path)

import pandas as pd
df = pd.read('path/iris.csv')
# df의 type은?

type(df)
# 출력 : pandas.core.frame.DataFrame



2. Tabular Data와 Data type


행 (row) : 데이터 테이블에서 가로 방향의 데이터 집합. 하나의 행은 특정 레코드.
열 (column) : 데이터 테이블에서 세로 방향의 데이터 집합. 하나의 열은 특정 속성.
값 (value) : 행과 열이 교차하는 지점에 위치한 개별 데이터.
인덱스 (index) : 행을 구별 하는 데 사용되는 고유한 식별자.
tabular data : 행, 열, 값, 인덱스를 포함하는 직사각형 형태의 데이터 테이블. 보통 관계형 DB, CSV 등 분석을 위한 데이터는 tabular data 형태로 되어 있음.

# .shape : 행, 열 수 표시
# .columns : 열 이름 나열
# .values : 데이터를 배열로 반환
# .index : 행 인덱스 반환
df.shape # row 150개 , column 6개



3. Data Type


  1. Categorical Data (범주형 데이터) : 제한된 수의 범주로 나눌 수 있는 데이터. 예시로는 성별, 혈액형, 학년이 있음
  2. Numeric Data (수치 데이터) : 수치로 표현되며 계산이 가능한 데이터
    • Binary Data (이진 데이터) : '0'과 '1'로만 구성된 데이터. 예시로는 합격 여부, 물품 구매 여부 등이 있음. 이는 경우에 따라 범주형 데이터로도 분류. 사용되는 맥ㄴ락에 따라서 카테고리 데이터로 전환되기도 함
    • Ratio Data (비율 데이터) : 값들 사이의 비율 비교가 가능한 데이터. 예시로는 키, 몸무게, 가격
profile
데이터 공부하는 예비 데이터 분석가, 김정민입니다.

0개의 댓글