p. 81의 확인 문제 4번 풀고 인증하기
p. 71 ~ 73 남산 도서관 데이터를 코랩에서 데이터프레임으로 출력하고 화면 캡처하기
데이터 분석 vs 데이터 과학
특징 | 데이터 분석 | 데이터 과학 |
---|---|---|
범주 | 비교적 소규모 | 대규모 |
목표 | 의사 결정 돕기 위한 통찰 제공 | 문제 해결 위한 최선 솔루션 만듦 |
주요 기술 | 컴퓨터 과학, 통계학, 시각화 등 | 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등 |
빅데이터 | 사용 | 사용 |
넓은 의미의 데이터 분석 (데이터 분석가의 작업 과정)
좁은 의미의 데이터 분석 (통계적 관점)
데이터 분석에 사용할 파이썬 필수 패키지
Numpy
)array
) 위한 파이썬 패키지Pandas
)DataFrame
) 사용matplotlib
)seaborn
, bokeh
Scipy
)scikit-learn
)CSV 파일 (comma-separated-values)
,
)로 구분된 덱스트 파일record
)field
)read_csv()
함수
encoding
: 인코딩 방식 지정low_memory
: 메모리 효율 사용 위해 파일 나누어 읽기False
: 파일 한 번에 읽기header = None
: 데이터 첫 행에 열 이름 ❌ 전달names
: 열 이름 리스트 따로 전달, 중복 이름 ❌ index_col
: 파일의 인덱스 여부 표시, 있으면 0
to_csv()
함수
UTF-8
index
: 인덱스 추가할지 뺄지 지정 # index=False : 인덱스 빼고 저장
df.to_csv('ns_202104.csv', index=False)
open()
함수
파일 열고 파일 객체 반환하는 함수
사용 후 close()
함수로 파일 닫아줘야 함
with
구문으로 파일 자동 닫기 가능인코딩 지정 ❌ → 기본 인코딩 방식 적용(UTF-8
)
EUC-KR
사용매개변수
file
: 열고자 하는 파일 경로, 이름
mode
: 열 때 사용할 모드
종류 | 기능 |
---|---|
r | 읽기 모드 (기본값) |
w | 쓰기 모드 |
a | 추가 모드 |
b | 바이너리 모드 |
t | 텍스트 모드 |
+ | 읽기와 쓰기 모두 가능 |
rb | 바이너리 읽기 모드 |
w+ | 읽기와 쓰기 모드 |
buffering
: 버퍼링 정책 (기본값: -1
, 시스템 기본값 사용)
encoding
: 인코딩 설정 (기본값: None
, 시스템 기본 인코딩 사용)
errors
: 인코딩 및 디코딩 오류 처리 방식 설정 (기본값: None
)
newline
: 개행 문자 처리 방식 설정 (기본값: None
)
with
구문과 open()
함수
# with 구문 사용 X
file = open('text.txt', 'r', encoding='utf-8')
content = file.read()
print(content)
file.close()
# with 구문 사용 O
with open('text.txt', 'r', encoding='utf-8') as file:
content = file.read()
print(content)
readline()
함수
주어진 파일에서 완전한 한 줄만 읽기
with open('/content/남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR') as f:
print(f.readline())
인수로 size 줄 수 있음
# 숫자, 정수 값 지정 가능 → 해당 크기의 문자열 가져옴
# 기본 크기 값: -1 → 전체 문자열 반환
file.readline(size)
chardet.detect()
함수