
p. 81의 확인 문제 4번 풀고 인증하기

p. 71 ~ 73 남산 도서관 데이터를 코랩에서 데이터프레임으로 출력하고 화면 캡처하기

데이터 분석 vs 데이터 과학
| 특징 | 데이터 분석 | 데이터 과학 |
|---|---|---|
| 범주 | 비교적 소규모 | 대규모 |
| 목표 | 의사 결정 돕기 위한 통찰 제공 | 문제 해결 위한 최선 솔루션 만듦 |
| 주요 기술 | 컴퓨터 과학, 통계학, 시각화 등 | 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등 |
| 빅데이터 | 사용 | 사용 |
넓은 의미의 데이터 분석 (데이터 분석가의 작업 과정)
좁은 의미의 데이터 분석 (통계적 관점)
데이터 분석에 사용할 파이썬 필수 패키지
Numpy)array) 위한 파이썬 패키지Pandas)DataFrame) 사용matplotlib)seaborn, bokehScipy)scikit-learn)CSV 파일 (comma-separated-values)
,)로 구분된 덱스트 파일record)field)read_csv() 함수

encoding : 인코딩 방식 지정low_memory : 메모리 효율 사용 위해 파일 나누어 읽기False : 파일 한 번에 읽기header = None : 데이터 첫 행에 열 이름 ❌ 전달names : 열 이름 리스트 따로 전달, 중복 이름 ❌ index_col : 파일의 인덱스 여부 표시, 있으면 0to_csv() 함수
UTF-8index : 인덱스 추가할지 뺄지 지정 # index=False : 인덱스 빼고 저장
df.to_csv('ns_202104.csv', index=False) open() 함수
파일 열고 파일 객체 반환하는 함수
사용 후 close() 함수로 파일 닫아줘야 함
with 구문으로 파일 자동 닫기 가능인코딩 지정 ❌ → 기본 인코딩 방식 적용(UTF-8)
EUC-KR 사용매개변수
file: 열고자 하는 파일 경로, 이름
mode: 열 때 사용할 모드
| 종류 | 기능 |
|---|---|
| r | 읽기 모드 (기본값) |
| w | 쓰기 모드 |
| a | 추가 모드 |
| b | 바이너리 모드 |
| t | 텍스트 모드 |
| + | 읽기와 쓰기 모두 가능 |
| rb | 바이너리 읽기 모드 |
| w+ | 읽기와 쓰기 모드 |
buffering: 버퍼링 정책 (기본값: -1, 시스템 기본값 사용)
encoding: 인코딩 설정 (기본값: None, 시스템 기본 인코딩 사용)
errors: 인코딩 및 디코딩 오류 처리 방식 설정 (기본값: None)
newline: 개행 문자 처리 방식 설정 (기본값: None)
with 구문과 open() 함수
# with 구문 사용 X
file = open('text.txt', 'r', encoding='utf-8')
content = file.read()
print(content)
file.close()
# with 구문 사용 O
with open('text.txt', 'r', encoding='utf-8') as file:
content = file.read()
print(content)
readline() 함수
주어진 파일에서 완전한 한 줄만 읽기
with open('/content/남산도서관 장서 대출목록 (2021년 04월).csv', encoding='EUC-KR') as f:
print(f.readline())
인수로 size 줄 수 있음
# 숫자, 정수 값 지정 가능 → 해당 크기의 문자열 가져옴
# 기본 크기 값: -1 → 전체 문자열 반환
file.readline(size)
chardet.detect() 함수
