Boostcamp Python 5-2강
Comma Separate Value
- comma로 구분한 텍스트 파일
- 엑셀 양식의 데이터를 손쉽게 공유하기 위해
- 탭(TSV), 빈칸(SSV) 등으로 구분도 함
- 엑셀 양식의 데이터를 태블로 양식이라고 함
with open(".csv") as data:
- 텍스트 파일로 부를 경우 정보 내의 ","를 전처리 해야 함
import csv
reader = csv.reader(file,delimiter=',',quoterchar='"',quoting =csv.QUOTE_ALL)
- csv 객체로 손쉽게 활용
- 보통 Pandas 로 CSV를 다룰 것
Web
HTML
- 웹 상의 정보를 구조적으로 표현하기 위한 언어
- Tag로 요소 표시
- 모든 요소는 꺽쇠 괄호 안에 둘러 쌓여 있음
- 트리 구조
정규식
- 일정한 규칙을 해결하는 도구
- 문법이 매우 방대, 스스로 공부
- www.regexr.com에서 정규식 연습
- [a-zA-z] - 알파벳 전체, [0-9] - 숫자 전체
- 여러 메타 문자로 더 추가할 수 있음
import re
추가 공부 요구됨
XML
- 데이터의 구조와 의미를 TAG를 사용하여 표시
- HTML과 비슷, 유사
- 대표적인 데이터 저장 방식
- 서로 다른 device끼리 정보를 교환하기 좋음
- 정규 표현식으로 parsing 가능
- 보통 beautifulsoup으로 parsing
JSON
- JavaScript Object Notation
- 자바 스크립트의 데이터 객체 표현 방식
- 간결성
- 용량이 적고 데이터로 전환이 쉬움
- Dict Type과 동일 따라서 Dict 처럼 처리하면 됨