데이터 타입 CSV
, 웹
,XML
, JSON
CSV (Comma Separate Values)
- 필드를
,
로 구분한 텍스트 파일
- 엑셀 양식을 프로그램 상관없이 쓰기 위함
- TSV(탭), SSV(빈칸)으로 만들기도 함
CSV 객체
import csv
reader = csv.reader(f, delimiter=',', quotechar'"', quoting=csv.QUOTE_ALL)
CSV 객체 참고
HTML (hyper text markup language)
- 제목, 단락, 링크 등 요소를 tag로 표현
- 모든 요소는
<>
로 둘러싸여있음
- 트리 모양의 포함관계
- 페이지의 규칙이 있기 때문에 데이터의 추출 및 분석이 가능
정규식 regular expression
- 복잡한 문자열 패턴을 정의하는 문자 표현 공식
- 전화번호와 같은 형식이 있는 문자열 추출
- html도 tag의 형식이 있으므로 추출 용이
메타문자 : . ^ & * + ? { } [ ] \ | ( )
[정규식 연습장]
파이썬 모듈 re
import re
re.search
re.findall(r"([A-Za-z0-9]+\*\*\*)", html)
XML (extnesible markup language)
- 데이터의 구조와 의미를 설명하는 TAG(MarkUp)를 사용하여 표시
- HTML과 문법이 비슷, 트리구조
- 가장 많이 쓰이는 parser인 beautifulsoup 파싱
파이썬 모듈
from bs4 import BeautifulSoup
JSON
- Javascript의 데이터 객체 표현 방식
- 간결, 용량 적음, 코드로 전환이 쉬움
- 파이썬의 dict와 유사
import json
json.loads
json.dump( , )
[부스트캠프 AI Tech] Week 1 - Day 3