우리가 데이터를 저장하는 방식은 csv, 웹(HTML),XML,JSON 등이 있다. 이번 포스트에서는 이 네가지를 알아 보려고 한다.
csv 파일을 열어 보면 아래처럼 (,)로 필드가 구분되어 있는 것을 볼 수 있다.
csv 파일 읽기 예시
아래의 코드와 같이 읽을 수 있지만. 보통 pandas를 사용한다.
line_counter = 0 #파일의 총 줄 수를 세는 변수
data_header = [] #data의 필드값(feature)을 저장하는 list
customer_list = [] #customer 개별 list를 저장하는 list
with open("customers.csv") as customer_data: #customer.csv 파일을 customer_data객체에 저장
while True:
data = customer_data.readline() #customer.csv에 한줄씩 data변수에 저장
if not data: break
if line_counter == 0:
data_header = data.split(",") #feature이름을 따로 저장
else:
customer_list.append(data.split(","))
line_counter += 1
Html을 파싱하는데 여러 beautifulSoup등 여러 방법이 있지만 정규식을 사용하면 편하다