Python data handling

이상민·2023년 3월 7일
0
post-custom-banner

우리가 데이터를 저장하는 방식은 csv, 웹(HTML),XML,JSON 등이 있다. 이번 포스트에서는 이 네가지를 알아 보려고 한다.

1. CSV(comma separate Value)

  • 필드를 쉼표(,)로 구분한 텍스트 파일
  • 엑셀 양식의 데이터를 프로그램에 상관 없이 쓰기위한 데이터 형식이다.

csv 파일을 열어 보면 아래처럼 (,)로 필드가 구분되어 있는 것을 볼 수 있다.

  • csv 파일 읽기 예시

    	아래의 코드와 같이 읽을 수 있지만. 보통 pandas를 사용한다.
line_counter = 0 #파일의 총 줄 수를 세는 변수
data_header = [] #data의 필드값(feature)을 저장하는 list
customer_list = [] #customer 개별 list를 저장하는 list

with open("customers.csv") as customer_data: #customer.csv 파일을 customer_data객체에 저장
    while True:
        data = customer_data.readline() #customer.csv에 한줄씩 data변수에 저장
        if not data: break
        if line_counter == 0:
            data_header = data.split(",") #feature이름을 따로 저장
        else:
            customer_list.append(data.split(","))
        line_counter += 1
    

2. HTML

  • 웹 상의 정보를 구조적으로 표현하기 위한 언어
  • 제목,단락, 링크 등 요소를 표시하기 위해 tag를 사용 한다.
  • 모든 HTML은 트리 구조의 관계를 갖는다.
  • html의 규칙을 분석하여 데이터의 추출이 가능하다.

Html을 파싱하는데 여러 beautifulSoup등 여러 방법이 있지만 정규식을 사용하면 편하다

3. XML

정규표현식

  • 정규표현식,regexp 또는 regex등으로 불림
  • 복잡한 문자열 패턴을 정의하는 문자 표현 공식
profile
잘하자
post-custom-banner

0개의 댓글