[Python] Python data handling

Jeonghyun·2022년 9월 21일
0

Python 이론

목록 보기
6/9
post-custom-banner

데이터 타입 CSV , ,XML , JSON

CSV (Comma Separate Values)

  • 필드를 ,로 구분한 텍스트 파일
  • 엑셀 양식을 프로그램 상관없이 쓰기 위함
  • TSV(탭), SSV(빈칸)으로 만들기도 함

CSV 객체

import csv
reader = csv.reader(f, delimiter=',', quotechar'"', quoting=csv.QUOTE_ALL)
# 기준, 문자열을 둘러싸는 신호 문자, quotechar에 의해 둘러싸인 레벨

CSV 객체 참고

HTML (hyper text markup language)

  • 제목, 단락, 링크 등 요소를 tag로 표현
  • 모든 요소는 <>로 둘러싸여있음
  • 트리 모양의 포함관계
  • 페이지의 규칙이 있기 때문에 데이터의 추출 및 분석이 가능

정규식 regular expression

  • 복잡한 문자열 패턴을 정의하는 문자 표현 공식
  • 전화번호와 같은 형식이 있는 문자열 추출
  • html도 tag의 형식이 있으므로 추출 용이

메타문자 : . ^ & * + ? { } [ ] \ | ( )
[정규식 연습장]

파이썬 모듈 re

import re
re.search
re.findall(r"([A-Za-z0-9]+\*\*\*)", html)

XML (extnesible markup language)

  • 데이터의 구조와 의미를 설명하는 TAG(MarkUp)를 사용하여 표시
  • HTML과 문법이 비슷, 트리구조
  • 가장 많이 쓰이는 parser인 beautifulsoup 파싱

파이썬 모듈

from bs4 import BeautifulSoup

JSON

  • Javascript의 데이터 객체 표현 방식
  • 간결, 용량 적음, 코드로 전환이 쉬움
  • 파이썬의 dict와 유사
import json
json.loads # read
json.dump( , ) # write





[부스트캠프 AI Tech] Week 1 - Day 3

post-custom-banner

0개의 댓글