[부스트캠프 AI Tech 5기] Python Data Handling

박상우·2023년 3월 8일
0

부스트캠프

목록 보기
4/54
post-thumbnail

Boostcamp Python 5-2강

Comma Separate Value

  • comma로 구분한 텍스트 파일
  • 엑셀 양식의 데이터를 손쉽게 공유하기 위해
  • 탭(TSV), 빈칸(SSV) 등으로 구분도 함
  • 엑셀 양식의 데이터를 태블로 양식이라고 함
with open(".csv") as data:  
  • 텍스트 파일로 부를 경우 정보 내의 ","를 전처리 해야 함
import csv 
reader = csv.reader(file,delimiter=',',quoterchar='"',quoting =csv.QUOTE_ALL)
  • csv 객체로 손쉽게 활용
  • 보통 Pandas 로 CSV를 다룰 것

Web

HTML

  • 웹 상의 정보를 구조적으로 표현하기 위한 언어
  • Tag로 요소 표시
  • 모든 요소는 꺽쇠 괄호 안에 둘러 쌓여 있음
  • 트리 구조

정규식

  • 일정한 규칙을 해결하는 도구
  • 문법이 매우 방대, 스스로 공부
  • www.regexr.com에서 정규식 연습
  • [a-zA-z] - 알파벳 전체, [0-9] - 숫자 전체
  • 여러 메타 문자로 더 추가할 수 있음
import re 

추가 공부 요구됨

XML

  • 데이터의 구조와 의미를 TAG를 사용하여 표시
  • HTML과 비슷, 유사
  • 대표적인 데이터 저장 방식
  • 서로 다른 device끼리 정보를 교환하기 좋음
  • 정규 표현식으로 parsing 가능
  • 보통 beautifulsoup으로 parsing

JSON

  • JavaScript Object Notation
  • 자바 스크립트의 데이터 객체 표현 방식
  • 간결성
  • 용량이 적고 데이터로 전환이 쉬움
  • Dict Type과 동일 따라서 Dict 처럼 처리하면 됨
profile
세상아 덤벼라

0개의 댓글