[Python Basics for AI] Python Data Handling

ssu_hyun·2021년 11월 25일

Boostcamp_Pre-Course

[Naver] Boostcamp_AI_Tech_Pre-Course

목록 보기

5/13

데이터 타입 : csv, 웹(html), XML, JSON

CSV(Comma separate Values)

csv 객체

cp949 : window에서 저장 및 관리되는 데이터는 모두 cp949로 되어있다.
u"성남시" : unicode, 한글 처리 시 앞에 붙여줌
u"성남시" != -1 : 성남시가 존재하는 경우 (-1 : 해당 값이 없다는 뜻)
encoding : cp949 -> 안될 경우 utf8 (왠만한 파일은 거의 이것으로 저장하는 것이 좋음)
delimeter : 데이터를 자르는 기준
quoting : 데이터를 싸매는 기준
새로 생긴 성남 데이터

Web

web의 동작

HTML(Hyper Text Markup Language)

Tag : <>

웹을 알아야 하는 이유

정규식(Regular Expression)

기본 문법

정규식 in 파이썬

예제1 : 이벤트 당첨 아이디

urllib : url링크에 접속해서 content를 가져오는 코드
findall : 해당 정규식 패턴을 가진 모든 데이터 찾아줌
url_list : 찾고자 하는 데이터의 리스트 형태

예제 2 : googlebooks

예제 3 : 네이버 금융 데이터

XML(eXtensible Markup Language)

Beautifulsoup

설치 및 사용

BeautifulSoup(어떤 파일을 열 것인지, 어떤 파서(parser)로 열 것인지)
parser : xml을 분석하는 도구

예제 : 미국 특허청(USPTO) 특허 데이터

JSON (JavaScript Object Notation)

JSON in python

Read

json.loads()
print(json_data["employees"])
print(json_data) : dict 타입으로 출력
print(type(json_data))
for문을 통해 하나씩 출력
for문 + print(employee["lastName"])

Write

json.dump

Twitter 데이터 가져오기

이전 포스트

[Python Basics for AI] File / Exception / Log Handling

다음 포스트

[Python Basics for AI] Numpy

0개의 댓글