파이썬 패키지 설치부터 시작
패키지는 라이브러리 같은거다.
request라는 패키지를 처음으로 썼는데, Ajax랑 비슷한 기능인데, 더 쓰기 쉬웠다. 이걸로 미세먼지API 과제를 수행했다.
크롤링은 크게 두 단계로 나뉘는데,
1. 서버에 요청을 한다. -> requests 사용
2. 받은 HTML문서에서 필요한 정보를 골라낸다. -> BeautifulSoup4 사용
BeautifulSoup4도 패키지인데, HTML에서 정보를 뽑아주는 패키지다.
soup.select('선택자'),select_one('선택자')등으로 골라낸다.
신기하다.
첫 크롤링 과제에서 중간에 섞여있던 hr? 테두리때문에 출력이 안됐었다.
불순물이 섞이지 않도록 확인이 필요하다.
데이터베이스를 쓰는것은 데이터를 잘 보관하기 위해서보다 나중에 잘 꺼내오기 위함이다.
오늘에서야 No-SQL이 뭔지 알게되었다.
SQL은 1) 미리 표로 나눠져있고,
2) 자료에 일관성이 있어서 분석이 용이하다.
No-SQL은 1) 자료가 딕셔너리형태로 저장되고,
2) 형식이 자유롭지만, 일관성이 부족하다.
DB는 몽고db를 썼고, pymongo라는 패키지로 조작했다.
insert / find / update / delete
이게 주요 기능들인데, 다 비슷하게 생겼는데 update() 함수만 조금 다르게 생겼다.
데이터베이스도 재미있다.
데이터베이스에 자료를 넣을때는 숫자인지 문자열인지 잘 구분해서 넣어야한다.
3주차 숙제에서
String.strip() 이라는 함수와
String[0:5] <- 인덱싱
을 새로 배웠다. 재미있었다.