웹 스크랩핑
,뷰티플수프
공개 API에서 데이터를 수집하는 과정은 비교적 자동화하기 쉽습니다. 하지만 이런 데이터 소스를 사용할 수 없고 원하는 데이터가 인터넷 웹 페이지에 있다면 직접 HTML의 내용을 읽어 원하는 정보를 뽑아내야 합니다. 이 방식은 최후의 수단이지만 이따금 필요할 때가 있습니다. 이 절에서 웹사이트에 접속해서 필요한 정보를 가져오는 방법을 배워보겠습니다.
함수/메서드 | 기능 |
---|---|
loc | 레이블 또는 불리언 배열로 데이터 프레임의 행과 열을 선택, 정수로 지정하려면 인덱스의 레이블로 간주, 불리언 배열로 지정할 경우 배열의 길이는 행 또는 열의 전체 길이와 같아야 함 |
BeautifulSoup.find() | 현재 태그 아래의 자식 태그 중에서 지정된 이름에 맞는 첫 번째 태그를 찾는데 첮은 태그가 없을 경우 None이 반환됨 |
BeautifulSoup.find_all() | 현재 태그 아래의 자식 태그 중에서 지정된 이름에 맞는 모든 태그를 찾는데 뷰티플수프 객체를 함수처럼 호출할 경우 자동으로 find_all() 메서드가 호촐되고 찾은 태그가 없을 경우 빈 리스트가 반환됨 |
BeautifulSoup.get_text() | 태그 안의 텍스트를 반환 |
DataFrame.apply() | 데이터프레임의 행 또는 열에 지정한 함수를 적용 |
pandas.merge() | 데이터프레임이나 시리즈 객체를 합침 |