오류는 나중에 풀이 보고 정리할 예정
beautifulsoup
beautifulsoup
from bs4 import BeautifulSoup
from urllib.request import urlopen
from tqdm import tqdm_notebook
html=driver.page_source
soup=BeautifulSoup(html,'html.parser')
list=soup.find(id='body1').find_all('tr') #list변수로 모든 정보 읽어오기
처음에 driver로 읽어오고 그 다음에 어떻게 beautifulsoup으로 넘어가는 지 잘 몰랐음
list 변수로 받아서 list[0].find('a')['href'] # 주소
plt.figure(figsize=(10,10))
sns.boxplot(x='self',y='gasolin',data=df,palette='Set3')
plt.grid(True)
plt.show()
처음에 boxplot 할 때, 오류남
-> 가솔린 가격이 object로 저장
-> float64 형태로 바꿔줘야함
보완해야할 점
.get_attribute()
++
정리
# 1. list[1:]
# 2. [option.get_attribute('value') for option in gu_list if option.get_attribute('value')]
데이터 다 따로 구해서 합치는 방법 말고 세부페이지 정보를 확인하면 한번에 다 구할 수 있음
데이터가 화면에 가려져서 안보일 경우
get_attribute('innerText') or 'textContent' or 'innerHTML'
name=driver.find_element_by_id('os_nm').get_attribute('innerText')
csv파일 불러올 때 1,234 (object)를 1234(int)로 불러오는 방법
df_oil=pd.read_csv('./oilstation_oneday_20230126.csv',encoding='utf-8',thousands=',',index_col=0)