2022.05.26 (목) 네이버증시

김오왼·2022년 5월 26일
0

Data-analysis

목록 보기
9/15


library(httr)
library(rvest)
library(wordcloud2)
library(tm)
library(KoNLP)
library(tidyverse)

news_href <- c()
news_text <- c() #news_href안의 news_url만큼 반복



urls <- paste0("https://news.naver.com/main/list.naver?mode=LS2D&mid=shm&sid2=258&sid1=101&date=20220526&page=2")


for (url in urls) {
  get_url <- GET(url) 
  
  my_html <-  read_html(get_url)
  
  my_nodes <- html_nodes(my_html,"dt > a") 
  
  my_href <-html_attr(my_nodes,"href")
  
  news_href <- c(news_href,my_href)
  
  for (news_url in 1:10) { #벡터를 이용해 반복문을 실행한다. 각각원소의 개수만큼 반복문이
#진행되며 news_url이 차례로 이용된다.
    T.selector <- paste0("#main_content > div.list_body.newsflash_body > ul.type06_headline > li:nth-child(",news_url,") > dl > dt:nth-child(2) > a")
    my_nodes1 <-html_nodes(my_html,"#main_content > div.list_body.newsflash_body > ul.type06_headline") #<-headline만 뽑아오기
    news <- html_text(my_nodes1)
    news_text <- c(news_text,news)
  }

}  


df_new_href <- data.frame(news_href)




news_text <- gsub("2022.","",news_text)
news_text <- gsub("기자","",news_text)
news_text <- gsub("\n","",news_text)
news_text <- gsub("\t","",news_text)
news_text <- gsub("\r","",news_text)
news_text <- gsub("/","",news_text)
news_text <- gsub("2000","",news_text)
news_text <- gsub("500","",news_text)
news_text <- gsub("하기","",news_text)
news_text <- gsub("23","",news_text)
head(news_text)
profile
전문 금융인을 목표로하는 김야옹야옹이

0개의 댓글