프로젝트 2 - pysql과 webcraping(분석과 구상)

김찬울·2021년 7월 20일

한 사이트를 스크래핑해서 데이터를 불러와서 pysql로 데이터베이스화 하려고한다.

이를 통해 얻을 수 있는 것은 전보다 간편하게 볼 수 있으며
데이터를 수집함으로 추후에 이용할 수 있게 만든다.

일단 초기 생각은 뉴스로 생각중이다.

약 5년전쯤에 정부에서 뉴스같은 정보자료를 스크랩한 적이 있는데 이에 착안하여 생각한 아이디어다.

뉴스에서도 언론사에 따라 공신력이 다르며 대부분 꽤나 공신력이 있다고 할 수 있을 정도로 믿을만한 사실을 다룬다.

이에 추후 생각중인 프로젝트에도 다방면으로 활용가능성이 있으며 간단하게 오늘의 이슈를 확인하고 싶을 때에도 간편하게 하루를 정리할 수 있다.

일단 어려워 보이지만 매우 간단하다.

스크랩을 통해 기사마다 나뉘어진 태그를 class명으로 받아와서

반복을 돌린다.

내부 내용중에 id값, 타이틀, 언론사, 링크 등을 부모 테이블로 둘 수 있으며 세부 내용은 자식테이블로 둘 수 있다.
(기자, 날짜, 중요 키워드 등..)
여기서 다른 것은 쉬워보이지만 이를 활용하기 쉽게 여러 설정을 넣는 것이 중요하다.

나는 여기서 가장 많이 나오는 단어를 찾는 방식으로 키워드를 정리하고, 원하는 카테고리, 원하는 언론사를 정해서 사용자 기호에 맞게 데이터를 추출하는 것을 목표로 할 것이다.

추후 gui를 다루게 되면 지금까지의 프로젝트를 그래픽디자인까지 하고 싶다.

각설하고 그렇게 받아온 내용에서 링크 속으로 들어가 키워드와 기자 등등을 찾아서

mysql을 통해 저장한다.

아직 정리가 되지 않아서 mysql 활용을 정리해볼 예정이다.

코린코린이