목차
- 수집 데이터
- 단어 빈도 분석, 워드클라우드 시각화
- 연관 분석, 네트워크 시각화
- 주식 종목 시세 예측 알고리즘 구현
- 소스코드
0️⃣ 수집 데이터
구분 | 내용 |
---|
유튜브 채널 | 한국 뉴스 채널 4곳(SBS News, KBS News, JTBC News, YTN News) |
주제 | 코로나•주식 연관 뉴스 영상 |
영상 개수 | 50 |
댓글 개수(raw data) | 14023 |
- 영상 업로드 날짜 기간: 2020.07 ~ 2021.07
- '코로나 주식' 검색어 지정, 주제와 관련성 높은 영상순으로 선정
1️⃣ 단어 빈도 분석, 워드클라우드 시각화
라이브러리 & 패키지 | 용도 |
---|
Konlpy | 텍스트 데이터 처리 |
Hannanum | 형태소 분석, 명사 분석 |
Counter | 빈도 분석 |
Wordcloud | 워드클라우드 시각화 |
- 워드클라우드 결과물
수집 데이터의 단어 빈도를 분석한 결과 가장 큰 빈도수를 보인 단어는
순서대로 주식 - 사람 - 투자- 코인 -세금 임을 알 수 있습니다.
2️⃣ 연관 분석, 네트워크 시각화
라이브러리 & 패키지 | 용도 |
---|
Konlpy | 텍스트 데이터 처리 |
Hannanum | 형태소 분석, 명사 분석 |
Counter | 빈도 분석 |
Networkx | 네트워크 시각화 |
source | target | support |
---|
코로나 | 사람 | 0.333333 |
코로나 | 주식 | 0 .333333 |
코로나 | 코인 | 0 .333333 |
코로나 | 투자 | 0 .333333 |
코로나 | 코인 | 0 .333333 |
- 네트워크 시각화 결과 (
노드 갯수 제한 오류 해결 중에 있습니다.)
3️⃣ 주식 종목 시세 예측 알고리즘 구현
라이브러리 & 패키지 | 용도 |
---|
Keras | 모델 훈련 |
Matplotlib | 그래프 시각화 |
4️⃣ 소스코드
깃허브 레포지토리
참고 레퍼런스
이것이 데이터분석이다 with 파이썬 (한빛미디어)
주식•비트코인 시세 예측하기
딥러닝을 이용한 자연어처리 입문