πŸ“ƒνŠΈμœ„ν„° 크둀링 μ‰½κ²Œ ν•˜λŠ” 법

μ΄μ •ν˜„Β·2022λ…„ 10μ›” 23일
0

μ•Œμ“Έμ‹ μ½”

λͺ©λ‘ 보기
1/1
post-thumbnail

νŠΈμœ„ν„° 크둀링 ν•˜λŠ” 방법? 쉽닀. λ§Žλ‹€.
ν•˜μ§€λ§Œ λ‚˜μ—κ²Œλ„ μ‰¬μšΈκ±°λž€ 보μž₯은 μ—†μŒ.
μ—¬λŸ¬κ°€μ§€ 방법 μ‹œλ„ ν›„ κ°€μž₯ 쉽고 였λ₯˜κ°€ μ•ˆλ‚˜λŠ” λ°©λ²•μœΌλ‘œ
νŠΈμœ„ν„° 크둀링 κ°€μ΄λ“œλ₯Ό 가지고 μ™”μŠ΅λ‹ˆλ‹€.

*λ„€μ΄λ²„μ˜ μ–΄λ–€ λΆ„ λΈ”λ‘œκ·Έ μ°Έκ³ ν•˜μ˜€μŒ. κ°μ‚¬ν•©λ‹ˆλ‹€!

νŠΈμœ„ν„° 크둀링 ν•˜λŠ” 법

  1. νŠΈμœ„ν„° 개발자 계정 μ‹ μ²­ ν›„ api key λ°›κΈ°
    https://developer.twitter.com/en

  2. import 해쀄 것

import tweepy
import snscrape.modules.twitter as sntwitter
import pandas as pd
  1. ν‚€ μž…λ ₯
# νŠΈμœ„ν„° API에 μ ‘κ·Όν•˜κΈ° μœ„ν•œ 개인 ν‚€λ₯Ό μž…λ ₯
consumer_key = "blahblah"
consumer_secret = "blahblah"

access_token = "blahblah"
access_token_secret = "blahblah"


# OAuth ν•Έλ“€λŸ¬ 생성 & κ°œμΈμ •λ³΄ 인증 μš”μ²­
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)

# μ•‘μ„ΈμŠ€ μš”μ²­
auth.set_access_token(access_token, access_token_secret)

# api instace 생성
api = tweepy.API(auth)
  1. 본격 크둀링
# νŠΈμœ— 크둀링 ν›„ 담을 리슀트 생성
tweets_list = []

# TwitterSearchSc,γ…‘ .raperλ₯Ό μ΄μš©ν•˜μ—¬ ν•΄λ‹Ή νŠΈμœ—μ„ κΈμ–΄μ™€μ„œ λ¦¬μŠ€νŠΈμ— λ„£κΈ° ('검색어 since:μ‹œμž‘λ‚ μ§œ until:λλ‚˜λŠ”λ‚ μ§œ)
# 무료 버전은 νŠΈμœ— 수 5000개 μ΄ν•˜λ‘œ μ œν•œ
for i,tweet in enumerate(sntwitter.TwitterSearchScraper('단짠단짠 since:2020-01-01 until:2022-08-18').get_items()):
    if i>5000:
        break
    tweets_list.append([tweet.date, tweet.content, tweet.likeCount])
    
# 데이터 ν”„λ ˆμž„μœΌλ‘œ μ €μž₯
tweets_df = pd.DataFrame(tweets_list, columns=['Datetime', 'Text', 'Like'])
tweets_df

이 λ°©λ²•μœΌλ‘œ λˆ„κ΅¬λ‚˜ μ†μ‰½κ²Œ 크둀링 ν•  수 있기λ₯Ό-!

0개의 λŒ“κΈ€