[NLP 23_1] What is Twitter, a social network or a news media?

fla1512·2023년 4월 23일

NLP Study

목록 보기

20/23

Introduction

트위터의 등장 배경, 구성요소(follow, followed)에 대한 설명: 그 관계가 상호작용일 필요는 없음, follower가 된다는 것은 tweets라 불리는 메시지를 받겠다는 의미, RT(=retweet)으로 답변을 하며 이를 통해 정보를 원래 트윗으로부터 퍼뜨리게 됨
연구의 목적: 정보 공유의 새로운 수단인, 트위터의 위상적인 특성을 연구, 1) 네트워크 분석에서 시작해 분포와 관계에 대한 분석을 다방면으로 진행, 2) 토픽 분석(카테고리 간의 연관성), 3) retweet을 활용한 정보의 분포(데이터: 41.7 million 유저 프로파일, 1.47 billion 사회적 관계, 106 million 트윗)

Twitter Space Crawl

API를 활용한 데이터 수집(기간, 개수)
2.1 Data Collection
User Profile: profile에 기재된 내용(이름, 위치, 웹페이지, follow/followed), 많은 follow/followed가 있는 Perez Hilton로 연구 시작, 최종 수집 유저 프로파일러는 41.7 million명.
Trending Topics: 트위터는 ‘trending topics’라는 이름 하에 phrases, words, hashtags를 트래킹함. Hastag는 #을 통해 표시되고 논의할 바를 창조하는 관습임.
사용자 홈페이지 오른쪽 바에 top 10 trending topic을 보여주는데 이때 유사한 토픽을 그룹화하지 않음. 정확한 원리는 알려져 있지 않지만 이것이 trending topic을 잘 나타내 준다고 본 연구에서는 판단함. API를 사용해서 5분 간격으로 크롤링하여 4,262개 수집.
Tweets: 앞 과정과 유사하게 5분 간격으로 트윗의 전체 내용을 다운 받음.
2.2 Removing Spam Tweets
트위터에서 spam tweets가 증가하게 된 배경, 이를 방지하고자 FireFox add-on이라 알려진 Clean Tweets 방법을 도입해서 spam tweets를 제거함.
트렌드 토픽을 spam filtering에서 임계점 3으로 두기 전에, 숫자를 3-10으로 변화를 주는 과정을 거쳐 최적의 숫자를 찾음. 결과적으로 트윗은 140개 character로 제한됨. 그런 트윗들까지 제거해서 최종적으로 106 million 트윗을 모음.

On Twitterers’ trail

“How the directed relationship in Twitter impacts the topological characteristics?”에 기반해 분석을 시작.
3.1 Basic Analysis
following/followed에 기반해서 directed network 생성하고 기본 분석 진행(Fig1), Fig1은 following/followed 수의 분포(y축은 CCDF를 표시함)
Fig 1 분석 결과: 1) x=20일 때(트위터에서 초기 환경을 20명으로 추천함), 2) x=2000일 때(2009년 이전에 follow할 수 있는 수의 제한이 2000명이었음, 지금은 제한X), 3) 매우 적은 수의 유저가 10,000명 넘게 follow(정치인 공식 페이지, 유명인사 등)함.
x=10^5일 때까지의 dash line은 power-law distribution에 적합함(exponent 2.276까지로). 더 나아가 x=10^5 이상인 data points는 power-law distribution이 예측한 것보다 더 많은 follower가 있는 유저들을 나타냄. 유사한 결과가 다른 SNS에서는 없었는데 Cyworld에서도 나타남. Cyworld와 Twitter의 공통점은 많은 유명인사들이 있고 팬들과 온라인 관계를 유지한다는 것임. Million follower가 넘는 사람은 40명 뿐이고 다 유명인사이거나 미디어임. Top20은 Fig7로 확인 가능.
3.2 Followers vs. Tweets
follower의 수와 쓰인 tweet의 상관관계를 측정하고자 다음 분석 진행(Fig2), Fig2에서 y는 tweet의 수, x는 한 유저가 가진 follower의 수를 나타냄. 10명보다 적은 follower가 있는 유저의 대다수는 트윗을 안하거나 한 번만 함. 유저 당 팔로우의 수에 대한 트윗의 평균 수는 항상 중간값보다 높은데 이는 아웃라이어(예상된 follower의 수보다 tweet을 더 많이 하는)가 있음을 뜻함. 트윗의 중간값은 주로 x=100~1000에서 평평하고 x가 5000을 초과하면 엄청 커짐.
follower의 수에 기반해서 활동적이게 되는 성향을 측정함(Fig3). Fig1에서 언급한 바와 동일하게 x=20, 2000일 때 불규칙함이 발견. 더 나아가 x=250, 500, 2000, 5000일 때도 그래프가 급락하는데, spam accounts일 것이라 추측함. follower의 수를 logscale에 기반해서 bin하고, dashed line으로 median per bin을 plot 해 줌. Dashed line은 positive trend를 보여주는데, 선은 100에서 1000 사이에서는 평평함. Fig2에서와 마찬가지로 tweet의 수는 following이 5000을 넘어설 때까지 점점 커짐.
3.2에 대한 최종 해석: Fig2, Fig3는 모두 tweet의 median number가 x=10까지 증가함을 입증. Follower와 following의 수가 x=100일 때까지 평평하다면.
3.3 Reciprocity
Reciprocity에 대한 정의: Section 3.1에서 follower 수에서의 top 유저들에 대해 언급함. 사실 트위터는 reciprocity가 낮음: 77.9%가 한 쪽만 연결되고, 오직 22.1%가 상호연결임. 이런 현상을 r-friends라 부름. 다른 SNS에서는 이 reciprocity가 더 높음을 보고한 선행 연구가 있었음.
사용자의 67.6%는 following이 아예 없음. 본 연구에서는 이러한 유저들을 social networking site보다는 정보의 근원이라 추측함.
3.4 Degree of Separation
Degrees of separation 관련 선행연구: 이는 societal structure를 이해하는 주요 요소가 되었음. 1) Stanley Milgram’s의 ‘six degrees of separation’ 실험 이후에, 해당 실험은 어떠한 두 사람도 서로 six hops가 있으면 연결될 수 있음을 입증. 2) Watts and Strogatz는 많은 사회, 기술 네트워크가 small path length를 가지고 있음을 발견하고 그를 ‘small world’라 부름. 3) Leskovec and Horvitz는 MSN messenger network의 180 million user들을 활용해 ‘median and the 90% degress of seperation이 각각 6, 7, 8임을 보고.
선행 연구와 본 연구와의 주요한 차별점: 트위터 관계에서의 directed nature. 3) MSN에서 link는 mutual agreement of a relationship을 나타내는데, twitter에서 유저는 자신을 follow한다는 이유로 서로 팔로워가 될 필요X. 그러므로 다양한 hop는 반대로는 존재하지 않을 수도 있음.
path-length distribution 추정 방법: 트위터의 경우 22.1%만이 유저에서 reciprocal(상호)이기에 두 user간의 path length가 다른 network보다 길지 않을 것이라고 추측함. path-length distribution을 추정하고자 랜덤 샘플링 방법 사용. 시드 랜덤으로 설정하고 시드 사이의 가장 짧은 거리 분포 얻고, 네트워크 나머지를 breadth-first search로 얻음.
path-length distribution 추정 결과(Fig4): Fig4는 트위터에서 shortest path의 분포를 나타냄(1000, 3000, 8000 시드에서). 중간값과 distribution의 mode는 둘 다 4이고 평균 path length는 4.12, effective diameter는 4.8임. 70.5%의 node pair에 대해 path length는 4 보다 좀 짧거나 그 정도이고 97.6%에게는 6보다 짧거나 그 정도임. Incoming edge가 없는 1.8%의 유저가 있으며, 가장 긴 path는 18이었음.
path-length distribution 추정 결과2(Fig4): Average path length(4.12)는 twitter size를 고려했을 때 꽤 짧으며, directed graph임을 고려할 때 예상과 반대의 결과이었음. 이는 social networking보다 트위터의 역할을 보여주는 흥미로운 현상임. 사람들은 1) social networking을 위해서 그리고 2) 정보를 위해서 다른 사람들을 follow함.
3.5 Homophily
Homophily 연구 배경 및 방법: “a contact between similar people occurs at a higher rate than among dissimilar people”(정의). 본 연구에서는 homophily를 두 관점에서 조사함: 1) geographic location, 2) popularity. 트위터 사용자들은 자신의 위치를 직접 밝히는데 형식이 자유이어서 통일이 어려움. 그래서 대신에 사용자의 time zone을 고려해서, 유저의 location을 위한 approximate indicator로 사용. 전 세계에 대해서 24 time zones 중 하나를 선택한 유저들은 빼고, user와 r-friends에 대해서 time difference를 계산함. Median time different versus the number of r-friends에 대한 결과를 Fig5에 그림.
Fig 5 해석: “a large following in another continent”. 결론적으로 reciprocal relation이 2000보다 적은 트위터 유저들은 지리학적으로 가깝다.
Homophily 연구 배경 및 방법2: User의 follower의 수를 유저의 popularity로서 고려. "Does a user of certain popularity follow other users of similar popularity and they reciprocate?"를 질문하며 다음 과정 수행. 하지만 이는 undirected graph에서만 볼 수 있어서 Twitter에서는 적용 불가.
Fig 6 해석: “mean of average numbers of followers of rfriends against the number of followers”에 대한 결과임. X가 1000보다 낮을 때 positive correlation을 보임.
3.5절에 대한 요약: #3.5에서는 homophily를 두 관점에서 봄: geographic location and the number of r-friends’ followers. 이를 통해 1000명보다 적은 수의 follower를 가진 유저들은 r-friends와 지리학적으로 가깝고, 비슷한 popularity임. 이 분석에서는 unreciprocated directed links는 포함하지 않고 r-friends에만 초점을 둠.
요약: 트위터터는 잘 알려진 social network의 특성에서 다양함: 1) its distribution of followers is not power-law, 2) the degree of separation is shorter than expected, and 3)most links are not reciprocated. 그런데 reciprocated 관계를 보면 같은 레벨의 homophily를 보여줌.

Ranking Twitter Users

#4 분석 개요: 트위터의 인기는 팔로워 수로 추정 가능, Top20이 Fig7에 있으며 이를 List#1이라 명명. List#1은 전부 유명인사나 뉴스 미디어임. 그러나 이 수가 모든 user exerts를 나타내지는 않음. 이런 ranking nodes의 문제(topological dependence in a network)는 웹페이지를 연결성에 기반해서 ranking하는 것과 같음. 구글은 PageRank 알고리즘을 사용해서 search 결과에 랭킹함. 해당 #4에서는 유저들을 PageRank 알고리즘으로 rank하고, retweet의 수로도 rank하고 결과를 비교함.
4.1 By PageRank
PageRank 적용 방법 및 결과: 노드가 user에 map되고 모든 directed edge는 a user following another로 map. Top 20 ranked user는 Fig 7에서 확인 가능하며 이를 List #2라 명명함. List #2는 두 명을 제외하고 List #1과 같음. 두 리스트가 완전 동일하지는 않지만 거의 유사함.
4.2 By the Retweets
Retweets 적용 방법 및 결과: 특정한 트윗에 대한 retweet의 수는 트윗의 인기도에 대한 측정치임(tweet writer의 인기도에 기반해서). Retweet에 대한 Top20의 결과는 Fig7 가장 오른쪽에 있음. 20명 중 4명만이 세 ranking에서 공동임. 해당 유저들이 있는 이유는 active tweeting during and after the Iran election on June 12th, 2009으로 추정됨. retweet에서는 주요 뉴스 미디어(Breaking News Wire, ESPN Sports News, the Huffington Post, and NPR News)가 있었는데 이를 해석하기가 어렵지만, 그들이 top20에 있다는 것은 이 미디어의 follower들이 해당 미디어의 tweet이 가치있다고 판단했음을 뜻함. oxfordgirl, Pete Cashmore, and Michael Arringto는 online distribution에 기반한 독립적인 뉴스 미디어로 카테고리화 가능. 이 결과를 통해 트위터에서 alternative media의 rise를 볼 수 있음.
4.3 Comparison among Rankings
세 ranking에 대한 quantitative comparison: 1) the number of followers (R_F), 2) PageRank (R_PR) 3) the number of retweets (R_RT)의 관점에서 Fagin et al.로 비교함. 이는 Kendall’s tau를 일반화한 것인데 Kendall’s tau는 rank correlation의 measure임. ‘opimistic approah’를 사용해서 다음 식을 활용해 계산하고 normalized distance로 K를 계산함( ).
Fig8 해석: K를 20~2000으로 해서 three pairs of rankings를 그림. 결과적으로 R_F랑 R_PR은 유사하지만 R_RT(=a gap between the number of followers and the popularity of one’s tweets and brings a new perspective in influence in Twitter)는 다름.

Trending the Trends

개요: #3의 연장선으로서, “what information does spread on Twitter?”를 알아보고자 함. 어떤 topic이 trending topic이 되고, 어떻게 trending topic이 인기를 끌어올리는지를 follower의 network를 통해 알아봄. # 2.1에서 언급하였듯이 4266개의 topic을 모았고 이때 어떤 큰 사건들이 있었는지를 나열함.
5.1 Comparison with Trends in Other Media
연구 목적 및 방법: 트위터에서 어떤 topic이 유명한지 대답하고자 trending topic을 다른 미디어(Google Trend, CNN)과 비교함. 40개를 Google Trend에서 수집하고 Twitter에서 trending topic을 뽑아서 비교한 결과, Twitter에서 얻은 3479개 중, 126 (3.6%)개가 Google Trend에 있었으며, 그들 중 대다수는 실제 사건, 유명인사, 영화이었음.
Fig 9 분석 방법 및 결과: ‘freshness of topic’을 Google Trend와 Twitter trending topic에 대해서 비교함. 구글에서의 평균 95%인데 Twitter에서는 그에 비해 72%가 새로운 내용임. 유저들 간의 상호작용은 구글과 달리 트위커에서 일반적인데, 그런 상호작용은 trending topic을 계속 유지하는 요인으로 보임.
How close are trending topics to CNN Headline News in time and coverage? 관련 분석 및 결과: CNN 기사를 모으고 전처리함. Trending topic을 매칭시켜 본 결과, 절반 이상을 CNN이 보도에서 앞섰음, 하지만 트위터가 더 앞선 것은 live broadcasting nature이었고, 이 분석을 통해 트위터가 breaking news in a manner close to omnipresent CCTV for collective intelligenence임을 발견.
5.2 Singleton, Reply, Mention, and Retweet
Retweet을 활용한 분석 결과 Fig10: Retweet, mention(@)에 대한 설명, 4266개의 trending topic 중 singleton이 가장 흔했고 mention이 가장 적었음. 하지만 이 분포(singletons, replies, mentions, retweets)는 토픽에 따라 다름. Fig 10은 top20의 결과인데 두 개는 offline news 관련이고 나머지 두 개는 campaign 관련이어서 bug(‘rt&’)이 retweet에서 흔하게 추출되는 것으로 추정.
5.3 User Participation in Trending Topics
분석 방법 및 결과(Fig11): “How many topics does a user participate on average?”를 알아보고자 분석 진행. Fig 11에서 ‘apple’과 ‘#iranelection’은 유사한 수의 tweet이지만 사용자의 참여도의 수는 ‘apple’이 5배 더 큼. 더 나아가 ‘#iranelection’의 경우 유저가 적는 pace가 처음 20일 후에 줄어듦. 특정한 trending topic에 대해서 많은 트윗을 오랜 시간동안 생성하는데 핵심 멤버가 있다는 사실을 발견.

5.4 Active Period of Trends

분석 방법 및 결과(Fig12): active period를 CDF로 그리고, 73%의 topic이 single active period를 가지고 있음을 입증. 대다수의 active period는 1주이거나 더 짧음. Fig 12를 보면 31%의 기간이 하루 정도이고 7%가 10일보다 긺. 하지만 두 달보다 좀 더 길게 지속되는 topic도 있음, 가장 긴 것이 76일인데 ‘big brother’라는 토픽임. 얼마나 많은 트윗이 topic duration 동안에 처음, 중간, 마지막에 흥미를 끌었는가에 대해 ‘Crane and Sornette’가 response function을 카테고리화하는 모델을 제시함. 이 방법을 트윗의 수와 시간에 활용하고 네 카테고리로 분류(exogenous subcritical, exogenous critical, endogenous subcritical, endogenous subcritical). 각 카테고리의 예시 토픽들은 Fig13에 있음. 각 토픽에 대해서 manual 하게 조사하고 명명함.
Tab1 해석: 각 class에 대한 active periods의 수와 퍼센트에 대한 요약임. 트위터 user들은 headline news에 대해서 말하는 경우가 있고 fresh news에 대해서 응답한다고 결론 내림.

Impact of Retweet

#5에서 trending topic이 어떻게 떠오르고 사라지는지를 봄. 이 때 정보가 트위터에 어떻게 퍼질까에 대해서 알아보고자 함.
6.1 Audience Size of Retweet
Fig14 해석: 사람들은 매스 미디어를 다양한 형태로 구독, user에 의해 post된 tweet가 user의 follower에게 view되고 consume됨을 가정하고, additional recipients를 셈(원본 트윗 게시자를 follow하지 않는). Fig 14는 average and median per tweet against the number of followers of the original tweet user를 나타냄. Median은 거의 항상 average 밑인데 이는 많은 트윗이 많은 수의 추가 recipients가 있음을 뜻함. 1000 follower까지 additional recipients의 평균 수는 트윗 source의 follower 수에 영향을 받지 않음. 이는 user가 follower가 몇 명이건, tweet이 특정 수의 audience에 도달한다는 것을 뜻함(= retweeting의 힘). 즉 retweet 메커니즘은 각 유저에게 정보를 널리 퍼뜨릴 힘을 주었음. 이는 앞 sec에서 PageRank에서도 영향력이 있었었음.

6.2 Retweet Trees

Fig 16 해석: 지금부터는 retweet이 얼마나 깊고 멀리 영향 끼치는지에 대해 분석. retweet tree를 만들어서 분석 진행. 모든 retweet tree를 ‘air France flight’ 토픽에 기반해서 illustrate함(Fig15, 본 보고서에서는 생략). 해당 과정을 통해 repetitive retweet(=retweeting the same tweet), cross-retweet(=retweeting each other) 같은 패턴을 발견. Fig16에서 retweet tree heights와 유저의 수를 CCDF로 그림. Height 1은 95.8%로 가장 흔함. Node pair의 97.6%가 6 degrees of separation보다 적었음. User의 분포는 power-law를 따름. 이 retweet tree analysis는 어떻게 retweet이 퍼지고 진화했는지를 입증함.
6.3 Temporal Analysis of Retweet
Fig 17 & 18 해석: how soon retweets appear and how long they last에 대해서 분석함. Fig17은 tweet이 retweet으로 가기 까지의 time lag. Fig 18은 time lag between two nodes on a retweet tree를 나타냄. 대다수의 retweet tree는 one-hop deep이고 첫 번째 hop의 time lag는 퍼져있음. 두 번째 hop는 더 responsive하고 back to back up으로 5 hop을 한다는 특징을 가짐. Twitter가 information diffusion으로서 가진 힘이 retweet의 속도를 stand out함.

6.4 Favoritism in Retweet

Fig 19 해석: How even is the information diffusion in retweet?를 알아보고자 retweet tree에서 disparity를 조사함. (3) 식에서 edge는 retweet을 나타냄. Fig 19(a)와 (b) 모두 1000 follower까지 선형상관관계를 보임. K에 대한 선형 상관관계는 favoritism in retweet을 보여줌: 사람들은 적은 수의 사람만을 retweet하고, user follower의 정확히 적은 수만이 retweet함.

Related Work

Online social networks and social media: 소셜 네트워크의 인기가 올라가면서 특성에 관한 연구들이 진행되었고, 최근에는 크롤링 데이터에 대해서 특성을 보았다. 트위터는 지난 2년 동안 많은 관심을 이끌었음. Java et al.은 Twitter 관련 기초 분석을 2007년에 했고 user cluster를 진행. Krishnamurthy et al.은 follower/following 수에 기반해서 user의 특징을 분석했고, Zhao and Rosson은 트위터를 사용하는 동기를 질적을 분석함. Huberman et al은 친구의 수가 follower/following보다 적음을 보고했고, Jansen은 word-of-mouth branding에 대해 처음으로 분석함. 본 연구는 전체 Twittersphere에 대한 첫 연구임.
Information cascades: information diffusion은 새로운 아이디어나 행동이 communication channels에 퍼지는 방법임. 이 분야는 sociology, marketing, epidemiology에서 연구되어 옴. Online social network의 성장은 large-scale information diffusion에 새로운 문제가 되었음(Topic propagation in blogspace, linking patterns in blog graph, favorite photo marking in a social photo sharing service, fanning in Facebook, Internet chain letter forwarding, meme tracking in news cycles). 본 연구에서는 retweet trees를 communication channels of information diffusion으로 다루고, retweet이 large audience에게 도달하고 빨리 퍼진다는 것을 발견함.

Conclusion

전체 Twittersphere를 크롤링해서 41.7 million 유저 프로파일러를 얻음. Follower-following topology 분석에서 no-power-law follower distribution을 찾음(short effective diameter, low recioprocity). Reciprocated users 중에서 homophily의 정도를 발견함. 트위터의 영향력을 알아보고자 유저를 PageRank의 수로 rank하고 두 ranking이 유사함을 발견함. retweet으로 ranking하는 것은 다른 미디어의 영향력을 노출함. Top trending topic을 분석하고, 그것을 active period에 대해서 분류하는 과정을 통해 대다수의 topic이 headline이거나 뉴스에서 지속적임을 발견함. Retweet을 더 자세히 보아서, 어떠한 retweeted tweet도 원본 tweet의 팔로워 수와 관련 없이 평균 1000개임을 발견함.
트위터는 open API로 크롤링이 가능하고, one-sided nature의 관계를 가지고 있음. 정보를 릴레이하는 Retweet의 방법은 사람의 행동을 연구하는데 있어서 정보를 제공함(computer scientists, sociologists, linguists, physicists에게). 본 연구는 새로운 플랫폼에 대한 잠재력을 탐구함.

fla1512

이전 포스트

[NLP 23-1] Types of Out-of-Distribution Texts and How to Detect Them(EMNLP, 2021)

다음 포스트

[NLP 23_1] What is Twitter, a social network or a news media?

NLP Study

[NLP 23-1] Types of Out-of-Distribution Texts and How to Detect Them(EMNLP, 2021)

[NLP 23-1] Sequential Modelling of the Evolution of Word Representations for Semantic Change Detection(EMNLP, 2020)

0개의 댓글