2022_01_29

kinghong97·2022년 1월 29일
0

많이 중복되는 단어 찾기

df.loc[: , 'movie_story'] 열의 movie_story만 출력

print(len(df.loc[: , 'movie_story']))

from collections import Counter
c = Counter()

for i in range(len(df.loc[: , 'movie_story'])):

i 인덱스의 토큰만 출력

for j in df.loc[i, 'token']:
c[j] += 1
print(dict(c))

filter에서 그냥 c는 안세어진다 c.items()로 넣자

result = sorted(filter(lambda item: item[1] >= 300, c.items()), key= lambda x : x[1], reverse=True)
print(dict(result))
for k,v in result:
stopwords.append(k)
print(stopwords)

for k,v in c.items():
print(f'{k} : {v}')

for k,v in result:
print(f'{k} : {v}')

0개의 댓글