[실습] 2. N-gram

PurinYun·2023년 11월 13일
0

AIffel

목록 보기
7/75

코드 실현하기 전에
생각을 해서
주석으로 뭐 부터 할지 순서를 먼저 쓰고 시작하기.

파일을 읽어옴

모든 문자를 소문자로 변환

모든 기호를 제거

파일 내용을 단어 단위로 자르기

2-gram 생성

counter 내장함수로 빈도수 계산

most-common 내장함수를 사용

출력

import re
from collections import counter

with open('파일명.txt') as file:
	script = file.read()
    
    
script = script.lower()

script. re.sub(r"[^\w\s]", ' ', script)

words = script.split()

two_gram = zip(words, words[1:])

two_gram-cnt = counter(two_gram)

max2gram = two_gram_cnt.most_common(1)
#1을 넣으면 빈도수 가장 높은 것 찾아준다.

print(max2gram)
print(two_gram_cnt)
    
    
    
    
    
    
    
    
    
    
profile
Fantivation

0개의 댓글