영화 리뷰의 데이터를 가지고 데이터 분석을 해보고자 한다.
# 파일 불러오기
import pickle
# with open : 파일을 열고 닫을 때 사용
# './movie_review.pkl : ./ -> 현재 위치'
# 'rd' : 읽기 모드
# as : 별칭
with open('./movie_review.pkl', 'rb') as f :
data = pickle.load(f)
# 1. 전체 리뷰 개수 확인
len(data)
# 2. 리뷰의 길이의 평균 값
hap = 0
age = 0
for i in range(0,len(data)) :
hap += len(data[i][0])
age = hap/len(data)
print(age)
# 3. 긍정리뷰/부정리뷰 개수(풀이)
pos = 0
neg = 0
for i in data :
if i[1] == 0 : #부정(0)인 경우 True
neg += 1
elif i[1] == 1 : #긍정(1)인 경우 True
pos += 1
print(f"긍정 '{pos}'개")
print(f"부정 '{neg}'개")
# 4. 리뷰 길이 중에서 최대 값을 가진 리뷰의 길이와 리뷰 내용(풀이)
max_len = len(data[0][0])
# max 알고리즘 구현 시 임의의 ㄱ밧선정은 실제 데이터 에서 추출해서 담은게 가장 명확!
for i in data :
if max_len < len(i[0]) : # 임의값 보다 현재 i가 들여가 보공 잉는 댓글의 길이가 더 크다면 True
max_len = len(i[0]) # 치환
max_content = i[0]
print(max_len)
print(max_content)
# 5.'ㅋ'이 포함된 리뷰의 개수
hap = 0
for i in range(0,len(data)) :
for m in data[i][0] :
if m =="ㅋ" :
hap += 1
break
print(f"'ㅋ'가 포함된 리뷰는 {hap}개 입니다.")
# 6. '검색 데이터' 가 포함된 리뷰 개수 (풀이)
search = input("검색 데이터 입력 >> ")
cnt = 0
for i in data :
if search in i[0] :
cnt += 1
print(f"'{search}'가 포함된 리뷰는 {cnt}개 입니다.")