데분프_0607

allzeroyou·2022년 6월 7일
0

코딩x
개념적인 부분을 기술하는 형태로 진행
크롤링 이후에 통계 분석, 상관 분석, 회귀 분석, 군집 분석, 텍스트 빈도 분석(시험 범위 포함x)까지

각 챕터당 코드 전 이론적인 배경 설명있음 => 참고할 것
예를 들어
지도, 비지도 학습 차이?
군집분석?
성능은 어떻게?
이렇게 개념을 물을 예정

close 북
머릿속에 개념이 서있는지 아닌지 물을 예정임.

NLTK란?
Natural Language Tool Kit

영문 분석

특정 텍스트 내 얼마나 많은 단어들이 반복해서 나왔는지?
키워드를 가지고 검색 -> 검색 결과가 출력이 됨 -> 출력된 텍스트에서 어떤 단어가 가장 많이 나왔는지(빈도 분석)

후반에서는..

  • A 문서, B 문서가 유사한지 분석
  • 어떤 문서가 어떤 내용을 의미하고 있는지
  • 감정 분석(긍정, 부정)

검색 빈도수 기반 -> 워드클라우드 표현
지자체에 대해 어떤 키워드로 분석하는지...

판다스, 사이킷런 은 파이썬 라이브러리
자연어처리(사람이 말하는거 이해하고 해석, 번역)

한글에 맞는 초거대 AI
웬만한 PC로는 작동 불가

기본적인 걸 학습해보자.

목표

Big data 와 관련된 키워드를 도출해 분석

feature는 숫자 형태로 표시해줘야

데이터 전처리

텍스트 분석의 전처리

  • 정제
    특수문자, 콤마 제거
  • 정규화
    대소문자를 하나로 통일, 유사 의미의 단어를 하나로 통합(ex. us=>U.S.A)
  • 토큰화
    공백, 마침표 등으로 단어별 잘라내기(ex. 아버지가방에들어가신다)
  • 불용어 제거
    조사, 관사, 접미사 처럼 분석할 의미가 없는 토큰인 불용어 제거
  • 표제어 추출
    am, are, is => be 동사
    having => have 동사

학술정보서비스: RISS

http://www.riss.kr/index.do

해당 저널은 논문에 대한 저작권을 가지고 있어 기관회원/연회원으로 가입해야 유료 논문을 볼 수 있음

빅데이터와 연관된 키워드 확인 가능

데이터 준비

koNLPY 설치

파이썬 버전 확인

python 버전에 맞는 jpype 다운로드

아나콘다 터미널 실행 후
가상환경의 >아이콘 클릭후 Open in Terminal 실행

파일 설치

profile
모든 건 zero 부터, 차근차근 헛둘헛둘

0개의 댓글

관련 채용 정보