자연어처리 개요

noo·2021년 8월 18일
0
post-thumbnail

프로그래머스 2021 국민대 여름방학 인공지능 과정 6주차 Day1 TIL


🔍자연어처리

기계가 사람들 간의 의사소통에서 발생하는 자연어이해하고 처리하는 것

📌자연어처리 어플리케이션

  1. 텍스트 분류
    • 스팸 메일 분류, 뉴스 기사 카테고리 분류
  2. 감성 분석
    • 영화리뷰 분석
  3. 텍스트 요약
    • 토픽 모델링
  4. 텍스트 군집화, 유사도 측정
    • 유사 질문 탐색
  5. 자연어 생성
    • 인공지능 기사, 인공지능 소설
  6. 기계 번역
    • 한→영, 영→한 번역 등
  7. 대화 시스템 및 자동 질의 응답 시스템
    • 챗봇, 시리, 빅스비 등

📌기획 시 고려사항

내부 데이터

  • 기업 내부에서 발생한 데이터이므로 수집에 어려움 X
  • 데이터 분석가에 의한 분석 필요성 발생
  • 의미적/형태적으로는 상당히 정제되어 있음

외부 데이터

  • 내부적 데이터로는 한계가 있을 때 분석 필요
  • 많은 양의 데이터를 구할 수 있지만, 목적에 부합하지 않는 자료들도 상당
  • 기술적, 물리적 이유로 구하기 어려울 수 있음
  • 최근에는 공공성을 목적으로 제작된 데이터도 늘고 있음

외부 데이터 수집 방법

모든 웹 사이트를 돌며 수집하는 크롤러

  • 많은 양의 데이터
  • 유지, 보수 어려움

특정 웹 사이트의 데이터만 수집하는 크롤러

  • 정제된 자료
  • 사이트마다 개별 구축

Open API

  • 원하는 데이터를 정제된 형태로 사용 가능
  • 공급사가 허락한 것만
  • API업데이트 시 유지 보수 필요

단순 다운로드

  • 정제된 데이터 수집 가능
  • 공급사가 허락한 것만

데이터 수집

서비스 구성


참고 AI factory
참고 https://wikidocs.net/21667


음... 프로젝트 뭐로 하지

0개의 댓글

관련 채용 정보