NLP

GreenBean·2021년 8월 15일
0
post-thumbnail

NLP

NLP

  • 자연어 처리(Natural Language Processing, NLP)는 인공지능의 한 분야로서 머신러닝을 사용하여 텍스트와 데이터를 처리하고 해석
    • 자연어 인식 및 자연어 생성NLP의 유형
    • 자연어를 분석하고 처리하는 능력
      • 자연어는 인간의 의사소통에서 의미를 나타낸다고 할 수 있음
  • 자연어 처리는 머신러닝을 사용하여 텍스트의 구조와 의미를 파악
  • 자연어 처리 애플리케이션을 사용하면 텍스트를 분석하고 사람, 장소, 사건에 대한 정보를 추출하여 소셜 미디어 감정과 고객 대화를 더욱 정확하게 이해할 수 있음
  • 이 분야는 언어의 구조와 의미를 이해하기 위한 연구를 다룸
  • 자연어 처리에서는 다음과 같은 흥미로운 연구 주제를 찾아볼 수 있음
    • 텍스트의 의미를 이해하는 방법
    • 문장의 의미를 파악하고 Context에서 추출하는 방법, 그 단어의 의미를 이해하는 방법
    • 문장 구조를 분석하는 방법
    • 문장의 의미를 만들기 위해 문장 구조를 이해하는 방법

NLP의 용도

  • 자연어 처리 애플리케이션은 구조화되지 않은 텍스트 기반 데이터로부터 유용한 정보를 얻기 위해 사용
  • 사용자가 추출된 정보에 액세스하여 해당 데이터에 대해 새로운 이해를 생성할 수 있게 해줌
  • 자연어 처리 예시는 Python, TensorFlow, PyTorch를 사용하여 빌드될 수 있음

자연어 처리의 원리

  • 자연어 처리는 두 가지 중요 작업인 이해(Understanding)생성(Generation)으로 이루어져 있음
  • 이해문장을 받아들이고 이해하는 것이며, 생성의미를 받아들이고 이를 바탕으로 문장을 생성하는 것

이해

  • 문장을 이해하는 첫걸음은 각 품사(Parts Of Speech, POS)를 파악하기 위해 문장을 이해하는 것부터 시작
    • 다음 단계는 품사 정보를 통해 단어 사이의 구문 관계(Syntactic Relationships)를 파악하는 것
  • 문장 예시 : The dog chased the cat.
      1. 문장을 분석하기 위해 각 단어의 품사를 파악
      • The: 명사
      • dog: 명사
      • chased: 동사
      • the: 관사
      • cat: 명사
      1. 단어 사이의 구문 관계를 파악
      • The dog는 문장의 주어(Subject), The cat은 문장의 직접 목적어(Direct Object)이며 The는 관사
      1. 문장의 의미를 파악
      • 기본적으로 품사를 의미로 매핑하는 언어 모델(Language Model)을 사용해서 해볼 수 있음
      • 동사의 경우, 그 의미는 동사의 행동이 될 것
        • 예를 들어, 동사 chased(쫓다)는 “어떤 대상을 잡을 의도로 뒤를 급히 따르다”라는 의미를 가지고 있음
      1. 마지막 단계는 문장으로부터 추론(Inference)하여 누락된 정보를 채우는 것
      • 예를 들어 고양이는 잡히지 않았다고 추론해볼 수 있음

생성

  • 생성 작업은 의미를 통해 문장을 생성하는 것
  • 문장 예시 : The dog chased the cat.
      1. 문장의 의미를 파악
      1. 문장을 생성하기 위해 이 의미를 사용
      • 이를 위해 의미를 파악하고 단어를 함께 연결함으로써(Concatenate) 새로운 문장을 만들어 볼 수 있음
      • 예를 들어 dog와 chased를 연결하여 "The dog chased"라는 문장을 만들 수 있음
      • 그러면 dog와 cat을 연결해 “The dog chased the cat”이라는 문장을 만들 수 있음
    • 이와 같은 방식은 “순차 생성”이라 부르며 생성적인 시스템의 핵심 요소

NLP 사용 사례

  • 고객 감정
    • 항목 분석을 사용해 문서 및 채널에서 필드를 찾아 라벨을 지정하여 고객 의견을 보다 잘 이해하고 제품 및 UX 정보를 파악할 수 있음
  • 영수증 및 인보이스 이해
    • 항목을 추출하여 영수증과 인보이스에서 날짜나 가격과 같은 일반적인 항목을 식별하면 요청과 결제의 관계를 이해할 수 있음
  • 문서 분석
    • 수동 분석에 시간과 비용을 쓰지 않고도 커스텀 항목 추출을 사용하여 문서에서 분야별 항목을 식별할 수 있음
  • 콘텐츠 분류
    • 일반 항목, 분야별 커스텀 항목 또는 700개 이상의 일반적인 카테고리(예: 스포츠 및 엔터테인먼트)를 기준으로 문서를 분류할 수 있음
  • 트렌드 추적
    • 마케팅 담당자가 온라인 뉴스, 기사, 기타 데이터 소스에서 브랜드와 관련된 콘텐츠를 추출할 수 있는 뉴스를 텍스트에서 집계할 수 있음
  • 의료
    • 임상 시도를 가속화할 수 있도록 향상된 임상 문서, 데이터 마이닝 연구, 자동화된 레지스트리 보고를 지원할 수 있음
profile
🌱 Backend-Dev | hwaya2828@gmail.com

0개의 댓글