[TIL]Day 207

이재희·2021년 6월 25일
0

TIL

목록 보기
207/312
  • 형태소 분석
    어절 내에서 다양하게 나누어지는 분석 후보들을, 모두 나열하여 분석 하는 것

  • 품사 부착
    모호한 형태소 분석 후보들 중에서, 문장 내에서 알맞은 형태소와 그 품사를 결정하는 것

한국어 형태소 분석의 어려움

  • 두 가지 중의성
    • Segmentation 중의성
      • 영어(X),중국어(O),일본어(O)
    • 품사 중의성
  • 띄어쓰기
    • 사용자는 띄어쓰기 실수를 빈번하게 일으킴 -> 믿기도 믿지 못하기도 힘듦
      ! 다붙여서 분석하지는 않음 원래의 정보이기 때문
  • 원형 복원
    • 쉬워 -> 쉽다 + 어 vs 비워 -> 비우다 + 어
  • 복합 명사
    • 띄어 써도 붙여 써도 맞음 -> 사용자마다 다름
    • 예: 대학생선교회

규칙 기반

  • 규칙(Rule) 기반 방법
    • 나는
      • 나(대명사) + 는(조사) -> O
      • 날다(동사) + 는(어미) -> O
      • 보조사 "는"은 받침이 없는 체언과 결합한다. -> 규칙
    • 나은
      • 나(대명사) + 은(조사) -> X
      • 낫다(형용사) + 은(어미) -> O
      • 보조사 "은"은 받침이 있는 체언과 결합한다. -> 규칙
profile
오늘부터 열심히 산다

0개의 댓글