[ASR Study] # 2-3 Recognition by Human

fla1512·2024년 1월 17일
0

ASR Study

목록 보기
4/14

오늘도 이어서 https://ratsgo.github.io/speechbook/docs/phonetics/humans를 정리해본다

인간의 음성 인식

lexical access

  • 정의: 사람은 음성을 단어 단위로 인식
    • = 말소리를 단어 단위로 인식
  1. frequency: 사람은 빈도 높은 단어를 빠르게 인식
  2. parallelism : 여러 단어(예컨대 두 명 이상의 화자가 발화)를 한번에 알아들을 수 있음
  3. cue-based processing : 인간의 음성 인식은 다양한 단서(cue)에 기반

cue-based processing

  • 사람이 소리 이해 위해 -> 쓰는 단서 중 하나 "음성적 특징"

    • 예) formant- 스펙트럼에서 음향 에너지가 몰려 있는 봉우리, 어떤 주파수 영역대에서 형성되어 있는지에 따라 사람은 말소리를 다르게 인식
    • 예) voice onset time: 무성폐쇄음(예: ㅍ)의 개방 단계 후에 후행하는 모음을 위해 성대가 진동하는 시간 사이의 기간 => 말소리에서 유성자음(예: ㅂ)과 무성자음을 식별하는 중요한 단서가 됨
  • 어휘 => 중요한 단서될 수 있음

    • Warren이라는 학자는 1970년 음소 복원 현상(Phonemic restoration effect)라는 개념을 제시
    • 음소(phoneme) 가운데 하나를 기침 소리로 대체하더라도 해당 음소를 들은 것으로 인식한다는 것 -> 청자가 어휘 의미를 알고 있어서 가능한 현상
  • 시각적 단서(visual cues)

    • 맥거크 효과(McGurk effect): 입모양 또는 기타 다른 감각 정보의 영향으로 실제와는 다른 소리로 지각되는 현상
    • 예) ga라는 음절(syllable)을 발음하는 영상을 보여주면서도 ba라는 소리를 들려주면 da라고 알아듣는 것
  • 최근 들은 단어

    • 의미론적 단어 연상(semantic word association): 사람이 최근에 들었던 단어 가운데 의미상 유사한 단어를 더 빨리 알아듣는 현상
    • 반복 점화(repetition priming): 떤 자극이 반복돼 해당 자극의 이후 경험이 뇌에서 빨리 처리되는 것
      • => NLP 연구자들이 cashe language model이라는 개념으로 모델링

on-line processing

  • 인간의 말소리 인식은 그때그때 실시간으로 진행
  • Marslen-Wilson의 1973년 연구
    • 사람은 다른 사람의 말을 듣고서 250ms 내에 바로 따로 말할 수 있음
    • = 단어 세그먼트(word segmentation), 구문 분석(parsing), 그리고 해당 문장에 대한 해석(interpretation)에 이르기까지 전 과정을 250ms 안에 처리 가능하다는 뜻

0개의 댓글