인식할 소리를 제외하고 생활 소음, 백색소음, 주변 소음을 20초 이상 수집해야 한다.
정확한 소리만 수집하는 것이 아니라 여러 발음으로 녹음해 다양한 데이터를 수집해야 한다.
음성 1초에 44000개의 데이터로 오랜시간이 필요하다.
주변소음이 달라지거나 다른 사람의 목소리로 테스트 하게되면 성능이 떨어질 수 있으므로 다양한 데이터를 수집해 인식률을 높이는 것이 중요하다.
배경 소음 인식, 음성의 특징이 잘 드러나게 녹음해야 하며, 특징이 정확할 수록 인식율이 늘어난다.
초기 에포크 상태에 자주 발생하며, 훈련 데이터 셋과 테스트 데이터 셋에 대한 성능이 둘 다 좋지 않다.
훈련 데이터 셋 성능이 좋으나 테스트 데이터 셋 성능은 좋지 않다. 데이터 셋의 구성을 더 다양한 데이터와 많은 양의 데이터가 필요하다.
손실, 정확도 함수 그래프로 성능 평가할 수 있다.
스크래치 내에서 티처블 머신 연동 프로그램, tts 프로그램을 활용해 음성인식 인공지능을 제작해 볼 수 있다.