[AIFFEL] 22.Feb.24, Exploration_Optical_Character_Recognition

Deok Jong Moon·2022년 2월 24일
0
post-custom-banner

오늘의 학습 리스트

  • Text detection(Localization)
    • Regression
      • 기준으로 하는 박스 대비 얼마나 차이나는지로 학습
      • 그런데 regression은 이미지 내 detection 대상의 수가 정해져 있어야 가능하단다.
    • Segmentation
      • pixel-wise로 classification한다고 보면 됨
  • Text Recognition
    • 위치를 파악했으면 글자로서 인식하는 단계
    • 글자의 종횡배치 여부도 여기서는 중요해지는 것 같다.
    • 글자에 띄어쓰기가 없는(진짜 없나...?) 일본어는 단어 단위로 파악하기 어렵단다.
    • 그래서 Clova 연구진은 글자 하나하나씩 파악하게끔 짰단다.
  • DEVIEW
    • 개인적으로 이 영상이 오늘의 학습 중 제일 재미있었다.
    • 특히 기술 파악에 대한 본인들의 여정(?)을 순서별로 설명해줬는데,
    • 이런 점에 있어서 실제 머신러닝 엔지니어가 어떻게 실무에서 일하게 되는지 알 수 있어서 너무 좋았다.
    • 그리고 마지막에 현재 해야 하는 일(2018년 기준)에 대해 설명해줬는데,
      • 들어보니 역시나 서비스를 배포한 후에도 아직 완전성은 부족할 수 있다는 것을 느꼈고,
      • 그것의 개선 및 유지, 보수 또한 일이라는 것을 느꼈다.
      • 그리고 개선해야 될 부분에 대해서 데이터가 부족할 수 있단다....
        • 생각해보니 맞는 말이다. 필기체를 분별할 줄 알려면 필기체 데이터가 훈련 시 학습됐어야 했는데 그런 데이터가 적다면 문제이다...
  • string.zfill(숫자)
    • string 앞에 0을 넣어서 숫자만큼의 자리수가 되게끔 해준다.
  • 이미지 내 글자 인식 후 출력해 보니 \x0c 값으로 자꾸 나오길래 이게 뭔가 봤더니 ' '. 그냥 스페이스란다.

미니프로젝트

OCR 모델의 기술검증을 해보자

  • 우선 내가 구현하고자 하는 서비스, 특히 언어를 결정해야 한다.
  • 그리고 목적(어떤 점이 모델을 통해 확인되어야 하는...?)이 서야 한다.
  • 그리고 그것에 맞는 데이터를 모은다.
    • 그런데 여기까지가 시간이 많이 걸릴 것 같다...
  • 데이터를 모았으면 모델들을 각각 API를 써서 돌려본다.
  • 그리고 각각의 결과를 정리해서 비교한다.
profile
'어떻게든 자야겠어'라는 저 아이를 닮고 싶습니다
post-custom-banner

0개의 댓글