[Boostcamp AI Tech] [데이터 제작] 15주차 Day 1 학습 기록

bluegun·2021년 11월 8일
0

AI Tech 2기 활동

목록 보기
68/87

요약

배운 강의 내용

  • 데이터 제작의 중요성 - 모델도 중요하지만 좋은 데이터가 성능에 많은 기여를 한다.
  • OCR에 대한 소개

최종 프로젝트 준비

  • 주제를 어떻게? 어떤 task를? 아직 얘기중

강의 내용

소프트웨어 생애 주기

  • 대충 딥러닝 태스크로 성능이 잘 나오는 문제가 많다 → 데이터의 중요성이 많이 올라간다.

AI 프로덕트 개발 생애주기

대회와 달리, 요구사항만 주어져 있어 데이터셋부터 만들어야한다.

크게 요구사항 → 데이터 준비 → 모델 학습 → 출시

이 과정에서 Data centric, Model centric한 방법이 있다.

둘은 출시 전에는 50대 50정도의 비율로 중요하지만, 한 번 서비스를 시작하면 Data centric의 비중이 압도적으로 높아진다. 그래서 Data를 통해 성능 개선을 이루려고 한다.

  • 모델을 개선시키면 처리 속도, qps, 메모리 크기 등이 변화 → 서비스 전에는 개선시켜 요구사항을 맞춰야함
  • 서비스를 시작한 이후에는 정확도에 대한 성능 개선 요구가 많음
  • 정확도 개선을 위해 모델 구조를 변경하면 위의 처리 속도, qps, 메모리 크기 등을 다시 검증해야한다 → 비용 증가

데이터를 많이 모은다고 무조건 성능이 올라가지 않는다!

적은 데이터라도 noise가 없으면 좋고, noise가 없더라도 골고루 있어야 한다(유사한 데이터만 있는건 안됨)

데이터 모으기 힘든 이유

  • 라벨링 어려운 데이터가 존재 : 라벨링 노이즈 문제
  • 어떻게 라벨링 하면 좋은지 잘 알려져 있지 않다.
  • 데이터 불균형을 해결하기 어렵다 : 최대한 골고루 모아야 하는데 이게 어렵다..

OCR

Optical Character Recognition의 약자

일반적으로 다양한 종류의 글자 이미지를 의미한다고 생각하면 됨.

Text detection -> Text recognition -> Serialization -> 추가적인 처리를 거친다.

Text detection을 통해 글자 영역을 detection
detection한 영역에 대해 recognition을 통해 어떤 글자인지 알아냄
알아낸 글자를 Serialization하여 우리가 처리하기 편하게 변경
변경된 글자를 우리의 목적에 맞게 활용한다.

OCR을 활용해 매우 다양한 상품이 있다.

  • 구글 포토 -> 단어로 검색하면 이미지 내 단어까지 알아냄
    • 이미지 내 단어를 미리 text로 변환해둬 검색 시 연동
  • 사진 찍으면 안의 글자를 번역 or 와이파이 비밀번호 입력 등 활용
  • 광고성/혐오성 이미지 제거
    • 광고 문구를 파악하여 해당 영역을 가려버림
  • 카드, 주민등록증 촬영 시 자동으로 숫자 정보 입력

최종 프로젝트 준비

팀원들과 어떤 프로젝트를 해야 할 지 의견을 나누고 있다. 최종 프로젝트를 하게 될 지 정확히 몰랐고 이를 예상하고 만든 팀이 아니기 때문에, 모두가 원하는 내용을 하기 위해 많은 의사소통이 필요할 것 같다.
일단 나는 부스트캠프에서 배운 전체 과정(데이터~서빙)을 다뤄보고 싶고, 비즈니스 적으로나 아이디어 적으로 경쟁력 있어 포트폴리오로 사용하기 좋은 주제를 선정하고 싶다. 내가 원하는 주제로 하기엔 다른 분들의 의견이 다를 수 있어 욕심인 것 같아 아직은 조심스럽다.

오늘 나온 주제 몇가지로는 kaggle의 비트코인 시세 예측 대회를 참고하여, 차트 이미지로 시세 up, down을 예측하는 프로젝트 얘기가 나왔고 (놀랍게도 이를 구현한 논문이 있었다..) 팀원 중 한 분께서 대학생활 중 하시던 프로젝트로서 시각 장애인들을 위해 카메라가 전방을 인식해 정보를 알려주는 프로그램을 개발하는 것이 있었다. 특히 후자는 지금까지 배운 걸 사용하기 좋으면서 real-time detection을 신경써야 하고, 개발 의도 등 여러 측면으로 좋은 주제인 것 같아 고민이 된다.
일단 최대한 많은 주제를 모으고 그 중에서 정하기로 결정하였다. 아직 추가로 생각난 주제는 없지만 열심히 찾아서 모두가 원하는 주제로 열심히 프로젝트를 진행하고 싶다.

0개의 댓글