배운 강의 내용
최종 프로젝트 준비
대회와 달리, 요구사항만 주어져 있어 데이터셋부터 만들어야한다.
크게 요구사항 → 데이터 준비 → 모델 학습 → 출시
이 과정에서 Data centric, Model centric한 방법이 있다.
둘은 출시 전에는 50대 50정도의 비율로 중요하지만, 한 번 서비스를 시작하면 Data centric의 비중이 압도적으로 높아진다. 그래서 Data를 통해 성능 개선을 이루려고 한다.
데이터를 많이 모은다고 무조건 성능이 올라가지 않는다!
적은 데이터라도 noise가 없으면 좋고, noise가 없더라도 골고루 있어야 한다(유사한 데이터만 있는건 안됨)
데이터 모으기 힘든 이유
Optical Character Recognition의 약자
일반적으로 다양한 종류의 글자 이미지를 의미한다고 생각하면 됨.
Text detection -> Text recognition -> Serialization -> 추가적인 처리를 거친다.
Text detection을 통해 글자 영역을 detection
detection한 영역에 대해 recognition을 통해 어떤 글자인지 알아냄
알아낸 글자를 Serialization하여 우리가 처리하기 편하게 변경
변경된 글자를 우리의 목적에 맞게 활용한다.
OCR을 활용해 매우 다양한 상품이 있다.
팀원들과 어떤 프로젝트를 해야 할 지 의견을 나누고 있다. 최종 프로젝트를 하게 될 지 정확히 몰랐고 이를 예상하고 만든 팀이 아니기 때문에, 모두가 원하는 내용을 하기 위해 많은 의사소통이 필요할 것 같다.
일단 나는 부스트캠프에서 배운 전체 과정(데이터~서빙)을 다뤄보고 싶고, 비즈니스 적으로나 아이디어 적으로 경쟁력 있어 포트폴리오로 사용하기 좋은 주제를 선정하고 싶다. 내가 원하는 주제로 하기엔 다른 분들의 의견이 다를 수 있어 욕심인 것 같아 아직은 조심스럽다.
오늘 나온 주제 몇가지로는 kaggle의 비트코인 시세 예측 대회를 참고하여, 차트 이미지로 시세 up, down을 예측하는 프로젝트 얘기가 나왔고 (놀랍게도 이를 구현한 논문이 있었다..) 팀원 중 한 분께서 대학생활 중 하시던 프로젝트로서 시각 장애인들을 위해 카메라가 전방을 인식해 정보를 알려주는 프로그램을 개발하는 것이 있었다. 특히 후자는 지금까지 배운 걸 사용하기 좋으면서 real-time detection을 신경써야 하고, 개발 의도 등 여러 측면으로 좋은 주제인 것 같아 고민이 된다.
일단 최대한 많은 주제를 모으고 그 중에서 정하기로 결정하였다. 아직 추가로 생각난 주제는 없지만 열심히 찾아서 모두가 원하는 주제로 열심히 프로젝트를 진행하고 싶다.