2018 if kakao

keis·2019년 12월 2일

텐서플로로 OCR 개발해보기: 문제점과 문제점과 문제점

OCR 이란?
Optical character recognition
사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환하는 것이다.
기본 모델을 만들 때
모델의 각 모듈들을 간단히 테스트 할 수 있는 테스트 케이스를 만들자
데이터셋을 작게 유지해서 실험
* 런타임 도중 오류가 나는 것은 tf.Print 로 찍어보자
기본 모델이 돌아가기 시작한다면
여러 모델 구조와 dataset 으로 실험을 하면서 최적의 set 을 찾자
물론 새로 만드는 모듈들은 테스트 케이스를 만들자
3가지 요소
1. Convolutional layer - 가중치와 바이어스로 구성
2. Recurrent layer - RNN
3. CTC algorithm
LSTM : 병렬계산, 병목
Long Short Term Memory networks
특별한 종류의 RNN
* 모든 RNN 은 뉴럴 네트워크의 반복되는 체인으로 구성되어 있습니다.

CTC
* CTC 는 학습데이터에 클래스 라벨만 순서대로 있고 각 클래스의 위치는 어디있는지 모르는 unsegmented 시퀀스 데이터의 학습을 위해서 사용하는 알고리즘이다.

MSCeleb-1M (ECCV 2016) - Challenge of Recognizing One Million Celebrities in the Real World
VGGFace2 (FG 2018) -> 한국인 인식률이 떨어진다
A dataset for recongnising faces across pose and age
Network : resnet-34
embeddin size : 256
Optimizer : Adam
Softmax
kakao Database
모으고 GT 찍고, 성능 높이고, 또 모르고, 또 GT 찍고, 성능 높이고, (자동화 하고), 성능 높이자.
~~당연히... 자동화해서 자료모으고 성능 높이면 인식률이 올라가겠지~~
LFW protocol 사용
LFW2008 - Labeled Faces in the Wild
카카오 얼굴 인식 API 연내 API 오픈 계획

일반적으로 사용하는 라이선스
MIT - MIT 에서 해당 대학의 SW 공학도들을 돕기 위해 개발한 라이선스 - iOS 는 MIT 라이선스 비율이 높음
Apache - 아파치 재단의 모든 SW 에 적용되는 라이선스
BSD 의무사항 + 특허권 (GPL2.0 으로 배포되는 코드와는 결합 불가능)
적용사례 : 안드로이드 (v2.0), 하둡(v2.0)
이걸 다루는 이유?
오픈소스 Compliance 이슈 증가
전 세계 공개 SW 단체에 의한 모니터링

Google Oracle 자바 소송
Google 이 Android 에 java api 37개 사용
현재 구글이 소송에서 불리한 상태 안드로이드 소스 배포시 소스가 수정되어 광고등도 심어져서 배포가 되기 때문
* 구글이 소송에서 질 경우 삼성, LG 등 국내 제조업체도 타격이 있음

GPL 알고 씁시다!
GPL 사용 = GPL 로 소스코드 공개 (상업용 목적의 프로그램에서는 거의 사용 불가)
GPL2.0 + Apache2.0 = 배포 불가능
* LGPL2.1 + Apache2.0 = 결합방식에 따라 배포 불가능 할 수 있음
카카오의 오픈소스 Guidance
회사의 오픈소스를 관리하는 별도 팀을 운영
팀을 운영하게 된 계기는 다음 + 카카오 합병이 컸다고 한다.
Hermes
Dependency 관리
고지문 발급 자동화
Protex 연동 -> 구매해서 사용
* OSS DB 구축을 통한 검증 데이타 고도화

인상적이였던 질문 : BitCoin 방식을 사용하게 되면 카카오 서버에 사용자 정보가 올라가있는 시간이 긴 것이 아닌가... 결국 카카오 서버를 믿어야 되지 않느냐
답변 : BitCoin 방식을 썼을 땐 그럴 수 밖에 없었다. 하지만 지금은 하이퍼레저 패브릭 방식으로 바꿈으로써 카카오 서버에 사용자 정보가 올라가있는 시간을 줄였다.

하이퍼레저 패브릭도 만능은 아닐 텐데 단점을 덮으려는 느낌을 받았다.

Traning : 학습
Speaker Verification : 화자를 구별하는 기술
TTS
DNN
Seq2seq 기반 end-to-end 학습하여 더욱 자연스러운 합성음 생성
Generative 고품질 음성 합성 모델링
소용량 음성 DB로 저비용 음성합성
Services that using Kakao Speech Engine