후기
이미지 기반 스팸 대응을 위한 카카오의 AI 기술 활용
AI 기술하면 흔히 나오는 비용 문제, 학습 데이터 문제, 적용 문제 등을 기술과 함께 잘 다루어 굉장히 좋았습니다. 특히 발표자가 많은 고민을 하였다는게 느껴졌습니다.
필터링을 Async로 요청 (Kafka로 보냄)
GPU가 비싸지만 배치로 수행하여 비용 절약
- 학습 지표와 실제 지표 차이: Meet Transformer
- 극히 일부만 라벨링된 학습셋: Active Learning
- 모델 성능에 유용한 샘플만 선택하여 학습
- Qeury by committee(QBC): 여러 모델이 투표하여 결정
- 효과가 좋지만 프로세스 복잡
- Loss를 이용하여 대상 선정(손실값 크면 불확실한 데이터)
- random sampling(랜덤 샘플링)
- 과도한 서버 비용: GPU 기반의 Async stream, 캐시 등을 활용하여 횟수 줄이기
- 주기적인 모델 갱신 프로세스 이슈: Meet transformer, 정성평가
- Noise Label: 사람들이 실수한 라벨 데이터
- 크로스체크로 해결할 수 있지만 단순 실수만 체크 가능하며 라벨링 정책은 이해 못함
- QBC를 이용하여 해결
- 모델 별로 투표권을 다르게 부여하였으나 이슈가 많음
- Co-teaching: 모델이 동시에 학습하고 배치 단위로 서로 로스가 낮은 데이터를 크로스로 교환하여 학습 진행
LoRa vs Full Fine Tuning