제6회 카카오 공개 기술 세미나 Kakao Tech Meet

JMG·2024년 6월 13일
0

후기

이미지 기반 스팸 대응을 위한 카카오의 AI 기술 활용

AI 기술하면 흔히 나오는 비용 문제, 학습 데이터 문제, 적용 문제 등을 기술과 함께 잘 다루어 굉장히 좋았습니다. 특히 발표자가 많은 고민을 하였다는게 느껴졌습니다.

  • 이미지 분류 시 오래걸리는 시간을 줄이기 위해 EfficientNet 모델 선택

  • 이미지 전처리: 리사이즈 라이브러리, 캐시

  • 이미지 다운로드 횟수 줄이기

  • Vision Transform을 직접 만들어서 CNN보다 빨라졌지만 CNN보다 성능은 안좋음

    • Swin Transformer: CNN < ViT < Swin 순서로 좋긴함

필터링을 Async로 요청 (Kafka로 보냄)
GPU가 비싸지만 배치로 수행하여 비용 절약

  • 모델 갱신은 정성평가 추가하여 해결
  1. 학습 지표와 실제 지표 차이: Meet Transformer
  • 극히 일부만 라벨링된 학습셋: Active Learning
    • 모델 성능에 유용한 샘플만 선택하여 학습
    • Qeury by committee(QBC): 여러 모델이 투표하여 결정
      • 효과가 좋지만 프로세스 복잡
      • Loss를 이용하여 대상 선정(손실값 크면 불확실한 데이터)
    • random sampling(랜덤 샘플링)
  1. 과도한 서버 비용: GPU 기반의 Async stream, 캐시 등을 활용하여 횟수 줄이기
  2. 주기적인 모델 갱신 프로세스 이슈: Meet transformer, 정성평가
  • Noise Label: 사람들이 실수한 라벨 데이터
    • 크로스체크로 해결할 수 있지만 단순 실수만 체크 가능하며 라벨링 정책은 이해 못함
    • QBC를 이용하여 해결
    • 모델 별로 투표권을 다르게 부여하였으나 이슈가 많음
  • Co-teaching: 모델이 동시에 학습하고 배치 단위로 서로 로스가 낮은 데이터를 크로스로 교환하여 학습 진행
    • 엄청 효과가 좋았으나 오래걸리고 로직 복잡

LoRa vs Full Fine Tuning

  • 현재는 파인튜닝이 성능이 더 높음
profile
DIY Coding

0개의 댓글

관련 채용 정보