KcELECTRA Multi-Label Classification-(1) 시작에 앞서

까람·2022년 12월 2일
2

배경

회사에서 타 팀들과 미팅을 하던 중 서비스를 운영하는 관리자분들께서 꽤 많은 노고를 겪고 있다는 것을 알게 되었어요. 커뮤니티에 올라오는 광고성, 음란성, 정치성 등을 띄는 정책을 위반한 게시글, 댓글, 대댓글을 관리에 있어 정신적으로도 힘들고, 직접 제재를 가하기 위해서 많은 게시글과 접수된 유저 신고들의 컨텐츠들을 일일이 확인해야하는 높은 비용의 작업을 수동으로 하고 계신다고 하셨어요.

이미지에 대한 필터링 서비스는 AWS rekognition 등 당장 사용을 위한 선택의 여지가 있는 편인데, 텍스트의 경우엔 정의해둔 금칙어를 룰 베이스로 판단하는 형태만 있다고 하셨어요. 심지어 웹상에서의 한국어는 룰 베이스로 처리하기에는 너무나 많은 변형이 있어서 이 또한 한계가 있는 것 같았어요. 가령 "개새끼"를 금칙어로 두어도 "ㄱHㅅHㄲI"로 변형해서 사용할 수 있는 훈민정음의 위대함으로 인해 룰 베이스 텍스트 필터로는 해결이 어려웠어요.

최근 개인 성장이 멈춰있다라는 느낌을 받고 있기도 했고, 심심하기도 해서 개인 프로젝트를 하나 해볼까? 하고 있었는데, 기왕이면 해야하는 것이면서 하고 싶은 것의 교집합에 해당하는 주제를 하는게 여러모로 일석이조인 것 같아 개인시간을 할애해서 살살해보려고 합니다.

프로젝트 절차

아래와 같은 절차로 진행하지 않을까 싶습니다. 포스팅은 여러 파트로 나눠서 진행하게 될 것 같습니다. 그리고 개인 시간을 할애해서 하는 것이다보니, 포스팅의 주기는 좀 긴 호흡이 아닐까 싶어요. 뭐..보는 사람은 없겠지만..

1. 프로젝트 기획
프로젝트 네이밍, 방향성 설립, 해결하고자 하는 문제 정의, 모델 선정 및 설계, 프로젝트 성공 지표 등 전체적인 프로젝트의 맥락을 대략적으로 잡아보려고해요.

2. 데이터셋 구축
손쉽게 구할 수 있는 오픈되어 있는 한국어 혐오, 비속어, 욕설 데이터셋 등을 리서치하고, 가능하다면 저희 서비스 DB에 있는 텍스트 데이터도 넣어 병합해서 활용해보려고 해요. 라벨링을 최대한 안하는 쪽으로 해보려하는데, 벌써 무섭네요.

3. 모델링
기획에서 선정한 모델과 설계에 맞게 코드로 구현하는 과정이에요.

4. 모델 학습 & 평가
구축한 데이터셋과 모델을 학습하고, 평가해서 성능을 확인합니다.

5. 모델 성능 최적화
개인 프로젝트라는 걸 감안하면, 사실 이 과정까지 딥하게 들어가는게 맞나 싶기는 합니다. 아무래도 최적화는 옵션으로 넣어두어야할 것 같아요. 실제로 4. 모델 학습 & 평가 결과가 꽤괜이면, 실제 서비스 적용을 위한 최적화를 할 것 같습니다. 만약 하게되더라도 하이퍼파라미터 튜닝, 모델 네트워크 구조를 바꾸고 이런 느낌보다는 데이터의 퀄리티를 높히는 방향으로 진행하지 않을까 싶어요.

주저리 주저리..

최근 AI, 빅데이터 키워드가 이것 저곳에서 보이고, 학원도 많이 생기고 국가가 많이 밀어주는 등 급부상하면서 마치 마법과 같이 생각하시는 분들도 종종 계시는 것 같아요. 그리고 연봉이나 사회적 인식도 좋아서 해보고자 하시는 분들도 많아지신 것 같구요.(근데 저도 시작할땐 그랬음ㅋ)
아! 21세기 가장 섹시한 직업이 데이터사이언티스트라는 포스팅을 봤어요ㅋㅋㅋㅋ
반대로 거품이라는 얘기도 많이 나오는 것 같구요.

주변 지인들도 책은 뭐로 시작하면 좋으냐부터 파이썬 알려달라 대학원 가야되냐 등 문의가 많이 늘기도 했어요.

아직 많이 부족하디 부족한 짧은 견해로는 AI라는 새로운 도구 하나가 추가된 느낌 정도라고 생각해요. 기존에 로직으로써 해결이 어려웠거나 현실적으로 불가능했던 부분들을 패턴 인식을 통해서 해결할 수 있는 AI라는 도구가 추가되었음! 정도..
(AI의 역사가 꽤 긴 것으로 알고 있지만, 당시에는 데이터도 컴퓨터 파워도 부족해서 활용에 있어서 효율적이진 못했다고하니...이제사 추가되었다! 라고 해도 무방하겠죠 ?)

그리고 AI라는 도구는 꽤 무거워서 모델의 성능이 좋고, 결과가 좋아도 실제 활용에 있어서는 다시 한번 현재 상황을 객관적으로 되짚어볼 필요가 있다는 것도 느꼈어요. AWS GPU 인스턴스 대여 비용을 보시면, 대충 감이 오실 수 있을지도..?(그 비용을 기업이 부담해준다면, 내가 만든 모델로 그 이상을 벌어와야 한다고 생각하면 부담감도 책임감도 올라가는 너낌..)

기업은 항상 시간과 비용 투자 대비 성과를 고려하다보니, AI라는 도구를 적절히 사용함에 있어서는 현재 내가 속해있는 조직의 상황도 잘 진단하는 능력도 중요하다는 생각이들어요.
사실 낮게 열려있는 사과를 따기위해서 머신러닝이니 딥러닝이니 고도의 기술을 사용할 필요가 없을 수도 있구요 사다리 하나만 만들어도 딸 수 있을 테니..! 혹은 그냥 까치발만 들어도 딸 수도 있을지도..?

그래서 문제 해결 방법론을 고민할 때, AI 전문가라해서 무작정 AI를 만들겠다! 보다는 더 가성비 좋고 간단하면서, 효율적으로 해결할 수 있는 방법도 함께 고민해보는게 좋은 것 같아요. 물론 자기계발의 목적이라면, 이야기가 다르겠지만.

어떻게 끝내야할지 모르겠는데...아무튼 실무적으로는 기술을 잘 아는 것 외에도 중요한 것들도 있더라! 라는 것을 말씀드리고 싶었어요. 왜냐면 제가 기술을 잘 모르는데도 먹고 살고 있거든요 ㅋㅋ 산증인피셜

끝.

profile
한 줄 소개 쓸 자랑거리가 없다..

1개의 댓글

comment-user-thumbnail
2022년 12월 17일

Very good!

답글 달기