실시간 관제 시스템의 검색 기능으로 추가하여 사용자들에게 편의성을 제공합니다.
컴퓨터 비전, 자연어 처리, 멀티모달 AI 알고리즘 연구 및 기타 개발 경험
우리의 일상에서 발생하는 영상(비디오)을 기록하고, 사람이나 차량과 같은 객체들의 다양한 속성을 제공합니다. 이러한 정보들은 매일 같이 쌓이게 되는데요, 저희는 LLM, Multimodal AI 기술의 발전이 현실에서 어떻게 활용할 수 있을지 고민하고, 이를 통해 데이터의 새로운 가치를 발굴하고자 합니다.
우리가 하고있는 영상 분석 서비스
우리 팀은 AI Camera, 분석 서버등을 이용하여 실시간으로 들어오는 영상을 AI모델을 통해 분석하고, 다양한 객체의 속성이나 이벤트를 사용자에게 제공하는 분석 모듈을 개발하고 있습니다.실시간 비디오 분석을 통해 사람, 차량 등 기본적인 속성 부터 성별, 연령, 차종 등의 세부적인 속성 및 행동인식, 화재, 추락과 같은 분석을 제공하고 있습니다. 또한 침입, 배회, 쓰레기 투기 등 다양한 이벤트를 분석하여 제공합니다.
현재 한국 내 공공 부분에만 수백만대 이상의 카메라가 동작 하고 있고, 이러한 카메라들에 적용 되는 AI분석 모듈도 날로 발전을 거듭하고 있습니다. 카메라가 많아 질수록 이를 관리하는 관제사도 많이 필요하게 되며, 관제를 도와줄 수 있는 AI분석 모듈에 대한 기대 성능은 매 해마다 새로운 챌린지를 받고 있습니다.
데이터를 이용해 만드는 데이터의 중요성
영상 분석 모듈을 통해 얻을 수 있는 정보는 사용 되는 모델에 따라 제한 됩니다. 또한 추론의 결과를 통해 각종 이벤트나 통계분석을 하는 경우도 개발자가 요구사항에 따라 미리 정의 해놓은 API를 통해서만 가능합니다.예를 들어, 우리가 시간별로 지나가는 사람들의 Track ID를 가지고 있다고 하더라도 가장 통행량이 많은 시간 혹은 일정 시간 내 통행량을 보고 싶다면 이를 클라이언트 UI와 API에 반영 해야만 볼 수 있습니다.
raw data가 아무리 많다고 하더라도 사용자는 미리 정의 해놓은 형식에 따라 검색을 해서 결과를 볼 수밖에 없습니다. 하지만, 데이터를 실시간으로 직접 분석하여 결과를 도출하는 AI가 있다면 이를 가능케 할 수 있습니다. 물론 이러한 데이터 분석 AI가 활용되기 위해서는 Box, Class와 같은 전통적인 속성 외에 Scene에 대한 분석이나 Video 자체에 대한 분석 등 좋은 raw data를 뽑는 모델도 함께 연구가 되어야 한다고 생각합니다
--> 개발자가 미리 설정한 특정 추출된 데이터, 분석결과 없이는 사용자에게 제공 못함. AI로 자동화하고 싶음
영상으로부터 유용하고 다양한 데이터 저장 및 추출
LLM이 잘 이해할 수 있도록 취득한 데이터 가공
질문과 가공된 데이터를 입력하여 영상으로부터 원하는 정보를 취득
- 비디오 검색에 필요한 작업과 데이터가 무엇일지 분석 및 연구를 진행합니다.
Scene 분리
Classification, Segmentation, Detection, Scene graph
VQA, Caption, OCR, GPT-4
Representation feature vector 등 정보 추출--> Video를 잘 이해하는 모델로 특징을 추출하고 싶어함
- 데이터를 추출하고 이를 DB에 적재합니다.
--> 추출된 비디오를 DB에 저장함. RAG의 사용
- DB로 부터 데이터 추출 및 LLM에 활용할 수 있게 가공합니다.
LLM의 Prompt로 사용하기 위해 연구가 필요합니다.--> RAG의 사용
- 질문, 가공된 데이터를 LLM에 입력하고 원하는 정보를 제공 받습니다
- 추론 모델을 선택하고
- 전체 영상 프레임을 추론하는 것은 불가능하기 때문에, 이 과정도 연구가 필요합니다.
- 영상을 Scene별 또는 시간대별로 분석하여 하나의 긴 텍스트로 저장해 놓을 수도 있습니다.
- 텍스트가 아닌 Vector Feature로 저장해놓거나, 이를 텍스트와 함께 활용할 수도 있습니다.
예시 적용 사례
1. 비가오는 밤에 촬영된 영상을 찾아줘 (영상 간 검색)
이 영상에서 주황색 상의를 입은 남성이 지나간 장면을 추적해줘 (영상 내 검색)
이 영상에서 3:00 ~ 5:00 분 사이에 지나간 사람들의 성비 분포는 어떻게 돼? (영상 분석)
SKT에서는 어떤 비디오를 분석하고 검색하고 싶은 걸까? => 실시간 관제 시스템
예시 적용 사례에서는 각 Task는 결이 다릅니다.(영상 간 검색, 영상 내 검색은 결이 조금 다름)
제안한 방법을 보면 영상 내 분석/검색을 타겟하였습니다.
영상 내 Video retrieval을 타겟으로 제안서를 우선 작성해야 할 것 같습니다.
그러면 영상 내 검색을 어떻게 잘 할 수 있을지? => 프로젝트 책임자가 준 논문을 먼저 분석해보자
AI가 알려주는 사고현황… SKT, CCTV 관제시스템 개발(2023.07)
https://www.dt.co.kr/contents.html?article_no=2023071802109931029002
SK텔레콤, 부산항만공사와 양자 센싱 기술 적용한 관제 시스템 실증(2023.10.31)
https://biz.chosun.com/it-science/ict/2023/10/31/77AQCEIWS5DILOVBO2NUBET72Y/
이 양자 라이다는 광자 단위 인식이 가능해 도로 위의 타이어나 어두운 밤 검은 옷을 입은 보행자 등 빛의 반사도가 낮은 물체를 정확하게 탐지할 수 있고, 빛의 파장을 분석해 가스 누출 여부와 농도, 종류, 위험성도 파악할 수 있다고 SK텔레콤은 소개했다.
SK텔레콤에 따르면, 지난 8월 자동차안전연구원(KATRI) 기상환경재현시설을 통해 안개가 자욱한 환경에서의 탐지거리를 측정한 결과 안개 환경에서 기존 제품 대비 탐지거리가 최대 7배 이상임을 확인했다.
출처 : IT비즈뉴스(ITBizNews)(https://www.itbiznews.com)
SKT, 양자 라이다로 보안관제…6.5조 양자 센싱 시장 공략(2023.11.01)
https://www.etnews.com/20231031000029
DEMO: https://www.youtube.com/watch?v=PSVhfTPx0GQ
3:35초 부터