[포스코x코딩온] 스마트팩토리 16주차 새 프로젝트 진행중

최봉석·2023년 7월 5일

포트폴리오를 적다보니 한 눈에 나의 이력를 보여주는 것도 중요하지만, 무엇보다 그 안에 들어있는 직무 관련 경험이 중요하다는 것을 깨달았다. 그래서 시각 인공지능 프로젝트를 준비 중에 있다.

프로젝트 주제

프로젝트 주제는 OpenCV와 pytesseract 라이브러리를 사용하여 비디오 파일이나 카메라로부터 프레임을 읽어오고, 해당 프레임에서 텍스트를 인식하는 것이다. 주제 선정 이유는 계절학기 수업으로 시각 인공지능 수업을 듣고 있는데 이 수업에서 배운 내용을 활용해서 프로젝트를 짜면 좋겠다는 시작으로 시작했다. 그리고 미래 꿈인 방송국 취업을 목표로 생방송이나 실시간 운동 경기 같은 곳에서 바로 텍스트를 인지하고 변환하는 기술을 사용할 수 있음을 어필하고 싶어서이다. 부트캠프 활동으로 jupyter notebook도 익숙해지고 인공지능에 대해서도 라이브러리만 잘 활용할 줄 안다면 큰 무리가 없을 거라 생각했다.

라이브러리

import os
import cv2
import numpy as np
from moviepy.editor import VideoFileClip, ImageSequenceClip
import pytesseract

미리 위의 라이브러리들을 설치해야한다. 설치 과정에서 뭐가 계속 엉켰는지 오류가 뜨고 conda update하다가 아예 jupyter notebook 조차 들어가지도 않고 문제가 생겨서 아나콘다를 2번이나 다시 재설치하는 멍청한 짓을 했다. 다음부터는 업데이트를 할 때 신중히 해야겠다. 버전이 안 맞으면 큰 문제가 생긴다는 걸 깨달았다....

이미지 전처리

        frame = cv2.medianBlur(frame, 5)  # 미디안 필터 적용
        frame = cv2.GaussianBlur(frame, (5, 5), 0)  # 가우시안 필터 적용

화면 인식 로직

이미지에서 텍스트 추출 로직

텍스트 후처리

비디오 전처리

위의 과정들을 거쳐 최종 결과물을 내야 한다. 이번주까지는 이미지 전처리까지만 해결된 상황인데, 아직 최종코드를 짜기 전까진 어떤 오류가 또 생길지 모른다......

최봉석

이전 포스트

[포스코x코딩온] 스마트팩토리 16주차 공모전 탐색| 프로젝트 기획| 직무능력평가

다음 포스트