[ AutomateOne 이론 ] RPA와 AI의 결합

jwKim·2023년 8월 13일
  • RPA가 AI 없이 작동할 수 있는 업무 범위

    • 자동화는 사고가 필요한 작업이 아니라 단순하게 작동하는 업무들을 대상으로 함
  • 문서 인식 절차

    1. 문서를 인식할 때에는 이미지 추출 및 전처리가 필요함
    • 문서가 90도 틀어진 경우도 있고 이러기 때문에 전처리가 필요함
    1. 텍스트 블록 인식
    • 블록 단위로 데이터에 접근
    1. 관심정보 추출
    • 실제 업무에 사용되는 데이터는 일부에 불과함 -> 필요한 정보만 가져옴
  • 기존 RPA 기술로만 처리할 수 없는 업무 <- AI가 필요한 업무 예시

    • 텍스트 블록을 인식하는 모델, 글자를 인식하는 모델, 필요한 정보만 추출하는 모델이 각각 따로 있음
      => AutomateOne에서는 A20 MSP라는 플랫폼이 있고 블록, 글자 인식, 정보 추출 모델을 제공하고 있고 각각 학습기가 있어서 도메인에 따라 튜닝 진행
  • 학습기 구조

    • 텍스트 감지 : 수많은 문서들을 모아서 텍스트가 있는 부분을 캡쳐하는 방식으로 라벨링
      -> 파인 튜닝할 때에도 이런 식으로 데이터를 만들어야 함
    • 글자 인식 : 워드 블록을 잡아서 그걸 라벨링
    • 주요 정보 캡쳐 : 문서에서 주요한 정보를 캡쳐링 한 후 클래스를 라벨링
  • 문서의 종류

    • 정형 문서 : 일정한 문서 서식이 있는 문서
    • 테이블 정형 문서 : 테이블 형식으로 유지된 문서
    • 비정형 문서 : 사전 틀이 정의되지 않는 문서 / 작성하는 내용이 많아지면 그 길이가 얼마가 되던 쭉쭉 길어짐 / 따라서 중요한 내용의 위치가 매번 다름
  • 문서 처리기 구조

    • A20 MSP에는 굉장히 많은 태스크 기반 모델이 많이 있음 => 이걸 파이프라인으로 묶어서 하나의 동작 만듦
    • 기본적으로는 C#으로 구현되어있는데, 파이프라인 짜는거에 맞춰 파이썬 등 다른 언어로도 구현 가능
  • AI + RPA 도입 시 생각할 것

    • 처리 필요한 데이터가 정형/비정형 인지 -> 기존 기술로도 처리가 가능하다면 그대로 처리
    • AI가 필요하다면, 기존에 만들어진 모델로 커버할 수 있는지 판단하기
    • 새로운 모델이 필요하다면, 그 도입 효과에 대해서 생각해보기 -> 들어가는 리소스가 많이 크기 때문
  • 문서 분류 방법론

    • 단순 방법론 : 문서 타이틀로 분류하는 것이 나음 -> 그런데 문서 방향성 검출, 텍스트 감지, 텍스트 추출 AI 모델을 사용해야함 => 리소스가 충분하거나 태스크의 속도가 그리 중요하지 않은 경우에 도입 가능
    • top down 분류 방법론 : 여러 단ㄴ계를 거쳐서 분류를 진행
      • 큰 카테고리로 한 번 분류하고 그 안에서 세세하게 다시 분류하는 방식

2개의 댓글

comment-user-thumbnail
2023년 8월 13일

잘 봤습니다. 좋은 글 감사합니다.

1개의 답글