
배경
머신러닝에 대해 학습하기 전, chat gpt에게 회사에서 다루고 있는 기본적인 용어에 대해 물어보게 되었다.
나는머신러닝,자연어처리에 대한 기본적인 배경지식이 (전공자에 비해) 부족하지만, 현업에서 직접 부딪혀봄으로써 실무 + 이론적 지식 습득을 통해 체득(이해의 가속도)을 높여 접근해보고자 한다.
AI OCR(인공지능 광학 문자 인식)은 인공지능 기술을 사용하여 이미지에서 텍스트를 자동으로 감지하고 인식하는 기술을 말합니다. OCR은 문서 스캐닝, 디지털화, 데이터 추출 등 다양한 분야에서 활용됩니다. 아래는 AI OCR과 관련된 주요 용어들을 정리한 것입니다:
: 기계가 인쇄체 또는 필기체 텍스트를 디지털 텍스트로 변환하는 기술.
: 기계가 인간과 유사한 지능을 가진 기술로, 학습, 추론, 문제 해결 등을 포함합니다.
: 인공신경망을 활용하여 다층 구조의 모델을 학습시키는 머신러닝의 한 분야로, 대용량 데이터를 통해 특징을 추출하고 패턴을 인식합니다.
인공신경망
데이터를 사용하여 학습하고, 학습한 정보를 기반으로 새로운 데이터를 예측하거나 분류하는데 사용된다.
이러한 학습과 예측 과정에서 인공신경망은 데이터에 내재된 복잡한 패턴을 자동으로 학습하여 인간보다 더 정확하고 효율적으로 문제를 해결할 수 있다.
: 모델을 학습시키기 위해 사용되는 이미지와 해당 이미지의 정답 레이블로 구성된 데이터 세트.
: OCR을 적용하기 전에 이미지를 정규화, 이진화, 크기 조정 등의 처리를 수행하여 텍스트 추출을 더 용이하게 만드는 과정.
이미지 전처리에 대한 학습을 이전에 opencv로 진행했었는데, 개념 정리차원에서 다시 한 번 봐도 좋을 것 같다.
: 이미지에서 텍스트를 포함한 특징을 추출하는 과정으로, 보통 딥러닝 모델에서는 자동으로 학습하여 수행합니다.
: 이미지에서 문자의 위치를 찾아내는 과정으로, 텍스트 영역을 감지합니다.
: 문자 검출된 영역에서 실제 문자를 인식하는 과정으로, 각 문자를 텍스트로 변환합니다.
: OCR 모델의 성능을 평가하는 지표로, 올바르게 인식된 문자의 비율을 나타냅니다.
: OCR이 정확하게 감지하고 인식한 문자의 비율을 나타내는 지표로, 검출된 문자 중 실제 문자로서 인식된 비율을 의미합니다.
: OCR이 올바르게 감지하고 인식한 문자의 비율을 나타내는 지표로, 인식된 문자 중 실제 문자로서 올바르게 인식된 비율을 의미합니다.
: OCR 결과를 보정하거나 개선하기 위해 적용되는 추가적인 처리 방법.
: 문자 검출, 문자 인식 등 전체 OCR 프로세스를 하나의 모델로 학습하여 처리하는 방식으로, 종래의 단계적 접근 방식과 대조됩니다.
: 자연어 처리 기술을 사용하여 텍스트 문맥을 이해하고, 문맥을 바탕으로 텍스트를 해석하는 모델.
: 학습 데이터를 다양하게 변형하여 데이터의 다양성을 증가시키는 기법으로, OCR 모델의 성능 향상에 도움을 줄 수 있습니다.
: QA는 AI OCR 기술의 한 분야로, 텍스트 문서를 이해하고 질문에 대한 답변을 생성하는 기술을 말합니다.
OCR로 추출된 텍스트 데이터를 이용하여, 사용자가 주어진 질문에 대해 정확한 답변을 생성하는 시스템을 구축하는 것이 목표입니다.
QA 시스템은 자연어 처리와 정보 검색 기술을 활용하여 문서를 읽고 이해하며, 문맥에 맞는 답변을 생성합니다. 예를 들어, 이미지에서 추출한 텍스트 정보를 바탕으로 "어떤 책에서 어떤 내용이 언급되었는지?"와 같은 질문에 정확한 답변을 찾아낼 수 있습니다.
: 이미지에서 텍스트를 추출하고, 이를 텍스트 데이터로 변환합니다. 문장구문 분석, 개체명 인식, 품사 태깅 등으로 문장의 의미와 구조를 파악합니다.
: 1)에서 추출한 정보와 사용자가 제시한 질문을 기반으로, 모델은 적절한 답변을 생성합니다. 딥러닝 기술 중 하나인 "기계번역"과 "자연어 생성" 기술을 사용해 적절한 답변을 자동으로 생성합니다.
: 이미지 세그멘테이션은 AI OCR에서 중요한 과정 중 하나로, 이미지나 텍스트 영역을 각각의 의미 있는 구성 요소로 분리하는 작업을 말합니다.
OCR을 수행하기 전에 이미지 내에서 텍스트 영역을 정확히 분리하고 추출하기 위해 세그멘테이션 기술을 사용합니다.
텍스트 영역을 정확하게 구분해내는 것은 OCR 성능에 큰 영향을 미치며, 이를 위해 컴퓨터 비전 기술과 딥러닝 알고리즘을 사용하여 이미지를 세분화하는 작업을 수행합니다.
: OCR 시스템이 인식해야할 이미지 내에 있는 텍스트 영역을 정확하게 분리하는 과정이다.
: 이미지 내에서 여러 개의 텍스트 블록이 있는 경우, 각각의 텍스트블록을 개별적으로 분리하는 작업입니다.
텍스트 블록 세그멘테이션은 각 텍스트 블록에 대한 경계를 파악하여 별도의 텍스트 영역으로 분리합니다.
주로 이미지 내의 색상, 텍스쳐, 형태 등을 분석하여 텍스트 영역을 감지하고 경계를 정확하게 파악하는 작업을 수행합니다.
: 파인튜닝은 사전 학습된 모델을 새로운 작업에 맞게 조정하고 특정 데이터 세트에 대해 최적화하는 기술입니다. OCR과 같은 AI 모델은 일반적으로 대규모 데이터셋으로 미리 학습된 범용 모델로 시작합니다.
그러나 특정한 응용 프로그램에 맞게 모델을 더 높은 정확도와 성능으로 향상시키기 위해 파인튜닝이 사용됩니다. 특정 작업에 대해 파인튜닝을 진행하면 모델이 특정 도메인 또는 작업에 대해 더 잘 수행하도록 개선됩니다. 적은 양의 데이터로도 파인튜닝을 수행하여 기존 모델을 최적화하는 데 도움이 됩니다.
요약하면, QA는 텍스트 문서에서 질문에 대한 답변을 생성하는 기술이며,
세그멘테이션은 이미지나 텍스트를 구성 요소로 분리하는 작업을 말합니다.
파인튜닝은 사전 학습된 모델을 새로운 작업에 맞게 조정하여 특정 데이터에 대해 최적화하는 기술입니다.
이 세 가지 기술은 AI OCR의 성능을 향상시키고 더 유용한 결과물을 제공하는 데 중요한 역할을 합니다.
: 컴퓨터 시스템이 데이터로부터 학습하고, 경험을 쌓아 점진적으로 성능을 개선하는 방법론이다.
: 머신러닝의 한 분야로서, 인공신경망을 사용하여 데이터를 학습하고 특징을 추출하는 기술.
딥러닝과 머신러닝의 주요 차이점은 모델의 복잡성과 학습 방법에 있습니다.
딥러닝은 다층 구조🙄로 이루어진 신경망을 사용하여 높은 수준의 특징을 학습하고, 이를 통해 복잡한 데이터를 처리합니다.
반면 머신러닝은 주로 사전에 정의된 특징을 사용하거나, 상대적으로 더 간단한 모델을 사용하여 데이터를 처리합니다.
딥러닝은 머신러닝에 비해 더 많은 데이터와 연산 능력이 필요하지만, 더 높은 정확도와 성능을 제공할 수 있습니다.
딥러닝의 다층 구조 모델은 인공신경망(Artificial Neural Network)의 한 종류로, 여러 개의 뉴런 층(layer)을 순차적으로 쌓아서 구성된 모델을 말합니다. 이러한 구조로 인공신경망을 여러 층으로 깊게 쌓아서 "깊은" 신경망이라는 의미로 "딥러닝"이라는 용어가 사용되었습니다.
딥러닝의 다층 구조 모델은 입력층(Input Layer), 은닉층(Hidden Layer), 그리고 출력층(Output Layer)으로 구성됩니다. 각 층은 여러 개의 뉴런 또는 노드로 이루어져 있습니다.
: 외부에서 데이터를 입력받는 층으로, 신경망의 첫 번째 층입니다. 데이터가 이 층으로 들어가게 되면, 이후의 은닉층으로 전달됩니다.
: 입력층과 출력층 사이에 있는 중간 층으로, 여러 개의 은닉층이 존재할 수 있습니다.
: 최종적으로 신경망이 출력하는 층으로, 은닉층을 거친 결과를 최종 출력값으로 변환합니다. 예를 들어, 이미지가 고양이인지 강아지인지 분류하는 문제에서, 출력층은 "고양이"에 대한 확률과 "강아지"에 대한 확률을 출력할 수 있습니다.
이렇게 다층 구조를 가진 딥러닝 모델은 여러 은닉층을 거치면서 점차 더 복잡한 특징과 패턴을 학습하게 됩니다.
이러한 학습과정은 컴퓨터가 데이터에서 자동으로 특징을 추출하고 패턴을 인지하여 높은 수준의 문제 해결 능력을 갖추게 해줍니다.
딥러닝의 다층 구조 모델은 이미지 인식, 자연어 처리, 음성 인식 등 다양한 분야에서 뛰어난 성능을 발휘하며 현대 인공지능 기술의 핵심을 이루고 있습니다.
