용어 정리

labbiel·2025년 11월 4일

1. LLM

대규모 언어 모델. 방대한 텍스트 데이터를 학습하여 인간의 언어를 이해하고 생성하는 인공지능 모델.

  • 다양한 자연어 처리(NLP) 작업 수행 가능.
  • 주요 기능
    • 텍스트 생성: 질문에 답하고, 가사, 시, 코드 등 다양한 형식의 텍스트를 작성할 수 있다.
    • 언어 이해: 복잡한 문맥과 뉘앙스를 이해하여 번역, 요약, 감정 분석 등을 수행할 수 있다.
    • 대화: 사람과 자연스러운 대화를 주고받을 수 있는 챗봇 및 가상 비서의 핵심 기술로 사용된다.
    • ex) OpenAI의 GPT-4, Google의 Gemini, Anthropic의 Claude 등

2. OCR

광학 문자 인식. 이미지 파일이나 스캔한 문서에 포함된 인쇄 or 손으로 쓴 텍스트를 기계가 읽을 수 있는 디지털 텍스트 형식으로 변환하는 기술.

  • 종이 문서를 편집, 검색, 저장 및 분석할 수 있는 전자 문서로 바꿔주는 역할
  • 작동 원리
    • 이미지 획득: 스캐너나 카메라를 이용해 문서 이미지를 획득하고 이전 데이터(흑백 이미지)로 변환
    • 전처리: 이미지 품질을 개선하기 위해 기울기를 보정, 얼룩이나 노이즈를 제거하며 선과 상자를 정리하는 등의 작업 수행
    • 텍스트 인식: 어두운 영역을 문자로 식별한 후, 패턴 매칭 또는 특징 추출과 같은 알고리즘을 사용하여 개별 문자, 단어 또는 텍스트 블록을 인식. 최근에는 딥러닝과 인공지능 기술을 활용하여 정확도를 크게 높이고 있다.
    • 후처리: 인식된 텍스트 데이터를 편집 가능한 텍스트 문서로 변환, 내장된 사진을 활용하여 문맥상 오류를 수정하여 최종 정확도 향상

3. SML(Standard ML)-함수형 프로그래밍

문서 요약 알고리즘을 SML 언어로 구현

  • 특징: 높은 안정성과 명확한 로직을 활용. 텍스트 처리 알고리즘(예. 토큰화, 빈도 분석) 구현
  • 실제 활용: 실제 상용화된 문서 요약 시스템은 Python이나 Java 등을 주로 사용. SML은 자연어 처리(NLP) 연구나 학술적인 프로토타입을 개발할 때 사용될 수 있다.

3-1. SML(Statistical Machine Learning) - 통계적 기계 학습

문서 요약이 통계적 기계 학습 기법을 광범위하게 사용하기 때문
1. 추출적 요약(Extractive Summarization)

  • 원리: 원문에서 가장 중요한 문장들을 골라 그대로 추출하여 요약문을 만듬
  • SML 기법 활용
    • TextRank/LexRank: 문장의 중요도를 그래프 기반으로 계산, 해당 문장을 추출하여 요약
    • TF-IDF: 단어의 중요도를 계산하여 핵심 단어가 많은 문장에 높은 점수를 부여
  1. 생성적 요약(Abstractive Summarization)
  • 원리: 원문의 내용을 이해하고 새로운 문장을 생성하여 요약.
  • SML 기법 활용
    • 시퀀스-투-시퀀스 모델: 긴 입력 시퀀스(원본 문서)를 짧은 출력 시퀀스(요약문)로 변환하는 기법
    • Transformer 및 LLM(Large Language Model): 이 모델들을 기반으로 한 딥러닝 기술이 생성적 요약에서 압도적인 성능을 보임

결론적으로, 'SML 기반 문서 요약'은 통계적 기계 학습(SML)을 활용한 추출/생성적 요약 기법을 의미할 가능성이 가장 높고, 현대 문서 요약 기술의 핵심



4. 멀티모달

텍스트뿐만 아니라 이미지, 음성, 영상 등 다양한 데이터 양식을 함께 처리
최초의 LLM은 텍스트 기반의 대화에 국한.

  • 텍스트뿐 아니라 이미지, 음성, 영상까지 출력
  • 하나의 모달리티를 활용하는 것보다 훨씬 다양한 작업을 수행 가능


5. NLP(자연어처리)

자연어를 컴퓨터에 처리하기 위한 기술

  • 자연어 분석, 이해, 생성 등
  • 정보 검색, 기계 번역, 질의응답


6. GPU

Graphics Processing Unit. 그래픽 처리.

  • 사용 범위가 확장되어 다양한 분야에서 중요한 역할
  • 딥러닝과 같은 복잡한 알고리즘을 빠르게 처리하는 데 사용

0개의 댓글