용어 정리

labbiel·2025년 11월 4일

1. LLM

대규모 언어 모델. 방대한 텍스트 데이터를 학습하여 인간의 언어를 이해하고 생성하는 인공지능 모델.

다양한 자연어 처리(NLP) 작업 수행 가능.
주요 기능
- 텍스트 생성: 질문에 답하고, 가사, 시, 코드 등 다양한 형식의 텍스트를 작성할 수 있다.
- 언어 이해: 복잡한 문맥과 뉘앙스를 이해하여 번역, 요약, 감정 분석 등을 수행할 수 있다.
- 대화: 사람과 자연스러운 대화를 주고받을 수 있는 챗봇 및 가상 비서의 핵심 기술로 사용된다.
- ex) OpenAI의 GPT-4, Google의 Gemini, Anthropic의 Claude 등

2. OCR

광학 문자 인식. 이미지 파일이나 스캔한 문서에 포함된 인쇄 or 손으로 쓴 텍스트를 기계가 읽을 수 있는 디지털 텍스트 형식으로 변환하는 기술.

종이 문서를 편집, 검색, 저장 및 분석할 수 있는 전자 문서로 바꿔주는 역할
작동 원리
- 이미지 획득: 스캐너나 카메라를 이용해 문서 이미지를 획득하고 이전 데이터(흑백 이미지)로 변환
- 전처리: 이미지 품질을 개선하기 위해 기울기를 보정, 얼룩이나 노이즈를 제거하며 선과 상자를 정리하는 등의 작업 수행
- 텍스트 인식: 어두운 영역을 문자로 식별한 후, 패턴 매칭 또는 특징 추출과 같은 알고리즘을 사용하여 개별 문자, 단어 또는 텍스트 블록을 인식. 최근에는 딥러닝과 인공지능 기술을 활용하여 정확도를 크게 높이고 있다.
- 후처리: 인식된 텍스트 데이터를 편집 가능한 텍스트 문서로 변환, 내장된 사진을 활용하여 문맥상 오류를 수정하여 최종 정확도 향상

3. SML(Standard ML)-함수형 프로그래밍

문서 요약 알고리즘을 SML 언어로 구현

특징: 높은 안정성과 명확한 로직을 활용. 텍스트 처리 알고리즘(예. 토큰화, 빈도 분석) 구현
실제 활용: 실제 상용화된 문서 요약 시스템은 Python이나 Java 등을 주로 사용. SML은 자연어 처리(NLP) 연구나 학술적인 프로토타입을 개발할 때 사용될 수 있다.

3-1. SML(Statistical Machine Learning) - 통계적 기계 학습

문서 요약이 통계적 기계 학습 기법을 광범위하게 사용하기 때문
1. 추출적 요약(Extractive Summarization)

원리: 원문에서 가장 중요한 문장들을 골라 그대로 추출하여 요약문을 만듬
SML 기법 활용
- TextRank/LexRank: 문장의 중요도를 그래프 기반으로 계산, 해당 문장을 추출하여 요약
- TF-IDF: 단어의 중요도를 계산하여 핵심 단어가 많은 문장에 높은 점수를 부여

생성적 요약(Abstractive Summarization)

원리: 원문의 내용을 이해하고 새로운 문장을 생성하여 요약.
SML 기법 활용
- 시퀀스-투-시퀀스 모델: 긴 입력 시퀀스(원본 문서)를 짧은 출력 시퀀스(요약문)로 변환하는 기법
- Transformer 및 LLM(Large Language Model): 이 모델들을 기반으로 한 딥러닝 기술이 생성적 요약에서 압도적인 성능을 보임

결론적으로, 'SML 기반 문서 요약'은 통계적 기계 학습(SML)을 활용한 추출/생성적 요약 기법을 의미할 가능성이 가장 높고, 현대 문서 요약 기술의 핵심

4. 멀티모달

텍스트뿐만 아니라 이미지, 음성, 영상 등 다양한 데이터 양식을 함께 처리
최초의 LLM은 텍스트 기반의 대화에 국한.

텍스트뿐 아니라 이미지, 음성, 영상까지 출력
하나의 모달리티를 활용하는 것보다 훨씬 다양한 작업을 수행 가능

5. NLP(자연어처리)

자연어를 컴퓨터에 처리하기 위한 기술

자연어 분석, 이해, 생성 등
정보 검색, 기계 번역, 질의응답

6. GPU

Graphics Processing Unit. 그래픽 처리.

사용 범위가 확장되어 다양한 분야에서 중요한 역할
딥러닝과 같은 복잡한 알고리즘을 빠르게 처리하는 데 사용

이전 포스트

TanStack Query

다음 포스트

CS 지식 - 네트워크

0개의 댓글