NLP 여행기

애늙은이·2023년 8월 5일
0

NLP 여행기

목록 보기
1/13
post-thumbnail

이번 시리즈에서는 NLP에 대해 알아볼 것입니다. NLP는 인공지능 분야 중 하나로 방대한 양의 텍스트 데이터인 말뭉치, 즉 코퍼스를 중점으로 합니다. ChatGPT와 같은 대화형 인공지능에 주로 사용되는 분야이기에 다뤄보게 되었습니다.

🤔 NLP란?

NLP란 Natural Language Processing의 약자로, 한국어로 번역하면 자연어처리라는 뜻입니다. 즉, 자연어를 컴퓨터에 이해시키는 분야인 것이죠.

🔊 자연어란?

우리가 일상적으로 사용하는 언어로 한국어, 영어 등이 이에 해당합니다.
프로그래밍 언어와 같이 목적으로 만들어진 인공어와 반대되는 개념이죠.

NLP는 우리가 일상에서 쓰는 자연어를 0101로 이뤄진 컴퓨터가 처리할 수 있게 특정한 과정을 거치는 것을 말합니다. 이 과정을 만들기 위해서 언어학적 지식이나 인공지능의 개념이 사용됩니다.

💡 자연어의 특징

자연어는 프로그래밍 언어에 비해 다음과 같은 특징들을 지닙니다.

  • 느슨한 문법 : 프로그래밍 언어처럼 엄격한 문법 검사가 필요치 않음

  • 문맥 의존: 앞뒤 문장, 담화 상황 등의 문맥에 영향을 받음

  • 의미의 일대다대응: 하나의 단어, 부호에 여러 의미가 대응될 수 있음

이러한 특징들은 기계가 자연어를 처리하는 데 어려움을 겪게 하는 원인 중 하나입니다. 하지만 우리 주변의 데이터는 주로 자연어로 이루어져 있기에, 컴퓨터가 이해할 수 있게 이를 처리할 필요가 있습니다.

💻 사용 언어와 개발 환경

NLP는 다양한 프로그래밍 언어를 통해 구현이 가능하고, 툴 또한 다양하게 존재합니다. 하지만 NLTK, Spacy와 같은 방대한 라이브러리와 인공지능 라이브러리들과의 연계성을 고려하여 파이썬으로 진행할 예정입니다.

본 시리즈에서는 파이썬 실력이 어느 정도 있는 독자들을 대상으로 합니다. 만약 파이썬을 배우지 않으셨다면 파이썬 기초 시리즈를 보고 오시는 걸 추천드립니다.

또한 개발 환경은 구글 코랩(Google Colab)으로 진행합니다. 코랩에 대한 자세한 설명은 코랩 환경 설정을 참고하세요.

profile
글쓰는 개발자입니다.

0개의 댓글