설명 | 예시 | |
---|---|---|
음운 | 말의 뜻을 구별해주는 소리의 최소 단위 | ㄱ,ㄴ,ㄷ, ... , ㅏ,ㅑ,ㅓ,... |
음절 | 독립하여 발음할 수 있는 최소 소리 단위 | 가,나,다,...,헿 & 모음은 따로 독립가능 |
형태소 | 뜻을 가진 가장 작은 말의 단위 (단, 자립할 수 있는 어휘형태소만 해당) | 명사, 형용사, ... |
단어 | 자립적으로 쓸 수 있는 말, 조사는 예외 | 사과, 기린, 토끼 |
어절 | 문장을 구성하고 있는 각각의 마디로, 대개 띄어쓰기 단위와 일치 | |
구 | 둘 이상의 단어가 모여 절이나 문장의 일부분을 이루는 문법의 단위 | 명사구, 동사구, 형용사구, ... |
절 | 주어-서술어 관계를 가지고 있으나 독립적으로 사용 불가 | 명사절, 형용사절, 부사절 |
문장 | 주어와 서술어를 가지고 있는 완결된 최소의 언어 형식 |
- 품사판별
- 5언 : 체언(명사, 대명사, 수사), 용언(형용사, 동사), 수식언(관형사, 부사), 관계언(조사), 독립언(감탄사)
- 9품사 : 명사, 대명사, 수사, 형용사, 동사, 관형사, 부사, 조사, 감탄사
- 용언 : 형태소인 어간과 어미로 구성
옵션 | 설명 |
---|---|
vector_size | - 단어 벡터를 몇 차원으로 지정할 것인가 - 주로 많이 사용하는 차원은 300 |
window | - window 크기를 사용자가 지정 - window : word2vec의 주변 단어를 의미 |
epochs | - 학습 횟수 |
sg | - 학습 방법 선택 - 1 : skip-gram / 0 : CBOW |
min_count | - 토큰이 되기위한 최소 빈도수를 지정(default= 5) |
gensim
)
👍👍