부캠 과제 중에 spaCy 무료 강의를 듣는게 있어서, 들으며 정리한 내용이다.
Advanced NLP with spaCy의 online free course 중 chapter1 : Finding words, phrases, names and concepts의 1-5까지 들은 내용을 정리했다.
spaCy란, NLP(자연어 처리)를 위한 파이썬 라이브러리임
from spacy.lang.en import English
# nlp object - 영어 - 생성
nlp = English()
# op에 텍스트를 넣으면 doc 객체를 생성
doc = nlp("Hello world!")
for token in doc:
print(token.text)
token = doc[1]
span = doc[1:3]
print(span.text)
가능token.i
: 인덱스token.text
: 텍스트 token.is_alpha
, .is_punct
, .like_num
: 각각 알파벳인지, 문장 부호인지, 숫자인지 Boolean 값으로 리턴.like_num
은 numeric 아니어도 됨. ex) 10 아니고 ten 이어도 true값임 python -m spacy download en_core_web_sm
for token in doc:
print(token.text, token.pos_, token.dep_, token.head.text)
nsubj
dobj
det
for ent in doc.ents:
print(ent.text, ent.label_)
spacy.explain("개체명")
하면 된다