# gensim

6개의 포스트
post-thumbnail

[ray]로 크롤링 속도 개선

문제상황 python 병렬처리 프레임워크인 ray를 기존 코드에 도입하여 속도 개선을 도모한다. > #### 현재상황 네이버, 유튜브, AI 모델에서 수집/생성되는 연관어 데이터를 pandas DataFrame으로 만들고 SQLAlchemy를 이용해 DB에 저장한다. 이 상태로도 사실 속도가 엄청 느린 것은 아니지만 이왕 ray를 알게 된 김에 병렬처리를 해보자 마음 먹고 시도했다. > #### 고려사항 데이터 수집 함수를 하나로 만들어서 ray.remote하는 함수를 하나로 관리할까. 현재는 각 함수가 반환하는 건 리스트 형태지만, ray를 이용하면 비동기적으로 task가 실행되기 때문에, 리스트로 받는 키워드들 중 각 단어들이 랜덤으로 실행되서 키워드와 연관어를 매칭시킬 수 없다. 이에 대해 생각해봤을 때, 1번에 대해서, 공식 ray 깃헙에서도 ray실행 시 문제가 생기면 함수를 쪼개는 것을 우선 추천한다

2023년 4월 23일
·
0개의 댓글
·

[nlp] gensim & sentence-transformers install 필독!!!

gensim과 sentence-transformers는 텍스트를 임베딩하는데 아주 유용한 라이브러리 이다. 이 2개의 라이브러리를 설치하려는데 python이 최신버젼이라면 레거시 에러가 나올 확률이 아주 높다. 따라서 python은 3.8 아래로 설치하길 권장한다. 또한 gensim도 최신버젼은 에러가 생기기 때문에 3.8.3 버젼으로 설치하는 것을 권장한다.

2023년 3월 3일
·
0개의 댓글
·

[docker][Dockerfile] anaconda 이미지로 텍스트 마이닝 개발환경 만들기

처음으로 Dockerfile 만들어봤는데 생각보다 어렵지 않았다. 대충 명령어만 찾아서 이해하고 작성하니 크게 어렵지 않게 만들 수 있었다. Dockerfile은 아래와 같다. 용량은 약 5GB 정도 COPY 부분은 데이터와 코드를 바로 옮겨서 실행시킬 수 있도록 짜둔것이다. 삭제해도 무방. 완료되면 명령어로 이미지를 만들자. 마지막으로 명령어로 컨테이너를 실행시키면 끝.

2023년 2월 28일
·
0개의 댓글
·
post-thumbnail

[nlp] gensim install 필독!!! ModuleNotFoundError: No module named 'gensim.summarization'

gemsim을 최신버젼으로 설치하고 summarization 관련 매소드를 불러오면 다음과 같은 에러가 발생할 수 있다. 이때는 3.4.0으로 다운그레이드 하면 된다.

2022년 12월 19일
·
0개의 댓글
·
post-thumbnail

gensim을 위한 환경

터미널에서 터미널 prompt gz파일들을 현재 디렉토리 확인 후에 주피터에서 확인후에 넣어서 gzip압축을 풀어주세요 그런 다음에 주피터 들어가셔서 똑같이 해주세요 이제 주피터에서 그대로 치시면 됩니다. 여기서 계속 WV 오류가 나시는 분들은 저처럼 주석처리하시면 됩니다. ![](https://images.velog.

2022년 2월 15일
·
0개의 댓글
·
post-thumbnail

LDA 토픽 모델링으로 콘텐츠 리뷰를 분석하자

저는 얼마 전까지만 해도 리뷰 분석을 위해 LDA 토픽 모델링을 적극적으로 활용했습니다. 다른 분석들 보다도 어떤 주제에 대해 여론이 형성되었는지 확인하기 편리해서 특히 연구를 시작하는 단계에서 한번 해볼만한 분석이죠. 물론 토픽모델링 자체로도 하나의 연구가 될 수도 있고요! 이번에는 LDA 토픽 모델링으로 콘텐츠 리뷰를 분석해보겠습니다. 1. 데이터 전처리 우선 데이터를 수집해보겠습니다. 콘텐츠에 대한 의견이 담겨있는 많은 텍스트 데이터가 필요하겠죠. 저는 트위터를 선택했고, 넷플릭스 드라마 에 대한 트윗을 분석하기로 했습니다. 데이터는 아래처럼 수집되었습니다. 데이터를 보니 별다른 내용 없이 URL만 있는 경우가 많았는데요, 이런 경

2022년 2월 4일
·
4개의 댓글
·