크롤링한 csv 파일 텍스트 정리하기

whybein·2020년 2월 25일
1
post-thumbnail

사이트 클론 프로젝트 진행을 위해 todayfish 제품 정보를 가져왔습니다.

파이썬에서 원하는 텍스트만 남기고 다른 문자와 공백을 지우는 방법으로
.strip() 을 씁니다. 이걸로도 안되는 경우가 있다면
.replcae('/t', '') 를 추가할 수도 있습니다.

그럼에도 결과에 불필요한 데이터가 있다면 아래처럼 csv파일 상에서 수정할 수 있습니다.
저는 리눅스에서 제공하는 LibreOffice 를 사용했습니다. 엑셀, 구글시트, sublime text, 워드패드 등에서도 가능합니다.

  • 원본

 


1. 문구 제거

 

  • 바꿀 문구가 있는 셀을 모두 선택합니다.
  • Ctrl + H 를 누른 후(또는 찾기/바꾸기 기능을 메뉴에서 선택)
  • 찾기 입력칸에 앞의 공백과 함께 제거할 문구를 입력하고 바꾸기 입력칸은 공백 상태로 모두 바꾸기 클릭

찾기 : _______________주의사항
바꾸기 : 공백

  • 결과

 


2. 엔터 제거

 

  • 바꿀 문구가 있는 셀을 모두 선택합니다.
  • Ctrl + H 를 누른 후(또는 찾기/바꾸기 기능을 메뉴에서 선택)
  • 드롭다운으로 숨겨져 있는 다른 옵션을 연 후 정규 표현식에 체크 합니다.(옵션이 있는 경우)
  • 찾기 입력칸에 \n 을 입력하고 바꾸기 입력칸은 공백 상태로 모두 바꾸기 클릭

찾기 : \n
바꾸기 : 공백

  • 결과

 


3. 공백 제거

 

  • 바꿀 문구가 있는 셀을 모두 선택합니다.
  • Ctrl + H 를 누른 후(또는 찾기/바꾸기 기능을 메뉴에서 선택)
  • 찾기 입력칸에 스페이스 2칸을 입력하고 바꾸기 입력칸은 공백 상태로 모두 바꾸기 클릭
  • 글자 앞의 스페이스가 홀수라면 칸수 숫자대로 입력합니다.
  • 다 했는데도 공백이 앞뒤로 한칸씩 있다면 장고에서 입력할 때 텍스트에 .strip()을 붙여주면 됩니다.

찾기 : __ 스페이스 2칸
바꾸기 : 공백

  • 결과

 


profile
Back-End Developer

1개의 댓글

comment-user-thumbnail
2020년 2월 27일

완전 꿀팁!

답글 달기