구글 검색 잘 하는법

dev.dave·2023년 7월 27일

개발지식

목록 보기
39/53

구글 검색 방법

요약>

  • "" 문장그대로 검색 하고싶으면, 쌍따옴표 써라

  • 김치찌개 site:tistory.com 특정사이트 검색할때 저렇게 써라.

  • 파일 확장자 검색할고싶으면, "범죄자 명단" filetype:xlsx site:https://sexoffender.go.kr/ 이렇게 써라.

  • robot.txt 잘 설정 하면 검색을 안되게 할수도 있고, 검색이 잘 되게 할 수도 있다. feat.웹 크롤러



보통 김치 찌개 라는걸
구글 검색을 한다치면,

김치 띄우고 찌개 이렇게
입력을 했다 치면,

김치가 검색되고
찌개가 검색되고
이렇게 보통 따로 따로 검색이 되어 조합이 된 결과물을 보게된다.

근데
저 문장을 한꺼번에 검색 하고 싶으면,
즉,
김치 찌개 이 단어가 문장으로 된 검색 결과를 받아보고 싶으면,

쌍 따옴표를 쓰면됨.

"김치 찌개"

이렇게.


그리고

특정 사이트에서만 검색하고 싶으면,

즉,
보통
김치찌개 라고 검색을 하면,
유튜브 동영상자료,
인스타그램 자료,
네이버 블로그 자료,
다 여기저기서 검색결과가 나오는데,

나는 티스토리 블로그 자료결과만 보고싶으면,
김치찌개 site:tistory.com

이렇게 하면 된다.

검색어 띄우고 site:url
넣으시면
됩니다.


그리고

내가 엑셀 파일만 검색 결과로 받아보고 싶으면,

예를들어 명단파일을 엑셀로 결과를 받아보고싶다면,

명단 filetype:xlsx

즉,

검색어 띄우고 filetype:확장자
이렇게 쓰면 됨.

응용하면,

서울대학교병원 교수명단을
엑셀파일로,
특정 사이트에서
찾고싶으면

서울대학교병원 교수명단 filetype:xlsx site:http://www.snuh.org/

"범죄자 명단" filetype:xlsx site:https://sexoffender.go.kr/

이런식으로 조합해서 쓸 수도 있다.


web hacking tutorial filetype:pdf


그리고

inurl:
이건 url 전체 주소는 안넣어도 되고,
url 키워드만 넣어도 됨

예르들어
snuh
tistory

그리고

intitle:

타이틀 만 필터링 할 수 도있다.


검색이란?

쉽게, 이해하자면,

일단,
웹 크롤러 라는게 있는데,
보통은, 웹사이트 들어가면, 정보 긁어오고,
그런거 생각 하시는데,

웹 크롤러는 말그대로,
인터넷 망에 있는 모든 웹 사이트에
혼자 왔다 들어갔다 하면서,
페이지 정보를 수집하는 친구입니다.

이 웹 크롤러라는 친구가
혼자 이곳저곳을 돌아다니면서,

이 사이트는 키워드가 이렇고, 저렇고,
이렇게 모아서,
검색 엔진에 들어 옵니다, 와서,
이 웹 크롤러가 가져온, 키워드랑 웹 페이지
이 두개를
DB에 저장을 해놓습니다.

즉,
검색엔진은 구글 네이버 bing 등등,,있죠

이런 회사의 각자의 웹 크롤러들이 있는데,
각자의 웹 크롤러들이 가져온 정보들을,
DB로 저장해두는거고,

사이트마다
키워드
주소 사이트
저장을 해둔 상태서

유저가 검색을 하면
"김치 찌개"
하면
그러면 그에 해당되는 결과를
우리눈에 보여주게 되는거죠.

그냥 쉽게 생략해서, 간단하게만 말하자면,
이게 검색의 원리입니다.

그리고,
알아야 할 용어가 있는데,

robot.txt 인데,
뭐냐면,

아까, 웹 크롤러가 막 돌아다닌다고 했는데,
그래서 거기에서 가져온 키워드랑, 웹 사이트를
디비에 저장한다고 했잖아요,

웹 크롤러는 막 이곳저곳 다 돌아다닙니다.

그러면

이곳은 검색 노출이 안됬으면 좋겠다 라거나,
구글 검색시 내 홈페이지는 구글검색에 나오지는 않았으면 좋겠다 라던가,
내 프라이버시 지키고싶을때,
즉, 웹 크롤러가 들어오지 못하게 하려면,
우리가 들어오지 말라고 표시판을 표시하는거다.
그게 robot.txt 에서 설정을 해 줄 수 있다.

양식은
대략, 이렇다.

User-agent:*
이거는 검색엔진 명시하는 부분임. 구글엔진 네이버엔진 빙엔진 ,

  • 쓰면 모든 웹 크롤러들을 말하는거임.

Allow: /
허락을 해주는 부분이다. /쓰면 모든걸 다 허락해줌.

Disallow: /admin
이렇게도 할 수 있는데, 이거는 admin이라는 페이지는 검색허용안됨 이라는뜻.

Sitemap: http://naver.com

--
여튼
robot.txt 를 잘 설정을 해줘야,
검색 효과,
상단 노출 등,,,
검색 유입량이
증가도 되고 그렇다.

심지어 이것만 다루는 직종도 있다.
seo 라고
seo전문가? 도 있다.
메타 데이터를 잘 가공하는 직군도 있다.

여튼, 그렇다.

profile
🔥개인 메모 / 다른블로그 자료 참조 / 다른블로그 자료 퍼옴 (출처표기) /여기저기서 공부 했던 내용 개인메모 & 참고 / 개인 기록 용도 블로그 입니다.🔥

0개의 댓글