(해석 또는 이해가 잘못된 부분이 있다면 댓글로 편하게 알려주세요.)
Given the enormity of some robotic endeavors, it often makes sense to minimize the amount of content a robot retrieves. As in the case of Internet search-engine robots, with potentially billions of web pages to download, it makes sense to re-retrieve content only if it has changed.
일부 로봇 작업의 엄청난 규모를 고려할 때 로봇이 읽는 콘텐츠의 양을 최소화하는 것이 좋습니다.
수십억 개의 웹 페이지를 다운로드할 가능성이 있는 인터넷 검색 엔진 로봇처럼 수정된 콘텐츠만 다시 검색하는 것이 합리적입니다.
Some of these robots implement conditional HTTP requests, comparing timestamps or entity tags to see if the last version that they retrieved has been updated. This is very similar to the way that an HTTP cache checks the validity of the local copy of a previously fetched resource. See Chapter7 for more on how caches validate local copies of resources.
때문에 어떤 로봇은 조건부 HTTP 요청을 구현하기도 합니다.
타임스탬프나 E-tag를 비교하여 그들이 탐색한 최신 버전이 업데이트되었는지 확인하기 위함입니다.
이는 HTTP 캐시가 이전에 불러온 리소스의 로컬 사본 유효성을 검사하는 방식과 매우 유사합니다.
캐시가 리소스의 로컬 사본을 검증하는 방법에 대해서는 Chapter 7을 참고하시기 바랍니다.
** Cache Freshness Algorithm : https://velog.io/@dvlp-sy/TIL-HTTP-The-Definitive-Guide-p192-p194#%EF%B8%8F-%EC%9A%94%EC%95%BD
Because many robots are interested primarily in getting the content requested through simple GET methods, often they don’t do much in the way of response handling. However, robots that use some features of HTTP (such as conditional requests), as well as those that want to better explore and interoperate with servers, need to be able to handle different types of HTTP responses.
많은 로봇들이 단순한 GET 메서드를 통해 요청한 콘텐츠를 가져오는 데에만 관심이 있기 때문에 응답을 따로 핸들링하지 않는 경우가 많습니다.
그러나 서버를 더 많이 탐색하고 상호운용하길 희망하거나 (조건부 요청과 같이) HTTP의 특성을 활용하는 로봇은 서로 다른 종류의 HTTP 응답을 제어할 수 있어야 합니다.
Status codes
In general, robots should be able to handle at least the common or expected status codes. All robots should understand HTTP status codes such as 200 OK and 404 Not Found. They also should be able to deal with status codes that they don’t explicitly understand based on the general category of response. Table3-2 in Chapter3 gives a breakdown of the different status-code categories and their meanings.
It is important to note that some servers don’t always return the appropriate error codes. Some servers even return 200 OK HTTP status codes with the text body of the message describing an error! It’s hard to do much about this—it’s just something for implementors to be aware of.
Status codes
로봇은 최소한 일반적으로 예상되는 상태 코드를 처리할 수 있어야 합니다.
모든 로봇은 200 OK와 404 Not Found와 같은 HTTP 상태 코드를 이해할 수 있어야 합니다.
또한 일반적인 응답 분류에 따라 명시적으로 이해되지 않는 상태 코드들까지 처리할 수 있어야 합니다.
Chapter 3의 Table 3-2에서 다양한 상태 코드 분류와 의미를 자세히 설명하고 있습니다.
** Table 3-2 : https://velog.io/@dvlp-sy/TIL-HTTP-The-Definitivie-Guide-p47-p51
일부 서버는 항상 적절한 에러 코드를 반환하지 않음에 유의해야 합니다.
일부 서버는 에러를 의미하는 메시지 본문과 함께 200 OK HTTP 상태 코드를 반환하기도 합니다.
이것은 개발자가 알아두어야 할 사항일 뿐이며 별도의 조치를 취하기는 어렵습니다.
Entities
Along with information embedded in the HTTP headers, robots can look for information in the entity itself. Meta HTML tags,* such as the meta http-equiv tag, are a means for content authors to embed additional information about resources. The http-equiv tag itself is a way for content authors to override certain headers that the
server handling their content may serve:<meta http-equiv="Refresh" content="1;URL=index.html">
This tag instructs the receiver to treat the document as if its HTTP response header contained a Refresh HTTP header with the value “1; URL=index.html”.
Some servers actually parse the contents of HTML pages prior to sending them and include http-equiv directives as headers; however, some do not. Robot implementors may want to scan the HEAD elements of HTML documents to look for http-equiv information.
Entities
임베딩된 HTTP 헤더 정보에 따라 로봇은 엔티티 자체에서 정보를 탐색할 수 있습니다.
meta http-equiv와 같은 Meta HTML 태그는 콘텐츠 생성자가 리소스에 대한 추가적인 정보를 임베딩할 수 있는 수단입니다.
Http-equiv 태그는 콘텐츠 생성자가 자신의 콘텐츠를 처리하는 서버가 제공 가능한 특정 헤더를 오버라이딩할 수 있는 강력한 수단입니다.
이 태그는 마치 HTTP 응답 헤더가 "1;URL=index.html" 값을 가진 Refresh HTTP 헤더를 포함하고 있는 것처럼 수신자가 문서를 처리하도록 합니다.
일부 서버는 HTML 페이지를 전송하기 전에 콘텐츠를 파싱하여 http-equiv의 지시문을 헤더에 포함하기도 하고, 그렇지 않을 수도 있습니다.
로봇 개발자들은 HTML 문서의 HEAD 요소를 스캔하여 http-equiv 정보를 찾을 수 있습니다.
Web administrators should keep in mind that many robots will visit their sites and therefore should expect requests from them. Many sites optimize content for various user agents, attempting to detect browser types to ensure that various site features are supported. By doing this, the sites serve error pages instead of content to robots. Performing a text search for the phrase “your browser does not support frames” on some search engines will yield a list of results for error pages that contain that phrase, when in fact the HTTP client was not a browser at all, but a robot.
웹 관리자는 많은 로봇이 사이트에 방문하기 때문에 로봇의 요청을 예상해야 합니다.
많은 사이트가 유저 에이전트의 콘텐츠를 최적화하고 브라우저의 유형을 감지하여 다양한 기능을 지원하기 위해 노력하고 있습니다.
때문에 사이트가 로봇에게 콘텐츠 대신 에러 페이지를 제공하는 경우도 있습니다.
일부 검색 엔진에서 "your browser does not support frames"라는 텍스트 구절을 검색하면 해당 구절이 담긴 에러 페이지의 리스트가 결과로 출력되지만 실제로는 HTTP 클라이언트가 브라우저가 아닌 로봇인 경우가 있습니다.
Site administrators should plan a strategy for handling robot requests. For example, instead of limiting their content development to specific browser support, they can develop catch-all pages for non–feature rich browsers and robots. At a minimum, they should expect robots to visit their sites and not be caught off guard when they do.
사이트 관리자들은 로봇 요청을 처리하기 위한 전략을 세워야 합니다.
예를 들어 특정 브라우저를 지원하는 콘텐츠 개발을 제한하는 대신 기능이 풍부하지 않은 브라우저와 로봇을 위한 포괄적인 페이지를 지원할 수 있습니다.
최소한 로봇이 사이트에 방문할 것으로 예상하고 방심하지 않아야 합니다.
: 서버를 보다 잘 탐색하고 서버와 상호운용하고 싶은 경우 로봇이 자체적으로 응답을 핸들링할 수 있다
: 많은 사이트가 유저 에이전트의 콘텐츠를 최적화하기 위해 브라우저의 유형을 감지하여 기능을 제공하고 있음
인플루언서에게 있어서 검색 엔진에 자주 노출되는 것만큼 중요한 것이 없다. 인기 검색어로 뜨는 항목들만 봐도 인플루언서 혹은 인플루언서가 되고 싶은 사람들의 엄청난 고뇌를 엿볼 수 있다. 그들은 알고 싶어하며 이미 알고 있다. 해시태그를 어떻게 달아야 더 노출이 잘 되는지, 어떤 단어를 쓰면 검색 엔진에서 노출이 줄어드는지를..
오늘날 검색 엔진 크롤러들은 비속어나 부적절한 콘텐츠까지도 필터링하여 페이지를 수집하는 수준에 이르렀다. 구체적으로 엔진이 어떻게 동작하는지는 당연히 공개되지 않았지만 이 정도는 사용자가 경험적으로 알게 되는 것들이다. 여기에 사용자가 크롤러에 대한 지식을 더 많이 갖추고 있다면, 로봇의 특성상 어떤 정보들을 콘텐츠에 끼워넣어야 노출 빈도를 높일 수 있을지 전략적으로 고민해볼 수 있다.
21세기 인플루언서에 필요한 지식은 역시 컴퓨터 공학이다. 다들 컴퓨터를 전공하라.
3박 4일로 일본에 여행을 다녀왔다. 소도시로 유명한 동네에 다녀왔는데, 이미 많이 유명해져서 그런지 소도시 같지는 않았던 것 같다...ㅋㅋㅋ 그래도 한적한 분위기와 많은 구경거리 덕분에 꽤나 힐링하고 왔다.
여행도 다녀왔고 2월도 끝나가니 이제 다시 힘을 내서 공부를 해보도록 하겠다. 으자잣