XPath 도구 | Octoparse

Erika Foo·2020년 4월 10일
0

Xpath

목록 보기
1/1
post-thumbnail

XPath 작업을 시작하는 데 도움이되도록이 섹션에서는 XPath에 대한 기본적인 이해를 빠르게 구축하고 웹 스크래핑 도구 인 Octoparse에서 해당 응용 프로그램을 소개합니다.

내용의 테이블:

XPath 란 무엇입니까?

XPath를 작성하는 방법?

Octoparse XPath Tool이란 무엇입니까?

Octoparse를 사용할 때 왜 XPath를 작성해야합니까?

1. XPath 란 무엇입니까?

XPath (XML Path Language)는 XML / HTML 문서에서 요소를 선택하기위한 쿼리 언어입니다. 전체 문서에서 요소를 정확하고 신속하게 찾을 수 있습니다.

웹 페이지는 일반적으로 HTML이라는 언어로되어 있습니다. 브라우저 (Chrome, Firefox 등)에 웹 페이지를로드하면 F12 키를 눌러 해당 HTML 문서에 쉽게 액세스 할 수 있습니다. 이미지, 텍스트 블록, 링크 등과 같이 HTML에서 웹 페이지에 보이는 모든 것을 찾을 수 있습니다.

XPath의 작동 방식을 자세히 설명하기 위해이 예제를 살펴 보겠습니다.

이 이미지는 HTML 문서가 아닙니다. 이 HTML 섹션에는 3 가지 레벨의 요소가 있음을 쉽게 알 수 있습니다.

1 단계 : 서점

2 단계 : 예약

수준 3 : 제목, 저자, 연도 및 가격.

꺾쇠 괄호 ()가있는 텍스트를 태그라고합니다. HTML 요소는 일반적으로 시작 태그와 종료 태그로 구성되며 그 사이에 내용이 삽입됩니다.

콘텐츠가 여기에 있습니다 ... </ tagname>

XPath는 "/"를 사용하여 요소의 위치를 ​​지정하기 위해 위에서 아래로 다른 레벨의 태그를 연결합니다. 예를 들어 "author"요소를 찾으려면 XPath는 다음과 같습니다.

/ bookstore / book / author

아래 이미지에서 볼 수 있듯이 파일 구조와 매우 유사합니다.

XPath는 HTML 문서에서 정확한 위치를 찾기위한 주소라고 결론 내릴 수 있습니다.

2. XPath를 작성하는 방법?

HTML의 논리와 XPath의 문법을 이해하면 XPath 작성이 쉽습니다.

쉽게 들리나요? 그러나 배우는 데 시간이 걸립니다. 다음은 초보자에게 유용한 자습서입니다.

HTML 튜토리얼

XPath 튜토리얼

XPath 기본

보다 쉽게 ​​작업 할 수 있도록 다음은 HTML의 모든 요소를 ​​신속하게 대상으로하는 데 도움이되는 유용한 XPath 표현식입니다.



3. XPath 도구 란 무엇입니까

우리는 XPath 작성의 기본 규칙을 알고 있으며 XPath 작성을 시작할 수 있습니다. 축하합니다!

그러나 XPath가 올바른지 여부를 어떻게 알 수 있습니까?이 경우 XPath 도구를 사용하여 확인을 도와야합니다.

XPath 도구 2 개를 추천하고 싶습니다.

-Octoparse XPath 도구

Octoparse는 XPath를 쉽게 작성할 수 있도록 XPath 도구를 제공합니다. Octoparse 도구에 내장되어 있습니다.

-Chrome 애드온 : XPath 도우미

XPath 도우미는 브라우저에서 요소 위로 마우스를 가져 가면 XPath를 조회 할 수있는 최상의 크롬 확장 프로그램입니다. 콘솔에서 직접 XPath 쿼리를 편집 할 수도 있습니다. XPath가 올바르게 작동하는지 알 수 있도록 결과를 즉시 얻을 수 있습니다.

4. Octoparse를 사용할 때 왜 XPath를 작성해야합니까?

Octoparse는 크롤러를 만들어 데이터를 온라인으로 자동 수집하는 데 도움이되는 웹 스크래핑 도구입니다.

이 비디오를 확인하십시오! https://www.youtube.com/watch?v=NVeWiO1w3Vc

Octoparse의 XPath는 Octoparse에게 수행 할 작업을 알려주는 순서입니다. 일반적으로 너무 많은 상호 작업없이 데이터 필드의 XPath를 자동 감지 할 수 있습니다. 그러나 XPath를 작성하여 더 정확하게 작동시킬 수 있습니다.

예를 들어 Octoparse에서 페이지 매김 루프를 만들려면 어떤 링크를 클릭해야하는지 Octoparse에 알려야합니다. 이 경우 웹 사이트 인 IMDb 를 예로 사용하겠습니다 .

Octoparse에서 웹 사이트를 연 후 "다음 >>"을 클릭 한 다음 작업 팁에서 "다음 페이지 루프 클릭"을 선택하여 페이지 매김 루프를 만들 수 있습니다.

이 이미지는 페이지 매김을 나타내며 Octoparse가 클릭 할 위치를 알려줍니다. 그리고 자동 생성 된 XPath는 // DIV [@ class = 'nav'] / DIV [2] / A [1]입니다. XPath가 완벽하게 작동하는 것 같지만 다음 페이지로 들어가면 XPath가 대신 "<< previous"를 찾습니다.

따라서이 경우 Octoparse에서 XPath를 수정하는 것이 좋습니다.

또한 XPath는 추출하려는 데이터 필드를 재배치하는 데에도 사용됩니다.

이것이 전체 기사의 끝입니다. XPath를보다 효과적으로 배우는 방법에 대한 더 나은 아이디어가 있다면 아래에 의견을 남겨주세요!

0개의 댓글