반응형
구글 시트에서 웹크롤링하기
구글 시트는 웹크롤링을 할 때 매우 유용한 도구입니다. 구글 시트에서 웹크롤링을 하려면 다음과 같은 단계를 따르면 됩니다.
1. 웹크롤링할 페이지의 URL 가져오기
먼저 웹크롤링할 페이지의 URL을 가져와야 합니다. 이 URL을 복사하여 구글 시트에 붙여넣습니다.
2. IMPORTHTML 함수 사용하기
IMPORTHTML 함수를 사용하여 웹페이지의 데이터를 가져올 수 있습니다. 이 함수는 웹페이지에서 표를 가져올 때 가장 유용합니다.
=IMPORTHTML(url, query, index)
위의 함수에서 url은 가져올 페이지의 URL입니다. query는 가져올 데이터의 위치를 지정하는데 사용되는 XPath 또는 CSS 셀렉터입니다. index는 가져올 테이블의 인덱스입니다. 만약 인덱스가 생략된다면, 함수는 첫 번째 테이블을 가져옵니다.
3. 예제
다음은 예제입니다. 이 예제에서는 네이버 실시간 검색어에서 상위 10개 검색어를 가져오겠습니다.
- 구글 시트에서 새 시트를 만듭니다.
- A1 셀에 다음과 같은 함수를 입력합니다.
=IMPORTHTML("https://www.naver.com/", "table.ranking", 0)
- 엔터 키를 누릅니다. 구글 시트는 상위 10개 검색어를 가져와서 표시합니다.
4. 마무리
이제 구글 시트를 사용하여 웹크롤링하는 방법을 알았습니다. 이 방법을 사용하면 다양한 웹사이트에서 데이터를 가져올 수 있습니다. 다만, 웹크롤링은 서버에 부하를 일으킬 수 있기 때문에 이를 주의해야 합니다.
반응형
'ETC > Excel' 카테고리의 다른 글
구글 스프레드시트로 번역기능 사용하는 방법 (0) | 2023.03.13 |
---|
댓글