문서

문서

ActiCrawl을 사용하여 웹 스크래핑 워크플로를 자동화하는 방법을 알아보세요

플레이그라운드

ActiCrawl 플레이그라운드는 브라우저에서 직접 웹 스크래핑 API를 테스트하고 실험할 수 있는 대화형 웹 기반 도구입니다. 애플리케이션에 통합하기 전에 ActiCrawl의 기능을 탐색하는 완벽한 방법입니다.

플레이그라운드란?

플레이그라운드는 다음을 수행할 수 있는 시각적 인터페이스입니다:
- 모든 URL에서 즉시 웹 스크래핑 테스트
- 다양한 구성 옵션 실험
- 다양한 형식의 실시간 결과 확인
- 선호하는 프로그래밍 언어로 코드 스니펫 생성
- 다양한 매개변수가 스크래핑 결과에 미치는 영향 학습

주요 기능

1. 실시간 테스트

URL을 입력하면 즉시 스크래핑된 결과를 확인할 수 있습니다. 기본 테스트에는 API 키가 필요하지 않습니다!

2. 다양한 출력 형식

다양한 출력 형식 중에서 선택하세요:
- Markdown: 깔끔하고 읽기 쉬운 텍스트 형식
- HTML: 원본 또는 정리된 HTML
- JSON: 구조화된 데이터 추출
- 스크린샷: 전체 페이지 또는 뷰포트 캡처
- PDF: 페이지를 PDF 문서로 저장

3. 고급 옵션

강력한 옵션으로 스크래핑을 미세 조정하세요:
- JavaScript 렌더링: 동적 콘텐츠가 로드될 때까지 대기
- 프리미엄 프록시: 지역 제한 및 IP 차단 우회
- 콘텐츠 필터링: 메인 콘텐츠 또는 특정 요소만 추출
- 사용자 정의 선택자: 페이지의 특정 부분 타겟팅

4. 코드 생성

다음 언어로 바로 사용 가능한 코드 스니펫을 받으세요:
- Python
- JavaScript/Node.js
- PHP
- Ruby
- cURL
- 그 외 다수!

플레이그라운드 사용 방법

1단계: 플레이그라운드 접속

https://acticrawl.com/playground로 이동하거나 메인 네비게이션에서 플레이그라운드 링크를 클릭하세요.

2단계: URL 입력

페이지 상단의 입력 필드에 스크래핑하려는 URL을 입력하거나 붙여넣으세요.

3단계: 옵션 구성 (선택사항)

필요에 따라 스크래핑 매개변수를 조정하세요:

페이지 옵션

  • 메인 콘텐츠 추출: 네비게이션, 광고, 사이드바 제거
  • JavaScript 렌더링: 동적 사이트를 위한 헤드리스 브라우저 활성화
  • 프리미엄 프록시: 더 나은 성공률을 위한 프리미엄 프록시 네트워크 사용

고급 옵션

  • 태그 제외: 특정 HTML 요소 제거 (예: nav, .ads, #footer)
  • 태그만 포함: 지정된 요소만 추출
  • 대기 시간: JavaScript 대기 시간(밀리초) (기본값: 3000ms)
  • 타임아웃: 최대 페이지 로드 시간 (기본값: 30000ms)

4단계: 출력 형식 선택

사용 가능한 옵션에서 하나 이상의 출력 형식을 선택하세요:
- Markdown
- 정리된 HTML
- 원본 HTML
- 스크린샷
- PDF

5단계: 스크래핑 실행

Run 버튼을 클릭하여 스크래핑 요청을 실행하세요. 결과는 아래 결과 패널에 표시됩니다.

6단계: 코드 받기

결과에 만족하면 Get Code를 클릭하여 선호하는 프로그래밍 언어로 코드 스니펫을 생성하세요.

사용 사례

1. 구현 전 테스트

ActiCrawl을 애플리케이션에 통합하기 전에 플레이그라운드를 사용하여:
- 대상 웹사이트를 성공적으로 스크래핑할 수 있는지 확인
- 최적의 구성 설정 결정
- 다양한 출력 형식 테스트

2. 학습 및 실험

플레이그라운드는 다음을 위한 훌륭한 학습 도구입니다:
- 웹 스크래핑의 작동 방식 이해
- ActiCrawl의 기능 탐색
- CSS 선택자 및 XPath 표현식 테스트

3. 빠른 데이터 추출

코드 작성 없이 빠르게 데이터가 필요하신가요? 플레이그라운드에서:
- 웹사이트에서 즉시 데이터 추출
- 원하는 형식으로 결과 다운로드
- 팀 구성원과 결과 공유

4. 디버깅 및 문제 해결

스크래핑이 예상대로 작동하지 않을 때:
- 다양한 구성 테스트
- 다른 설정으로 결과 비교
- 최적의 매개변수 식별

모범 사례

  1. 간단하게 시작: 기본 설정으로 시작하고 필요에 따라 고급 옵션 추가
  2. 점진적으로 테스트: 한 번에 하나씩 변경하여 그 효과 이해
  3. JavaScript 렌더링을 현명하게 사용: 느리므로 필요한 경우에만 활성화
  4. 구성 저장: 향후 사용을 위해 성공적인 구성 기록

제한사항

플레이그라운드는 강력하지만 몇 가지 제한사항이 있습니다:
- 속도 제한: 익명 사용자는 시간당 10개 요청으로 제한
- 응답 크기: UI에서 큰 응답이 잘릴 수 있음
- 세션 기간: 결과는 임시적이며 저장되지 않음
- 인증: 로그인이 필요한 페이지는 처리할 수 없음

프로덕션 사용 및 더 높은 한도를 위해서는 ActiCrawl 계정에 가입하고 API를 직접 사용하세요.

다음 단계

ActiCrawl을 애플리케이션에 통합할 준비가 되셨나요?
1. 계정 가입하여 API 키 받기
2. 통합 예제를 위한 빠른 시작 가이드 확인
3. 자세한 문서를 위한 API 참조 탐색

플레이그라운드는 시작일 뿐입니다 – 포괄적인 API로 ActiCrawl의 모든 기능을 활용하세요!