小马的 AI 工具集 给 Agent 学习

网页爬取

自适应网页爬取框架,自动绕过反爬并在页面改版后重定位元素

网页爬取
类型 63,912 星标 更新 2026-06-07 许可 BSD-3-Clause 原仓库 主页

Scrapling 海报
轻松实现现代网络爬虫

D4Vinci%2FScrapling | Trendshift
العربيه | Español | Português (Brasil) | Français | Deutsch | 简体中文 | 日本語 | Русский | 한국어
Tests PyPI version PyPI package downloads Static Badge OpenClaw Skill
Discord X (formerly Twitter) Follow
Supported Python versions

选择方法 · 抓取器 · 爬虫 · 代理轮换 · CLI · MCP

Scrapling 是一个自适应的 Web Scraping 框架,能够处理从单次请求到全量爬取的各种场景。

它的解析器能够从网站变化中学习,当页面更新时自动重新定位你的元素。它的抓取器开箱即用,可绕过 Cloudflare Turnstile 等反爬系统。它的爬虫框架让你能够扩展到并发、多会话的爬取,支持暂停/恢复和自动代理轮换——只需几行 Python 代码。一个库,无所妥协。

支持实时统计和流式输出的极速爬取。由网页爬虫工程师为网页爬虫工程师及普通用户打造,每个人都能找到适合自己的功能。

from scrapling.fetchers import Fetcher, AsyncFetcher, StealthyFetcher, DynamicFetcher
StealthyFetcher.adaptive = True
p = StealthyFetcher.fetch('https://example.com', headless=True, network_idle=True)  # 隐匿抓取网站!
products = p.css('.product', auto_save=True)                                        # 抓取能够适应网站设计变更的数据!
products = p.css('.product', adaptive=True)                                         # 之后若网站结构变化,传入 `adaptive=True` 即可重新找到它们!

或扩展到全量爬取

from scrapling.spiders import Spider, Response

class MySpider(Spider):
  name = "demo"
  start_urls = ["https://example.com/"]

  async def parse(self, response: Response):
      for item in response.css('.product'):
          yield {"title": item.css('h2::text').get()}

MySpider().start()

DataImpulse 专注于为您的业务开发定制代理服务。从任何地方发起请求,收集数据,通过我们的优质代理享受快速连接。

白金赞助商

ColdProxy 提供家庭和数据中心代理,用于在 195+ 个国家/地区进行稳定的网页抓取、公共数据收集和地理定位测试。
Scrapling 处理 Cloudflare Turnstile。对于企业级防护, Hyper Solutions 提供 API 端点,可为 AkamaiDataDomeKasadaIncapsula 生成有效的反爬令牌。简单的 API 调用,无需浏览器自动化。
嘿,我们创建了 BirdProxies ,因为代理不应该复杂或昂贵。覆盖 195+ 个地点的快速家庭和 ISP 代理,价格公道,真实支持。
试试着陆页的 FlappyBird 游戏,免费获得数据!
Evomi :家庭代理低至 $0.49/GB。提供完全伪装 Chromium 的爬取浏览器、家庭 IP、自动验证码解决和反爬绕过。
Scraper API 助您轻松获得结果。支持 MCP 和 N8N 集成。
TikHub.io 提供 16+ 个平台(包括 TikTok、X、YouTube、Instagram)的 900+ 个稳定 API,拥有 4000 万+ 数据集。
同时还提供 折扣 AI 模型 —— Claude、GPT、GEMINI 等,最高优惠 71%。
合上笔记本电脑。让您的爬虫继续运行。
PetroSky VPS - 专为持续自动化而建的云服务器。提供 Windows 和 Linux 机器,完全控制。每月 €6.99 起。
阅读关于 Scrapling 的完整评测,来自 The Web Scraping Club(2025 年 11 月),这是专注于 Web Scraping 的第一资讯。
Swiftproxy 提供可扩展的家庭代理,拥有 8000 万+ IP 覆盖 195+ 个国家/地区,提供快速、可靠的连接,自动轮换和强大的防封性能。提供免费试用。
9Proxy 提供家庭代理,低至 $0.018/IP 或 $0.68/GB。覆盖 90+ 个国家/地区的 2000 万+ IP。支持粘性/轮换会话,可通过桌面或移动应用管理。
NodeMaven - 可靠的代理提供商,提供市场上最高质量的 IP。使用促销码 SCRAPLING35 享受代理 35% 折扣。

想在此展示您的广告吗?点击这里

赞助商

想在此展示您的广告吗?点击这里并选择适合您的层级!


主要特性

Spiders - 完整的爬取框架

  • 🕷️ 类 Scrapy 的 Spider API:使用 start_urls、异步 parse 回调以及 Request/Response 对象定义爬虫。
  • 并发爬取:可配置的并发限制、按域名限速和下载延迟。
  • 🔄 多会话支持:在单个爬虫中统一接口处理 HTTP 请求和隐形无头浏览器——通过 ID 将请求路由到不同会话。
  • 💾 暂停与恢复:基于检查点的爬取持久化。按 Ctrl+C 优雅关闭;重启后从中断处继续。
  • 📡 流模式:通过 async for item in spider.stream() 实时流式输出爬取项并显示实时统计——非常适合 UI、管道和长时间运行的爬取任务。
  • 🛡️ 被拦截请求检测:自动检测并重试被拦截的请求,支持自定义逻辑。
  • 🤖 Robots.txt 遵守:可选的 robots_txt_obey 标志,遵守 DisallowCrawl-delayRequest-rate 指令,并支持按域名缓存。
  • 🧪 开发模式:首次运行将响应缓存到磁盘,后续运行重放——迭代 parse() 逻辑时无需重新请求目标服务器。
  • 📦 内置导出:通过钩子和自定义管道导出结果,或使用内置的 JSON/JSONL 导出,分别调用 result.items.to_json() / result.items.to_jsonl()

支持会话的高级网站抓取

  • HTTP 请求:使用 Fetcher 类进行快速且隐形的 HTTP 请求。可模拟浏览器 TLS 指纹、自定义标头,并支持 HTTP/3。
  • 动态加载:通过 DynamicFetcher 类实现完整的浏览器自动化,支持 Playwright 的 Chromium 和 Google 的 Chrome。
  • 反爬绕过:借助 StealthyFetcher 和指纹欺骗,具备高级隐身能力。可轻松绕过各种 Cloudflare 的 Turnstile/Interstitial 并实现自动化。
  • 会话管理:提供 FetcherSessionStealthySessionDynamicSession 类,支持跨请求持久化 Cookie 和状态。
  • 代理轮换:内置 ProxyRotator,支持循环或自定义轮换策略,适用于所有会话类型,并可针对单个请求覆盖代理。
  • 域名与广告屏蔽:在基于浏览器的抓取器中屏蔽对特定域名(及其子域名)的请求,或启用内置广告拦截(约 3500 个已知广告/追踪域名)。
  • DNS 泄漏防护:可选的 DNS-over-HTTPS 支持,通过 Cloudflare 的 DoH 路由 DNS 查询,防止使用代理时发生 DNS 泄漏。
  • 异步支持:所有抓取器及专用异步会话类均提供完整的异步支持。

自适应抓取与 AI 集成

  • 🔄 智能元素追踪:在网站变化后使用智能相似度算法重新定位元素。
  • 🎯 智能灵活选择:CSS 选择器、XPath 选择器、基于过滤器的搜索、文本搜索、正则搜索等。
  • 🔍 查找相似元素:自动定位与已找到元素相似的元素。
  • 🤖 用于 AI 的 MCP 服务器:内置 MCP 服务器,支持 AI 辅助的网页抓取和数据提取。该 MCP 服务器具备强大、自定义的能力,利用 Scrapling 提取目标内容后再传递给 AI(Claude/Cursor 等),从而加速操作并降低令牌使用量以节约成本。(演示视频

高性能与久经考验的架构

  • 🚀 极速:优化后的性能超越大多数 Python 抓取库。
  • 🔋 内存高效:优化的数据结构和惰性加载,内存占用极低。
  • 快速 JSON 序列化:比标准库快 10 倍。
  • 🏗️ 久经考验:Scrapling 不仅拥有 92% 的测试覆盖率和完整的类型提示覆盖,而且过去一年中每天被数百名网页抓取工程师使用。

对开发者/网页抓取者友好的体验

  • 🎯 交互式网页抓取 Shell:可选的内置 IPython shell,集成 Scrapling 功能、快捷键和新工具,加速网页抓取脚本开发,例如将 curl 请求转换为 Scrapling 请求以及在浏览器中查看请求结果。
  • 🚀 直接从终端使用:可选地,无需编写一行代码即可使用 Scrapling 抓取 URL!
  • 🛠️ 丰富的导航 API:支持父节点、兄弟节点、子节点导航的高级 DOM 遍历。
  • 🧬 增强的文本处理:内置正则表达式、清理方法和优化的字符串操作。
  • 📝 自动选择器生成:为任何元素生成稳健的 CSS/XPath 选择器。
  • 🔌 熟悉的 API:与 Scrapy/BeautifulSoup 相似,使用 Scrapy/Parsel 中相同的伪元素。
  • 📘 完整的类型覆盖:完整的类型提示,提供出色的 IDE 支持和代码补全。每次更改时整个代码库自动通过 PyRightMyPy 扫描。
  • 🔋 即用型 Docker 镜像:每次发布都会自动构建并推送包含所有浏览器的 Docker 镜像。

快速入门

让我们快速了解 Scrapling 能做些什么,无需深入细节。

基本用法

支持会话的 HTTP 请求

from scrapling.fetchers import Fetcher, FetcherSession

with FetcherSession(impersonate='chrome') as session:  # 使用最新版本的 Chrome TLS 指纹
    page = session.get('https://quotes.toscrape.com/', stealthy_headers=True)
    quotes = page.css('.quote .text::text').getall()

# 或者使用一次性请求
page = Fetcher.get('https://quotes.toscrape.com/')
quotes = page.css('.quote .text::text').getall()

高级隐身模式

from scrapling.fetchers import StealthyFetcher, StealthySession

with StealthySession(headless=True, solve_cloudflare=True) as session:  # 保持浏览器打开直到完成
    page = session.fetch('https://nopecha.com/demo/cloudflare', google_search=False)
    data = page.css('#padded_content a').getall()

# 或者使用一次性请求风格,它会为此请求打开浏览器,完成后关闭
page = StealthyFetcher.fetch('https://nopecha.com/demo/cloudflare')
data = page.css('#padded_content a').getall()

完整浏览器自动化

from scrapling.fetchers import DynamicFetcher, DynamicSession

with DynamicSession(headless=True, disable_resources=False, network_idle=True) as session:  # Keep the browser open until you finish
    page = session.fetch('https://quotes.toscrape.com/', load_dom=False)
    data = page.xpath('//span[@class="text"]/text()').getall()  # 如果您偏好 XPath 选择器

# 或者使用一次性请求风格,它会为此请求打开浏览器,完成后关闭
page = DynamicFetcher.fetch('https://quotes.toscrape.com/')
data = page.css('.quote .text::text').getall()

爬虫

使用并发请求、多种会话类型和暂停/恢复功能构建全功能爬虫:

from scrapling.spiders import Spider, Request, Response

class QuotesSpider(Spider):
    name = "quotes"
    start_urls = ["https://quotes.toscrape.com/"]
    concurrent_requests = 10
    
    async def parse(self, response: Response):
        for quote in response.css('.quote'):
            yield {
                "text": quote.css('.text::text').get(),
                "author": quote.css('.author::text').get(),
            }
            
        next_page = response.css('.next a')
        if next_page:
            yield response.follow(next_page[0].attrib['href'])

result = QuotesSpider().start()
print(f"Scraped {len(result.items)} quotes")
result.items.to_json("quotes.json")

在单个爬虫中使用多种会话类型:

from scrapling.spiders import Spider, Request, Response
from scrapling.fetchers import FetcherSession, AsyncStealthySession

class MultiSessionSpider(Spider):
    name = "multi"
    start_urls = ["https://example.com/"]
    
    def configure_sessions(self, manager):
        manager.add("fast", FetcherSession(impersonate="chrome"))
        manager.add("stealth", AsyncStealthySession(headless=True), lazy=True)
    
    async def parse(self, response: Response):
        for link in response.css('a::attr(href)').getall():
            # 将通过 stealth 会话路由受保护的页面
            if "protected" in link:
                yield Request(link, sid="stealth")
            else:
                yield Request(link, sid="fast", callback=self.parse)  # 显式回调

通过像这样运行爬虫,使用检查点暂停和恢复长时间抓取:

QuotesSpider(crawldir="./crawl_data").start()

按 Ctrl+C 优雅暂停——进度会自动保存。稍后当你再次启动爬虫时,传入相同的 crawldir,它就会从停止的地方继续。

高级解析与导航

from scrapling.fetchers import Fetcher

# 丰富的元素选择与导航
page = Fetcher.get('https://quotes.toscrape.com/')

# 使用多种选择方法获取引言
quotes = page.css('.quote')  # CSS 选择器
quotes = page.xpath('//div[@class="quote"]')  # XPath
quotes = page.find_all('div', {'class': 'quote'})  # BeautifulSoup 风格
# 等同于
quotes = page.find_all('div', class_='quote')
quotes = page.find_all(['div'], class_='quote')
quotes = page.find_all(class_='quote')  # 等等...
# 通过文本内容查找元素
quotes = page.find_by_text('quote', tag='div')

# 高级导航
quote_text = page.css('.quote')[0].css('.text::text').get()
quote_text = page.css('.quote').css('.text::text').getall()  # 链式选择器
first_quote = page.css('.quote')[0]
author = first_quote.next_sibling.css('.author::text')
parent_container = first_quote.parent

# 元素关系与相似性
similar_elements = first_quote.find_similar()
below_elements = first_quote.below_elements()

如果你不想像下面这样抓取网站,也可以直接使用解析器:

from scrapling.parser import Selector

page = Selector("<html>...</html>")

并且它的工作方式完全相同!

异步会话管理示例

import asyncio
from scrapling.fetchers import FetcherSession, AsyncStealthySession, AsyncDynamicSession

async with FetcherSession(http3=True) as session:  # `FetcherSession` 具有上下文感知能力,可以同时在同步和异步模式中使用
    page1 = session.get('https://quotes.toscrape.com/')
    page2 = session.get('https://quotes.toscrape.com/', impersonate='firefox135')

# 异步会话用法
async with AsyncStealthySession(max_pages=2) as session:
    tasks = []
    urls = ['https://example.com/page1', 'https://example.com/page2']
    
    for url in urls:
        task = session.fetch(url)
        tasks.append(task)
    
    print(session.get_pool_stats())  # 可选——浏览器标签页池的状态(忙碌/空闲/错误)
    results = await asyncio.gather(*tasks)
    print(session.get_pool_stats())

命令行界面与交互式 Shell

Scrapling 包含一个强大的命令行界面:

asciicast

启动交互式 Web 抓取 Shell

scrapling shell

无需编程即可将页面直接提取到文件中(默认提取 <body> 标签内的内容)。如果输出文件以 .txt 结尾,则会提取目标的文本内容;如果以 .md 结尾,则会得到 HTML 内容的 Markdown 表示;如果以 .html 结尾,则是 HTML 内容本身。

scrapling extract get 'https://example.com' content.md
scrapling extract get 'https://example.com' content.txt --css-selector '#fromSkipToProducts' --impersonate 'chrome'  # 所有匹配 CSS 选择器 '#fromSkipToProducts' 的元素
scrapling extract fetch 'https://example.com' content.md --css-selector '#fromSkipToProducts' --no-headless
scrapling extract stealthy-fetch 'https://nopecha.com/demo/cloudflare' captchas.html --css-selector '#padded_content a' --solve-cloudflare

[!NOTE] 还有许多其他功能,但为了保持此页面简洁,包括 MCP 服务器和交互式 Web 抓取 Shell。请查看完整文档 这里

性能基准测试

Scrapling 不仅功能强大,而且速度极快。以下基准测试将 Scrapling 的解析器与其他流行库的最新版本进行了比较。

文本提取速度测试(5000个嵌套元素)

#时间 (ms)相对于 Scrapling
1Scrapling2.021.0x
2Parsel/Scrapy2.041.01
3Raw Lxml2.541.257
4PyQuery24.17~12x
5Selectolax82.63~41x
6MechanicalSoup1549.71~767.1x
7BS4 with Lxml1584.31~784.3x
8BS4 with html5lib3391.91~1679.1x

元素相似性与文本搜索性能

Scrapling 的自适应元素查找能力显著优于其他方案:

时间 (ms)相对于 Scrapling
Scrapling2.391.0x
AutoScraper12.455.209x

所有基准测试均为 100 次以上运行的平均值。关于方法,请参见 benchmarks.py

安装

Scrapling 需要 Python 3.10 或更高版本:

pip install scrapling

[!IMPORTANT] 此安装仅包含解析引擎及其依赖项,不包含任何获取器或命令行依赖。因此,如果仅此安装,像上面示例中那样从 scrapling.fetchersscrapling.spiders 导入任何内容都将引发 ModuleNotFoundError。如果你打算使用任何获取器或爬虫,请先安装获取器的依赖项:

可选依赖项

  1. 如果你打算使用以下任何额外功能、fetchers 或它们的类,你需要安装 fetchers 的依赖及其浏览器依赖,具体如下:

    pip install "scrapling[fetchers]"
    
    scrapling install           # 正常安装
    scrapling install  --force  # 强制重新安装

    这会下载所有浏览器及其系统依赖和指纹操作依赖。

    或者你也可以通过代码来安装,而不是运行命令:

    from scrapling.cli import install
    
    install([], standalone_mode=False)          # 正常安装
    install(["--force"], standalone_mode=False) # 强制重新安装
  2. 额外功能:

    • 安装 MCP 服务器功能:
      pip install "scrapling[ai]"
    • 安装 shell 功能(Web Scraping 交互式 shell 和 extract 命令):
      pip install "scrapling[shell]"
    • 安装全部功能:
      pip install "scrapling[all]"

    请记住,在上述任意额外功能安装后(如果还未安装过),你都需要使用 scrapling install 安装浏览器依赖。

Docker

你也可以通过以下命令从 DockerHub 安装包含所有额外功能和浏览器的 Docker 镜像:

docker pull pyd4vinci/scrapling

或者从 GitHub 仓库下载:

docker pull ghcr.io/d4vinci/scrapling:latest

该镜像通过 GitHub Actions 和仓库的主分支自动构建并推送。

贡献

欢迎贡献!请先阅读我们的贡献指南再开始。

免责声明

[!CAUTION] 此库仅用于教育和研究目的。使用此库即表示您同意遵守当地及国际的数据抓取和隐私法律。作者和贡献者不对任何滥用本软件的行为负责。请始终遵守网站的服务条款robots.txt文件。

🎓 引用

如果您在研究中使用了我们的库,请使用以下参考文献引用我们:

  @misc{scrapling,
    author = {Karim Shoair},
    title = {Scrapling},
    year = {2024},
    url = {https://github.com/D4Vinci/Scrapling},
    note = {An adaptive Web Scraping framework that handles everything from a single request to a full-scale crawl!}
  }

许可证

本项目采用 BSD-3-Clause 许可证。

致谢

本项目包含改编自以下项目的代码:

  • Parsel(BSD 许可证)- 用于 translator 子模块

用 ❤️ 由 Karim Shoair 设计和制作。

在 GitHub 查看完整项目