AI 爬虫的兴起 • Vercel

本文由 Vercel 官方博客发布,探讨了 AI 爬虫(如 OpenAI 的 ChatGPT 和 Anthropic 的 Claude)正在迅速成为网络上的重要角色,其爬取行为和传统搜索引擎(如 Googlebot)有显著差异。尽管 AI 爬虫流量规模尚未达到 Googlebot 的水平,但它们在 JavaScript 渲染能力、内容优先级和爬取效率等方面表现出独特模式。随着 AI 驱动的网络体验不断发展,网站所有者需要优化内容以适应这些爬虫的特点,同时确保关键信息可被有效抓取。 1. AI 爬虫的规模与分布 流量规模:过去一个月,GPTBot 和 Claude 的总请求量接近 1.3 亿次,占 Googlebot 请求量的 28%。其中: GPTBot:5.69 亿次 Claude:3.7 亿次 AppleBot 和 PerplexityBot 分别为 3.14 亿次和 2440 万次。 地理分布:AI 爬虫主要集中在美国数据中心(如 ChatGPT 在爱荷华州和亚利桑那州,Claude 在俄亥俄州),而 Googlebot 的爬取分布更广泛。 2. JavaScript 渲染能力 AI 爬虫的局限性:包括 ChatGPT、Claude、Meta 和 Perplexity 在内的主要 AI 爬虫均无法执行 JavaScript,只能抓取静态 HTML 和初始 HTML 响应中的内容。 对比 Googlebot:Googlebot 和 AppleBot 可完整渲染 JavaScript,处理现代 Web 应用的动态内容。 抓取行为:尽管 ChatGPT 和 Claude 会抓取 JavaScript 文件(分别占请求的 11....

December 19, 2024 · 3 min · fisherdaddy