维基媒体基金会对 AI 爬虫的带宽负担发出警告

带宽压力的增加

近年来,随着人工智能技术的飞速发展,网络爬虫对维基媒体项目造成的带宽压力日益严重。维基媒体基金会的代表指出,自2024年1月以来,用于服务多媒体文件的带宽消耗增加了50%。这一增长主要来源于自动化程序,这些程序不断从维基媒体的开放许可图像库中抓取内容,以供AI 模型进行训练

维基百科

爬虫的压力与基础设施的挑战

维基媒体基金会的工作人员Birgit Mueller、Chris Danis 和 Giuseppe Lavagetto在公开信中表示,这一带宽增加并非源于人类用户,而是由于机器人程序的强大需求。他们强调:“我们的基础设施旨在承受人类用户在高兴趣事件期间的突发流量,但爬虫产生的流量却是前所未有的,给我们带来了越来越大的风险和成本。”

流量来源的统计

根据维基媒体的统计,约65% 的高成本内容流量是由这些爬虫生成的,尽管爬虫只占页面浏览量的 35%。这是因为维基媒体的缓存方案将热门内容分发到全球各地的数据中心以提高性能,而爬虫在访问页面时并不考虑内容的受欢迎程度,因此会请求不那么受欢迎的内容,这使得内容必须从核心数据中心获取,消耗了更多的计算资源。

跨项目的关注

在过去的一年中,关于网络爬虫的过度抓取问题已经引起了多个开源项目的关注。例如,Git 托管服务 Sourcehut、Diaspora 开发者 Dennis Schubert、修理网站 iFixit 和 ReadTheDocs 等均对此表示不满。他们都反映了AI 爬虫在内容抓取中表现出的过度需求

未来规划与优先事项

维基媒体基金会在其2025/2026年的年度规划中提出了“减少爬虫生成的流量”的目标,计划减少20% 的请求率和30% 的带宽使用。他们希望能够优先考虑人类用户的使用体验,并支持维基媒体项目和贡献者。

挑战与潜在威胁

虽然许多网站认识到为爬虫提供带宽是商业的一部分,但随着像 ChatGPT 这样的生成 AI 的普及,爬虫的抓取行为变得愈发激进,甚至可能对源网站的存在构成威胁。维基媒体基金会承认,虽然 Wikipedia 和 Wikimedia Commons 对机器学习模型的训练非常重要,但他们必须优先考虑人类用户的需求。

应对措施与工具

为应对这一挑战,已经出现了一些工具来对抗爬虫的过度抓取行为,例如数据中毒项目Glaze、Nightshade 和 ArtShield,以及网络工具Kudurru、Nepenthes等。然而,现有的机器人协议(robots.txt)并不能完全有效地限制这些爬虫的行为,尤其是它们可能会伪装成其他爬虫以规避封锁。

划重点:

  • 🌐 爬虫对维基媒体带宽的消耗增加50%,主要来自于 AI 模型的内容抓取。
  • 🤖 约65% 的高成本内容流量由爬虫生成,虽然爬虫只占页面浏览量的35%
  • 📉 维基媒体基金会计划在2025/2026年减少爬虫生成的流量,优先考虑人类用户的需求。

​维基媒体基金会对 AI 爬虫的带宽负担发出警告

YiAI团队

YiAI团队

AI大模型技术专家团队

YiAI团队是一支专注于AI大模型应用的技术团队,由来自国内外知名科技公司的AI专家组成。 我们致力于为企业和开发者提供高质量、低成本的AI大模型API服务,涵盖文本生成、对话交互、 内容理解、知识问答等多个领域。团队拥有丰富的大规模语言模型开发和应用经验,深入理解 企业在AI落地过程中的实际需求和技术痛点。