如何避免自己的网站被OpenAI“白嫖”?
OpenAI于最近宣布了GPTBot(他们的爬虫)的一些技术细节,其中就给出了相当重要的一点——如何禁止OpenAI的爬虫爬去我们的网站用于给他们的模型“添砖加瓦”?
概述
此部分参考自OpenAI文档
什么是GPTBot?
GPTBot is OpenAI’s web crawler and can be identified by the following user agent and string.(GPTBot是OpenAI的网络爬虫,可以通过以下用户代理和字符串来识别。)
GPTBot的用途?
Web pages crawled with the GPTBot user agent may potentially be used to improve future models and are filtered to remove sources that require paywall access, are known to gather personally identifiable information (PII), or have text that violates our policies. Allowing GPTBot to access your site can help AI models become more accurate and improve their general capabilities and safety.
译:使用 GPTBot 用户代理抓取的网页可能会用于改进未来的模型,并经过过滤以删除需要付费专区访问、已知会收集个人身份信息 (PII) 或包含违反我们政策的文本的来源。允许 GPTBot 访问您的站点可以帮助 AI 模型变得更加准确并提高其总体功能和安全性。
如何禁止
robots.txt
OpenAI官方表示GPTBot“会遵守”网站的robots.txt
规则,会据此判断哪些内容是被允许抓取的。
首先是最基础的,禁止GPTBot爬取网站上的任何内容,在robots.txt
中添加如下内容即可:
这一段的意思是,对于UA(User Agent
)为GPTBot的爬虫,不允许爬取整个网站根目录下的内容(及其子目录)。
当然,如果你只是希望GPTBot抓去部分/不抓去部分内容,那么你可以添加类似于下方格式的内容:
Allow
后跟允许的目录,Disallow
后跟不允许的目录,其中Allow
的优先级更高,也就是说当Allow
的目录是Disallow
目录的子目录时,会被允许访问。
了解更多,请参阅Wikipedia
屏蔽IP段
这个方法简单直接,哪怕OpenAI的爬虫不遵守robots.txt
协议也能治,当然,前提是OpenAI提供的这些IP段是真实的、全部的......
对于使用Cali的这个博客架构的同学,请前往你的Vercel项目后台-Storage
标签-编辑先前创建的Edge Config
。在blocked_ips
添加对应的IP段。对于本站,修改后的内容如下:
IP段请参考OpenAI官方列表
结尾
OpenAI乐意让网站所有者拥有一个选择权,这无疑是一件好事,尽管他们可能不会照做,但至少让人心安。
不过,模型早就已经训练好了,现在提这个还有什么用呢?与Google相比,至少Google爬取后是链接到你的网站,但GPT模型用了你的内容之后根本不会进行说明。