
人工智能伦理的最大威胁并非技术本身,而是平台未经用户同意便擅自决定如何处理用户的内容。虽然对人工智能抓取行为的担忧不无道理,但真正的数字伦理意味着拥有自主权,可以通过 robots.txt 等技术控制、透明的使用声明以及基础设施独立性来制定自己的人工智能政策。无论选择完全开放还是彻底退出,重要的是基于自身的价值观和目标,主动做出选择。
如果你注意到自己喜欢的插画师突然从 Instagram 上消失了,或者某个家长朋友悄悄地从 Facebook 上删除了所有孩子的照片,那并非你的错觉。近年来,人们出于对生成式人工智能的担忧,纷纷从网络上删除内容。
这可能表现为多种形式:艺术家在发现人工智能模型能够模仿他们的风格创作画作后,将作品集下线;父母担心孩子的脸部照片会被用于深度伪造,于是删除了家庭照片;企业则完全阻止人工智能爬虫访问其网站。
即时作为站长,我们也应该主动屏蔽部分或全部 AI 网络爬虫。如果它们对你的网站毫无意义的话。
换句话说,人们对 AI 工具如何访问、理解和处理我们发布到网上的内容确实存在切实的担忧。
这些担忧并非新鲜事。
互联网在同意、隐私和所有权方面一直存在诸多问题。如今的变化在于,AI 迫使所有人——包括内容创作者、家庭和小企业主——最终不得不面对这样一个现实:他们对发布到网上的内容几乎没有任何控制权。
我们始终坚信,当内容创作者能够掌控他们分享的内容及其使用方式时,开放的网络才能蓬勃发展。当网络的所有权掌握在创建者手中,而不仅仅是那些从中获利的平台手中时,网络才能发挥最佳效用。
而这正是问题的核心所在。真正的问题不在于人工智能能做什么,而在于谁来做决定。
真正的AI伦理问题不在于技术本身,而在于选择的丧失
AI并非罪魁祸首。真正的威胁在于“平台家长式作风”,即公司代表所有人做出“合乎伦理”的选择。例如,2024年,几家大型内容分发网络(CDN)和网络提供商开始默认屏蔽 AI 爬虫,声称其目的是为了“保护创作者”。结果是,数百万网站所有者一觉醒来发现,关于他们内容的决定早已被他人替他们做出。
这就像房东为了你的安全锁上了门,却不给你钥匙一样。原本的便利很快就变成了自主权的丧失。当守门人决定“保护”的含义时,个人的自主权就会萎缩。
开放网络建立在无需许可的创新之上,这意味着任何人都可以创建、分享和迭代,而无需获得批准。而决定哪些机器人或工具可以访问内容的中间机构,可能会让这种自由倒退数十年。
这就是众多服务器提供商倡导基础设施独立的原因:当您托管自己的内容时,没有人可以篡改您的规则。拥有自己的技术栈意味着拥有自己的策略,无论您是欢迎 AI 爬虫还是完全禁止它们。伦理并非源于代码,而是源于选择。

“AI需要您的数据”及其他误区
那么,是什么阻碍了创作者重新掌控局面呢?通常是错误信息,例如围绕 AI 的这些普遍存在的误区。这些误区之所以流行,是因为 AI 的应用已在互联网和我们日常使用的工具中广泛普及。
误区一:“AI需要您的数据才能发展”
没有人有义务将自己的作品交给营利性 AI 公司。许可和基于同意的模式是存在的;例如,Adobe Firefly 会使用获得许可的内容和无版权的公共领域作品进行训练。AI 的未来不必依赖于窃取,而可以依赖于同意。
误区二:“选择退出,就会消失”
选择退出可能会限制你在人工智能生成的摘要或搜索结果中的出现,但不会将你从网络上抹去。这就像2005年选择退出谷歌一样。你会失去的是覆盖范围,而不是相关性,尤其是在你的受众仍然会直接搜索你的情况下。
虽然对于那些依赖覆盖范围来拓展受众或客户群的人来说,选择退出可能并不实际(尽管我们仍然缺乏关于自然流量实际来自 GEO 的可靠数据),但对于某些内容创作者而言,曝光度并不值得被强制使用。关键在于,他们拥有选择权。
误区三:“人工智能抓取是互联网的运作方式”
用于发现的索引和用于训练的抓取是两回事。

索引能将用户引流到您的网站。训练则用统计数据取代您。美联社和 Axel Springer 等出版商通过授权其内容用于模型训练,并给予署名和补偿,证明了存在一种折衷方案。
即使是出于好意,也可能适得其反。归根结底,平衡的伦理需要知情同意。
选择退出还是保持开放:真正的权衡
每一种人工智能立场——从完全开放到完全退出——都伴随着实际的机会成本。您的立场取决于您最看重的是什么,从可见性到控制权,从可持续性到自主性。
数据显示,目前约 71.5% 的网络流量来自机器人,而非人类。这意味着访问您网站的大部分请求都是自动化的:有些是有益的(例如搜索索引或正常运行时间监控),有些则不然。管理您允许哪些爬虫程序访问以及阻止哪些爬虫程序访问,正是践行伦理可持续性的体现。
以下是创作者在人工智能访问和训练方面采取的四种常见方法,以及每种方法如何影响不同的开放网络因素,以便您在确定立场之前可以直观地了解权衡取舍。
| 类别 | 完全开放(Fully Open) | 选择性授权(Selective Licensing) | 屏蔽AI训练(Block AI Training) | 完全退出AI(Fully Opted Out of AI) |
|---|---|---|---|---|
| 可见度与覆盖范围 | 最高;AI 摘要和搜索引擎可在各处展示你的内容。 | 中等;曝光仅限于获得授权的合作伙伴。 | 低;被排除在 AI 结果之外,但仍会出现在传统搜索中。 | 无;被许多 AI 与发现型爬虫屏蔽。 |
| 控制权与内容许可 | 最低;平台替你做决定。 | 高;由明确的授权条款管理。 | 强;你可通过 robots.txt 与 HTTP header 定义权限。 | 绝对;禁止一切自动化访问。 |
| 署名与引用 | 低;大多数 AI 模型不会引用来源。 | 高;合约中包含版权署名与分成。 | 中等;遵规的爬虫可能仍会给出引用。 | 无;内容不会被引用。 |
| 环境影响 | 中等;为广泛模型训练与索引提供数据。 | 中等;受限的授权使用减少重复训练。 | 中低;更少的重型爬虫,更精准的流量。 | 低;外部请求与数据传输最少。 |
| 被滥用或抄袭风险 | 高;内容风格或文本可能被随意复制。 | 中等;可通过许可条款寻求法律追责。 | 低;遵规爬虫会被阻挡,但仍可能遭遇违规爬虫。 | 很低;可被抓取的表面范围最小。 |
每条路都有其价值。营销人员和小企业主通常依靠曝光度来拓展受众,而插画师、记者和教育工作者则可能将所有权和用户同意放在首位。互联网的繁荣离不开多样性,而符合伦理的人工智能参与也应体现这种目标的多样性。
没有放之四海而皆准的正确答案:只有符合自身原则和线上谋生方式的权衡取舍。正确的立场并非一成不变,但你应该有意识地形成自己的立场,并用行动来支持它。无论你选择哪条路,都要深思熟虑。
如何确定你的人工智能立场
伦理只有在实践中才有意义。以下是如何将理论转化为行动,并定义人工智能如何与你的工作互动。
第一步:明确你的目标
首先,对你而言最重要的因素进行排序:曝光度、收入、可持续性、控制权。
追求广泛覆盖面的小企业或许可以容忍更广泛的人工智能应用,而注重原创性的插画师则可能不允许。不同的目标意味着不同的界限。

第二步:审核您的数字足迹
列出您的内容存储位置:WordPress 网站、GitHub 代码库、社交媒体、云存储。各个平台都有各自的人工智能策略,因此,选择独立托管可以让您自由地为每个网站设置规则,而不是接受平台默认的通用规则(无需您干预)。
第三步:应用技术控制
使用 robots.txt 文件来指示人工智能机器人如何运行:
User-agent: GPTBot Disallow: / User-agent:Google-Extended Disallow: /
添加标头(例如 X-Robots-Tag: noai、noimageai)以进一步明确。请记住,遵守这些规则是自愿的。这些标签表明您的意愿,但并不强制执行。
第四步:发布透明的AI政策
创建一个简单的页面,阐明您的立场。例如:
“AI系统不得使用此内容进行训练或复制。”
透明度有助于建立客户信任,并为未来的使用设定清晰的界限。
第五步:监控和调整
使用服务器日志或分析工具跟踪您的机器人组合。每季度进行审查,并随着新爬虫的出现更新您的规则。
唯一重要的AI伦理是您自身的伦理
AI 没有伦理——但人有。重要的不是您是否屏蔽了所有爬虫或接受了所有工具;而是您是否出于自觉做出了这些选择。
互联网建立在无需许可即可自由分享、混编、实验和构建的基础上。真正的数字伦理保护着同样的自主精神。
您已经从恐惧走向掌控,从不确定走向拥有。我们相信,拥有您的数字形象不仅是明智的商业策略,更是您在算法主导的世界中坚守伦理的方式。
如果你选择拥有它,开放的网络就永远属于你。


评论留言