OpenAI推出网络爬虫GPTBot 信息被“爬走”意味着什么?

2023-08-17 09:05:16


(资料图)

近日,OpenAI推出GPTBot,这是一种网络爬虫,能够自动从整个互联网收集数据。这些数据将被用于训练和优化GPT-4和未来的GPT-5大模型。信息被“爬走”意味着什么?信息安全和隐私如何保护?

简单来讲,如果网站内容被GPTBot抓取成为人工智能训练数据,意味着信息可能会被永久保存,无法修改或删除,引发隐私泄露、版权纠纷、网站性能等方面的问题。

如果GPTBot爬取的数据包含私人信息,比如个人身份信息、银行账户等,那么这些信息可能被泄露给未经授权的第三方。如果受版权保护的数据,例如文章、图片等被爬取,那么这些材料可能被用于人工智能模型训练,引发版权纠纷。例如近日备受关注的“Stable Diffusion案”,一些艺术家发现自己的作品被用于人工智能模型训练,抄袭拼贴成的“新”图像对原创作品交易市场带来不良影响。

此外,如果GPTBot对某个网站进行过度爬取,可能引发该网站服务器过载,导致网站运行缓慢或崩溃,影响用户体验。

虽然OpenAI称GPTBot旨在帮助AI模型提升其反馈精度,且涉及个人敏感信息或付费内容不会被爬取,但是部分企业已采取行动,限制其内容被自动访问。例如,数字广告公司Clearbit已经禁止GPTBot访问其网站和API,以保护其客户数据的安全和隐私。银行和金融科技公司Fidelity Investments也已限制GPTBot和其他爬虫程序对其网站的访问,以保护客户的敏感信息和交易数据。

今年以来,各式生成式人工智能应用涌现,为人们带来了惊喜,但确保人工智能技术快速发展的同时,也需要加强对技术的监管,充分保护信息安全和隐私。 

关闭
精彩放送