OpenAI 推出网络爬虫 GPTBot,但用户可以选择禁止被爬
作者 | 虞景霖
编辑 | 邓咏仪
AI 模型的升级依靠海量的公开数据,而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。
(资料图)
8 月 8 日,OpenAI 推出了一款名为 GPTBot 的网络爬虫机器人,用于收集训练 AI 模型所需的数据信息。传闻 OpenAI 将利用这些数据升级 GPT-4 和其他大语言模型(如可能即将推出的 GPT-5 和开源的 G3PO)。
根据 OpenAI 介绍,GPTBot 和其他所有网络爬虫一样,从互联网上搜集能够用于训练 AI 模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外,网站所有者还可以选择限制或者禁止 GPTBot 爬取网页数据。
如何识别 GPTBot?
来源:OpenAI如何禁止 GPTBot 访问?
将 GPTBot 添加到网站的 robots.txt:
如何限制 GPTBot 访问,使其只爬取网站的一部分数据?将下列命令添加至网站的 robots.txt:
此外,根据 OpenAI 发布的有关 GPTBot 的文档,还列出了GPTBot 使用的 IP 范围(目前只列出了一个,之后将继续添加)。数据的爬取是 AI 模型训练不可或缺的一环,而由此所带来的伦理和法律和法律问题也一直是公众关注的焦点。不少国家和地区出台了相应法案,Reddit 和 X(前 Twitter)等网站也采取了相应措施打击 AI 公司爬取用户数据的行为。喜剧演员兼作家 Sarah Silverman 曾在美国法院起诉 OpenAI 的侵权行为,原因是 ChatGPT 会总结她的书籍,这一行为构成了侵权。
GPTBot 是对围绕版权、公开信息合理使用的一次尝试,使数据收集尽可能在监管范围之内。
尽管网络爬虫网站信息引发了部分网站所有者、版权所有者的反对,但也有支持的声音。
网站信息和 ChatGPT 等大语言模型可以是相辅相成、互相促进的,但并不绝对。网络爬虫在获取网站信息的时候能够改善网站的流量,网页数据信息能够帮助大语言模型生成更加可靠完善的回答。但网络爬虫所爬取的数据并不一定是信息的源链接,因此无法为网站带去流量。
尽管如此,正如 Perplexity 和其他大语言模型展示的那样,生成式人工智能机器人的回答还可能包括链接和引用,在未来也有可能成为 ChatGPT 的特性之一。因此,网站内容发布者也可能希望网站信息被用于 AI 模型,以换取可能的流量。
关键词:
相关阅读
-
OpenAI 推出网络爬虫 GPTBot,但用户...
作者|虞景霖编辑|邓咏仪AI模型的升级依靠海量的公开数据,而科技公司大 -
没有名字的五年等待,值得么?
《封神第一部》上映以来持续爆火,各位主演也都名气大涨。在路演期间, -
医院太平间6小时收费近6000元 家属:不...
医院太平间6小时收费近6000元家属:不给不让走,原标题:医院太平间6小 -
多家车企官宣降价,下半年车市“价格战...
2023年上半年汽车行业在洗牌中加速“内卷”,取得了前6个月累计销量... -
南红玉石值钱吗
南红玉石是一种名贵的玉石品种,因其色泽鲜艳,纹理独特,被认为是玉石 -
缅甸紫罗兰玉貔貅
缅甸紫罗兰玉貔貅是指一种产自缅甸的紫罗兰玉石制成的貔貅形状的摆件或 -
按份责任是什么意思?
一、按份责任是什么意思按份责任的意思是根据各侵权行为人的过错和原因 -
认定工伤可以撤销吗
一、认定工伤可以撤销吗认定工伤可以撤销。申请工伤认定材料不齐全,劳 -
“公积金可救急”应纳入顶层设计
原标题:“公积金可救急”应纳入顶层设计据北京住房公积金管理中心... -
【视频】大学生的全能搭子,华为平板教...
课堂记录、错题整理、追剧游戏、绘画手账,平板电脑已经成为很多学生离 -
和田玉墨玉谁喜欢收藏
和田玉和墨玉都是中国传统的艺术品,不同的人喜欢收藏不同的东西,因此 -
理想L9再上新了!还是熟悉的味道,大联...
8月3日,备受期待的理想L9(图片|配置|询价)正式发布,理想汽车深耕于新 -
华为与奇瑞合作的品牌或命名“智界” ...
我们从相关渠道获悉,华为将与奇瑞合作成立一个新的汽车品牌,该品牌或 -
定位A+级配置真不低!新款长安逸达上市...
8月8日,长安逸达(图片|配置|询价)的畅享版正式上市,8 39万,比之前的 -
“大家都献出爱心,困难就不叫困难!”...
河北涿州洪水灾情中有这样暖心的一幕:河北涿州市西茨村是这次洪水冲 -
前往泰达足球场观赛 市民?可乘坐定制专线
记者从市公交集团了解到,明日泰达足球场将有球赛举行。为方便球迷前往 -
红玉石的鉴别方法
红玉石的鉴别方法可以从以下几个方面进行:1 颜色:红玉石的颜色呈现出 -
河西交警社区普法 找准特点孩子受益
近日,交警河西支队东风里大队深入纯正里社区和西园西里社区,为未成年 -
深圳市上半年城镇新增就业人数超9.5万人
今年1-6月,深圳全市城镇新增就业人数超9 5万人,完成全年目标任务52 8 -
魅力倍增探秘丝兰植物真菌护理新技巧
排水不良的土壤中的丝兰植物容易腐烂。丝兰植物(Yuccaspp )在充足的