OpenAI爬虫狂吸数据，致小公司网站宕机，CEO无奈：谁为我们的损失买单？-天脉网

近日，一起由AI巨头OpenAI引发的网络爬虫事件引起了广泛关注。事件的主角是一家仅有7人团队的初创公司Triplegangers，他们的网站在无明显预警的情况下突然宕机，迫使CEO和团队成员紧急排查问题原因。

经过深入调查，Triplegangers的CEO发现，导致网站宕机的“罪魁祸首”竟是OpenAI的GPTBot。这款工具被OpenAI早年推出，用于自动抓取互联网上的数据。GPTBot对Triplegangers网站的“攻势”异常猛烈，据CEO描述，OpenAI发送了数以万计的服务器请求，试图下载网站上的所有内容，包括数十万张照片及其详细描述。

Triplegangers服务器日志：OpenAI机器人未经许可疯狂爬虫

Triplegangers的网站包含从实际人类模型扫描的3D图像文件，这些照片带有详细的标签，涵盖种族、年龄、纹身与疤痕、各种体型等信息，对于3D艺术家、游戏制作者等群体具有重要价值。CEO无奈表示，OpenAI的爬虫行为基本上构成了一场DDoS攻击，不仅导致网站宕机，还大幅增加了云计算服务（AWS）的资源消耗和开销。

这起事件引发了网友们的广泛讨论。有人认为GPTBot的爬虫行为并非简单的数据抓取，更像是“偷窃”的委婉说法。有网友甚至现身说法，表示在阻止了大公司的批量AI爬虫后，节省了一大笔费用。

Triplegangers网站上的3D图像文件示例

那么，OpenAI为何会爬虫这家初创企业的数据呢？原因很简单，Triplegangers的数据属于高质量数据。Triplegangers的7名成员花费了十多年的时间，打造了号称最大的“人类数字孪生”数据库。然而，尽管Triplegangers网站上明确禁止未经许可的AI抓取，但显然并未起到任何作用。

问题的关键在于，Triplegangers没有正确配置Robot.txt文件。Robot.txt是网站用来告诉搜索引擎在索引网络时不要爬取哪些内容而创建的文件。如果网站不想被OpenAI爬虫，就必须正确配置Robot.txt文件，并带有特定标签，明确告诉GPTBot不要访问该网站。然而，即便立即正确设置了Robot.txt文件，也不会立即生效。

Triplegangers的CEO对此表示担忧，他认为如果一个网站没有正确配置Robot.txt文件，那么OpenAI和其他公司会认为他们可以随心所欲地抓取内容。这不是一个可选的系统，而是必须主动、积极地去配置和管理的。正因如此，Triplegangers在工作时间段网站被搞宕机，还搭上了高额的AWS费用。

为了防止类似事件再次发生，Triplegangers已经按照要求配置了正确的Robot.txt文件，并设置了Cloudflare账户来阻止其他AI爬虫。然而，CEO还有一个悬而未决的困惑，他不知道OpenAI都从网站中爬了些什么数据，也联系不上OpenAI。他担忧地表示，如果不是GPTBot“贪婪”到让网站宕机，他们可能还不知道它一直在爬取数据。

Game UI Database网站因OpenAI爬虫导致瘫痪的示例

事实上，Triplegangers并不是第一个因OpenAI疯狂爬虫导致宕机的公司。在此之前，还有Game UI Database等公司也遭遇了类似事件。这些事件都表明，AI公司在数据抓取方面的行为越来越疯狂，给小型网站带来了巨大的压力和风险。

AI公司之所以如此疯狂地“吸食”网络上的数据，主要是因为他们太缺用来训练的高质量数据了。随着AI技术的不断发展，对训练数据的需求也越来越大。然而，高质量的数据并不容易获取，因此AI公司不得不加快数据收集的速度。

AI训练数据价格示例

这起事件再次引发了人们对AI公司数据抓取行为的关注和讨论。如何平衡AI公司的数据需求和网站所有者的权益？如何确保AI公司在数据抓取过程中遵守法律法规和道德规范？这些问题都需要我们深入思考和探讨。

作为“控股型”投资项目的成功范例，达利凯普（301566.SZ）却在上市仅一年多，便出现了董事长正常履职期间被控股股东及实控人提请罢免的情形。对此，刘溪笔在反对理由中表示，其在履职达利凯普董事长期间勤勉尽…

美锦能源2024年三季报显示，公司2024年前三季度营业收入为143.70亿元，同比下降3.15%；归母净利润为-6.55亿元，同比下降261.26%；扣非归母净利润为-6.74亿元，同比下降276.93%…

公告显示，在恒生银行董事会任职近11年后，利蕴莲将于2025年5月举行的股东周年常会（股东会）结束后退任，不再出任独立非执行董事及董事长职务，同时不再出任提名委员会主席，以及审核委员会、风险委员会及薪酬委员…

先说任正非，他治下的华为一贯高度重视研发，有媒体统计，近10年来，华为累计研发投入8450亿元，每年在基础研究上的投入超过200亿元。其实，不光企业家和创业者群体对任正非赞不绝口，华为内部员工也对这位大家长…

高杰表示，此次“董明珠健康家”的全新发布，将是一场格力从产品到服务、从空间到体验的品牌革命，也是格力对亿万家庭的美好承诺。在2024年3月2日央视财经《对话》节目中，董明珠回应称：“玫瑰空调”的设计，实际上…

开源大模型已经成为AI行业的一股潮流，Meta的Llama、Mistral的开源大模型在全球范围内掀起热潮，吸引了大量开发者和企业用户。李彦宏此前在迪拜AI峰会上表示，当前大模型的推理成本每年可降低90%以…

2024年5月，珞珈投资也曾因与MCN机构的业务合作中，合规管理存在缺陷等违规行为而被责令整改。据南都湾财社此前报道，2024年，我国第三方投顾机构共收到各类罚单73张，其中56张由地方证监局开出，有近七成…

在各行各业的新任董事长们纷纷上任，为企业注入新鲜血液并引领战略调整的同时，一些传统行业的老字号企业也迎来了关键的人事更迭。这一系列人事调整无疑为公司带来了新的挑战，同时也激发了市场对于恒顺醋业未来战略走向的…

在刚刚结束的发布会上，这个被称为“地球上最聪明的人工智能”的家伙可谓是大放异彩，不仅在各项基准测试中遥遥领先于ChatGPT，还展示了生成复杂动画和游戏的能力。值得一提的是，Grok 3虽然在基准测试中表现…

在这一点上，百度似乎走在了前面。李彦宏在财报电话会上提到，文心大模型4.5系列是百度“有史以来最出色的模型”，他对开源决策充满信心，尽管他此前对开源模型持否定态度。这说明，李彦宏对开源模型的能力有了新的认知，…

3、企业品牌个人化是一步险棋格力和传统家电巨头美的和海尔的差距越来越大，家电新秀小米也在奋起直追，格力的压力可想而知，董明珠的焦虑可想而知，面对这种情况，是需要做出改变的，甚至是要做出变革的，此时你们或许就…

他呼吁更多企业积极拥抱AI科技，在各自企业管理中，将客户画像、岗位职责、企业战略规划等方面用AI+将变革真正落到实处，共同推动商业领域的创新发展。潍坊竹贤贸易有限公司总经理姜丽娜因为爱喝茶、爱交友，将办公室…

近日，网上流传一则公告称，江苏中农集团实控人董事长陈井辉失联，导致公司经营和管理权限出现问题，暂时不能对中农易购的经销商进行兑付和发货。 2月19日，江苏中农集团客服回应新黄河称，上述公告情况属实，陈井辉目前…

2月18日，上海联合产权交易所网站更新了两则产权交易信息，中粮集团有限公司、中粮生物科技股份有限公司所持有的共7841.70万股徽商银行股份被分别摆上转让货架，上述两个项目的转让底价合计为2.43亿元，上述…

瑞财经王敏近日，江苏银行(SH600919)发布2024年度业绩快报公告。 2024年，江苏银行实现营业收入808.15亿元，同比增长8.78%；归属于上市公司股东的净利润318.43亿元，同比增长10.…