【JUKD-240】熟露出2 AI厂商为数据发狂，果然王人开动“DDos”小网站了

@ 【JUKD-240】熟露出2 AI厂商为数据发狂，果然王人开动“DDos”小网站了

【JUKD-240】熟露出2 AI厂商为数据发狂，果然王人开动“DDos”小网站了

发布日期：2024-08-26 15:57 点击次数：171

“AI大模子行将遇到数据荒”这件事，从2023年开动就成为了AI开辟者对改日最大的担忧，致使有探究团队仍是给出了高质料语料数据将会在2026年销耗的瞻望。由此也使平直捏无数数据的互联网实质平台、新闻机构、出书商斯须发现【JUKD-240】熟露出2，在AI时间“卖铲子”这活不仅英伟达颖异，我方好像也能作念。

而AI厂商则很快发现，我方头上的大山除了英伟达，还要多出个数据供应商。尽管谷歌、OpenAI等实力浑朴的大厂不错选拔“银弹攻势”，一边找英伟达买算力卡，一边与Reddit等网罗社区及新闻媒体终了互助，但资金丰沛的大厂毕竟是少数，绝大多数初创企业、哪怕是AI独角兽王人缺钱。

AI大模子需要不时投喂数据来进行迭代，可AI厂商缺钱又仍是是浩瀚气候，如斯一来就有厂商选拔了用期间技能来“豪夺”数据。日前有音书浮现，AI独角兽Anthropic无视驰名维修网站iFixit的要求，使用爬虫ClaudeBot在24小时内豪恣捕快近百万次。

现代激情

以至于iFixit CEO Kyle Wiens径直在酬酢平台向Anthropic隔空喊话，“你果然有必要在24小时内捕快咱们的处事器100万次吗？你不仅在不付费的情况下获取咱们的实质，还占用了咱们的devops资源，小数王人不酷！”此外Kyle Wiens还进一步暗示，“若是你思要跟咱们谈谈实质许可和买卖用途的话，咱们就在这呢。”

看周到球驰名的消费电子家具维修网站，iFixit的市集竞争力就起头于网站上提供的险些任何类型、任何型号电子配置对应的免费维修手册、搞定决策，以及iFixit用户社区。这些电子家具的维修学问无疑便是iFixit的立身之本，因此iFixit方面也在其robots.txt文献中添加了一转特定于Anthropic爬虫的禁用领导。

随后Anthropic方面恢复称，他们尊重robots.txt契约，并在iFixit引申禁令后死守了有关法例。其实不单是是iFixit，全球范围最大的外包处事撮合平台Freelancer雷同亦然Anthropic的受害者，该公司CEO Matt Barrie也暗示，ClaudeBot是最激进的爬虫，Freelancer在四小时内收到了来自Anthropic爬虫的350万次捕快，远超其他AI爬虫的捕快量。

关于iFixit、Freelancer这种专注于细分赛说念的“隐形冠军”【JUKD-240】熟露出2，24小时内数百万次捕快苦求仍是算得上是一次小范围的散布式拒却处事膺惩（DDoS）了。对此，Anthropic方面暗示正在捕快此事件，以确保其爬虫行径对归并域名的捕快频率最小化，从而减少热闹。

那么问题就来了，Anthropic其实不缺钱，毕竟看成OpenAI的第一强敌，仅亚马逊一家就对其投资了40亿好意思元。Anthropic方面致使在本月初连合风险投资公司Menlo Ventures共同推出了一只1亿好意思元的基金Anthology Fund，为早期的AI初创公司提供复古。

没错，身为AI独角兽的Anthropic刚烈开动“扶携后辈”，玩起了大公司标配的策略投资。对此，似乎就只可用Anthropic的探究策略是“该省省，该花花”，能不花的钱就一定不花来评释了。

正因如斯，Anthropic的作念法才让iFixit、Freelancer的CEO“破防”。看成一家在业界颇有声望的AI独角兽，Anthropic的作念法毫无疑问是开了个坏头。要知说念反爬虫策略本人是不能能通盘根绝爬虫的，因为信息只须对外提供，就势必有被抓取的可能。在这一基础上的robots.txt，其实便是一个针对网罗爬虫的正人契约，也恰是谷歌、雅虎等大厂的带头死守，才有了夙昔二十年间互联网寰球的顺次。

目前明明Anthropic是有向实质平台购买数据的预算，却偏巧选拔用期间技能来“零元购”，岂不是就意味着其他囊中憨涩的AI初创企业也会有样学样。可偏巧当下是AI创业的繁华，作念AI的厂商不知凡几，若是民众王人效仿Anthropic这一玩法，高频次、大流量的捕快势必会让网站“压力山大”，仍是与DDoS网罗膺惩行径无异了。

濒临DDoS这种目前最简便、亦然最粗暴的网罗安全阻止行径，险些独一两个灵验阶梯不错搞定，即用更大的带宽资源来容纳超预期的网罗苦求，或是使用流量清洗来过滤掉无须流量。很缺憾的是，这两种策略王人未低廉，中小网站频频是买不起的。

AI厂商关于数据的需求永无尽头，可偏巧不肯意付钱，而一般的网站极端据、却结巴保护这一财富的技能。若是此次Anthropic只是是“有则改之”，连一个说念歉王人莫得的话，后续实质平台卖数据的生意就怕就要难作念了，互联网寰球可能会开动参加周礼崩溃后的春秋战国时间。

在AI厂商的爬虫高频次捕快下，中小网站别说卖数据，可能就连时常的运营王人会受到影响。若是思要让我方的网站免受爬虫惊扰，“自污”策略梗概很快就会提高。而所谓“自污”其实很简便，毕竟AI厂商的爬虫但愿得到数据来锻练AI，可假如数据本人不能用呢？

眷注AI大模子的一又友关于“AI投毒”这个词思必不会生分。就在不久前，《Nature》封面刊登了来自牛津大学、剑桥大学等机构的筹论说文，实质便是AI锻练AI会出现不能逆转的颓势，进而使得模子性能下落。这篇著作尽管在业界充满了争议，但其中给AI投喂低质料数据会导致模子劣化却收到了共鸣。

如今，数据投毒膺惩（Data Poisoning Attack）仍是是一个AI探究领域不能侧主义问题，只需要锻练集有不到1%的数据被混浊，大模子输出实质的准确率就会大幅下落。用谰言去考证谰言得到的一定是谰言，若是数据聚积的参数本人就有问题，得到的回答当然便是错漏百出。

思要得到高质料数据需要凝华东说念主类的聪慧，但思要废弃它可就简便多了。若是AI厂商不保持克制，一朝实质平台的运营者终了共鸣，用混浊自派系据的边幅来搞定这个问题，际遇数据荒的时候就怕就会近在目下。

#深度好文探究#【JUKD-240】熟露出2