過(guò)河拆橋？為防“爬蟲”爬取數(shù)據(jù)訓(xùn)練AI，百度百科屏蔽了谷歌等友商

拖把 / 2024-08-22 13:4679110

近日有報(bào)道稱，為了防止未經(jīng)允許的“爬蟲”爬取數(shù)據(jù)用于訓(xùn)練AI，百度百科已經(jīng)屏蔽了谷歌、必應(yīng)等大多數(shù)搜索引擎。百度啊百度，你也學(xué)會(huì)過(guò)河拆橋了？

有網(wǎng)友扒出了百度百科的robots.txt文件，發(fā)現(xiàn)允許放行的白名單中，只有百度搜索、搜狗搜索、中國(guó)搜索（Chinaso）、YYSpider和宜搜搜索（EasouSpider）幾個(gè)搜索引擎，而谷歌、必應(yīng)、微軟MSN、UC的Yisouspider以及其他搜索引擎的爬蟲已被列入了禁止名單。

眾所周知，搜索引擎的工作原理，就是依靠“爬蟲”到不同的網(wǎng)站上爬取數(shù)據(jù)，然后展示在自己的搜索結(jié)果中。

百度曾經(jīng)能搜到很多內(nèi)容，但百度的“爬蟲”過(guò)于高頻地訪問(wèn)網(wǎng)站爬取數(shù)據(jù)，會(huì)對(duì)網(wǎng)站的服務(wù)器產(chǎn)生巨大壓力，影響到了正常運(yùn)轉(zhuǎn)，會(huì)主動(dòng)選擇禁止百度爬取數(shù)據(jù)。此外，一些網(wǎng)站為了占據(jù)用戶心智、避免影響廣告收入等原因，也會(huì)主動(dòng)選擇屏蔽百度的爬蟲，這就導(dǎo)致百度越來(lái)越難搜到想要東西了。

近幾年，AI大模型的快速發(fā)展，需要不少用戶真實(shí)數(shù)據(jù)進(jìn)行支撐，而包含百度用戶自發(fā)編輯的百科內(nèi)容，絕對(duì)是一個(gè)不小的數(shù)據(jù)訓(xùn)練寶庫(kù)，“人均碩博學(xué)歷、頻繁剛下飛機(jī)”的知乎也是同理。但據(jù)爆料，知乎已經(jīng)先百度一步禁止了其他搜索引擎的爬蟲，把白名單中的谷歌和必應(yīng)踢掉，只留下了百度和搜狗。

曾經(jīng)，百度起家靠的就是爬遍全網(wǎng)的“爬蟲”們，把自己爬到了“國(guó)服第一”的位置。但現(xiàn)在，想在文心一言上發(fā)力的百度卻反手禁了其他友商的爬蟲，把車門給焊死了，誰(shuí)都別想上來(lái)。

對(duì)此，我們也只能感嘆到，互聯(lián)網(wǎng)越來(lái)越不互聯(lián)了。

點(diǎn)個(gè)贊1751