過(guò)河拆橋?為防“爬蟲”爬取數(shù)據(jù)訓(xùn)練AI,百度百科屏蔽了谷歌等友商
拖把 / 2024-08-22 13:4679110近日有報(bào)道稱,為了防止未經(jīng)允許的“爬蟲”爬取數(shù)據(jù)用于訓(xùn)練AI,百度百科已經(jīng)屏蔽了谷歌、必應(yīng)等大多數(shù)搜索引擎。百度啊百度,你也學(xué)會(huì)過(guò)河拆橋了?

有網(wǎng)友扒出了百度百科的robots.txt文件,發(fā)現(xiàn)允許放行的白名單中,只有百度搜索、搜狗搜索、中國(guó)搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)幾個(gè)搜索引擎,而谷歌、必應(yīng)、微軟MSN、UC的Yisouspider以及其他搜索引擎的爬蟲已被列入了禁止名單。

眾所周知,搜索引擎的工作原理,就是依靠“爬蟲”到不同的網(wǎng)站上爬取數(shù)據(jù),然后展示在自己的搜索結(jié)果中。
百度曾經(jīng)能搜到很多內(nèi)容,但百度的“爬蟲”過(guò)于高頻地訪問(wèn)網(wǎng)站爬取數(shù)據(jù),會(huì)對(duì)網(wǎng)站的服務(wù)器產(chǎn)生巨大壓力,影響到了正常運(yùn)轉(zhuǎn),會(huì)主動(dòng)選擇禁止百度爬取數(shù)據(jù)。此外,一些網(wǎng)站為了占據(jù)用戶心智、避免影響廣告收入等原因,也會(huì)主動(dòng)選擇屏蔽百度的爬蟲,這就導(dǎo)致百度越來(lái)越難搜到想要東西了。

近幾年,AI大模型的快速發(fā)展,需要不少用戶真實(shí)數(shù)據(jù)進(jìn)行支撐,而包含百度用戶自發(fā)編輯的百科內(nèi)容,絕對(duì)是一個(gè)不小的數(shù)據(jù)訓(xùn)練寶庫(kù),“人均碩博學(xué)歷、頻繁剛下飛機(jī)”的知乎也是同理。但據(jù)爆料,知乎已經(jīng)先百度一步禁止了其他搜索引擎的爬蟲,把白名單中的谷歌和必應(yīng)踢掉,只留下了百度和搜狗。
曾經(jīng),百度起家靠的就是爬遍全網(wǎng)的“爬蟲”們,把自己爬到了“國(guó)服第一”的位置。但現(xiàn)在,想在文心一言上發(fā)力的百度卻反手禁了其他友商的爬蟲,把車門給焊死了,誰(shuí)都別想上來(lái)。
對(duì)此,我們也只能感嘆到,互聯(lián)網(wǎng)越來(lái)越不互聯(lián)了。
過(guò)河拆橋?為防“爬蟲”爬取數(shù)據(jù)訓(xùn)練AI,百度百科屏蔽了谷歌等友商














滬公網(wǎng)安備 31010702005758號(hào)
發(fā)表評(píng)論注冊(cè)|登錄