根據 Cloudflare的新報告。具體而言,該報告聲稱,該公司的機器人似乎是一個“隱形爬行”的位置,可以掩蓋其身份以獲取機器人文件和牆壁。
Robots.txt是一個簡單的中央文件網頁,允許Web檢測器知道他們是否可以刮擦網站的內容。困惑的僱員 機器人爬網 它是“ PerplexityBot”和“困惑性使用”。在CloudFlare測試中,即使這些特定的機器人被robots.txt阻止了這些特定的機器人,尷尬仍然能夠顯示一個新的,不右站的網站的內容。行為擴展到網站保護牆規則,該規則也限制了Web探測器。
Cloudflare認為,當Robots.txt禁止正常機器人時,使用“旨在模仿Macos中的Google Chrome的一般瀏覽器”來解決這些障礙。在CloudLfare測試中,該公司未發表的檢測器也可以通過Perplexity的官方IP系列中未提及的IP地址進行旋轉,以交叉保護牆。 Cloudflare說,尷尬似乎與ASN相同的事情 – IP IP ID IP從同一業務運行 – 它發現爬行者每天將ASNS變成“成千上萬的地區和數百萬的需求”。
Engadget對Cloudflare報告的評論感到尷尬。如果我們回音,我們將更新本文。
來自網站的更新信息對於培訓AI模型的公司至關重要,尤其是諸如尷尬之類的服務被用作搜索引擎的替換。過去,尷尬也曾被捕,繞過規則以保持知情。據報導,有多個網站在2024年據報導,儘管尷尬仍在訪問其內容,儘管他們在機器人中禁止它們。後來,尷尬與許多出版商合作,分享了他們從與其內容旁邊出現的廣告中獲得的收入,這似乎是他以前的行為的良好。
阻止公司從網絡上刮擦內容可能仍然是一款摩爾遊戲。同時,Cloudflare從他的 經過驗證的機器人目錄 並實施了一種方法來定位和阻止困惑的爬行者訪問其客戶的內容。