建站知識
|
建站知識百度VIP大講堂QA:抓取、建庫、解析答:對IP,但1000萬是我舉例,不是實際的數據,這個數據不會分享出來的。 問:現在我的網站被很多蜘蛛爬,我想只讓百度蜘蛛爬,百度蜘蛛IP多少?能設白名單么? 答:百度蜘蛛IP是不斷變的,現在網上的確有一些白名單的說法,暫時是有較的,但不保證今后不會變,所以建議站點還是通過ua進行判斷,我們百度站長平臺上有相關的文章,你可以找一下。 問:如果我寫robots只想禁掉動態鏈接的話,會不會影響動態參數前面正常鏈接的抓? 答:不會的,你原來的頁面還在,肯定會抓。 問:比如我們一個域名www.abcde.com,我們想把帶?號的url全部禁掉,首頁我們不要禁掉,怎么弄? 答:?前面有個*,后面再有個*就可以了。 問:我想了解,如果我現在收錄有5萬,大概多長時間才能把我原來收錄5萬重新抓取一遍? 答:不同站點不好說,一個是你站點做的很好,知名度很響更新很快質量很好就會快;如果你的站點默默無聞,貢獻很少,可能就會很慢。 (接上個問題) 問:就是差不多的情況,大概。 答:這個沒有人能估出來。 問:百度站長平臺上有數據提交的工具,我們實時提交,你們也會實時抓取嗎? 答:不會,他會有一層判斷,F在只是通知你提交成功,后面什么時候抓,什么時候建庫沒有,我們正在研究要不要把這個分享出來。 問:我網站有一些列表頁,都沒有鏈接,擔心百度抓不到 答:現在百度站長平臺的站內搜索工具有一個綠色收錄通道,在那里提交種子頁,我們就知道的。 (接上個問題) 問:提交種子頁面必須要用站搜? 答:是的。 問:如果說頁面里url特別多的話,蜘蛛會不會有選擇性的進行抓? 答:不會,他都會一個不漏給你提出來,但會把JS、CSS這樣的鏈接給過濾掉。但請注意,全部抓取過來之后會進行篩選,并不是所有都會建庫。 問:現在很多網站都有自己的站內搜索,都會產生站內搜索結果頁,百度不喜歡搜索結果頁的話,我們用這個會不會對我們有影響?只是不喜歡還是對我們網站會有懲罰 答:蜘蛛會去抓,抓完之后重要是提取里面的鏈接。如果只有一兩條這樣的頁面質量不好問題不大,如果整體質量較差,有可能受到懲罰。 錄入時間:2014/12/16 Hits:8356 |