新智業(yè)告訴你蜘蛛是如何爬取內容的
發(fā)表日期:2017-04-18 14:19文章編輯:新智業(yè)教育集團瀏覽次數:182 標簽: 新智業(yè)SEO優(yōu)化
蜘蛛先去抓取百度白名單的網站或者一些信任度非常高的站點和頁面(例如:一些高權重網站和網站的首頁),在抓取這些網頁的內容時發(fā)現一些指向另外一些一些頁面的鏈接。蜘蛛會把這些鏈接保存在自己的數據庫里面,然后再根據抓取順序依次來抓取這些網頁。
1、蜘蛛抓取網頁的規(guī)則:
對于蜘蛛說網頁權重越高、信用度越高抓取越頻繁,例如網站的首頁和內頁。蜘蛛先抓取網站的首頁,因為首頁權重更高,并且大部分的鏈接都是指向首頁。然后通過首頁抓取網站的內頁,并不是所有內頁蜘蛛都會去抓取。
搜索引擎認為對于一般的中小型站點,3層足夠承受所有的內容了,所以蜘蛛經常抓取的內容是前三層,而超過三層的內容蜘蛛認為那些內容并不重要,所以不經常爬取。
2、如何看蜘蛛的抓取?
通過iis日志可以看蜘蛛爬取了哪些內容,iis日志有百度蜘蛛、谷歌蜘蛛等。從iis日志里賣弄分析得出蜘蛛的類型、抓取時間、抓取的頁面、抓取內容的大小以及返回的頁面代碼,200代表抓取順利。 |
|