最近擔任一個大中型英文網(wǎng)站的第三方SEO顧問,因為某些原因,網(wǎng)站某部分的URL需要更改,出現(xiàn)幾十萬頁面級別的301和404。怎樣才能統(tǒng)計到新頁面被Google索引了沒?其實可以利用Google管理員工具,就可以統(tǒng)計到這些新頁面被Google索引了多少,并且還可以比較準確地獲得網(wǎng)站整體在Google里的索引量。
以我的博客為例,直接site我的博客找到486條結(jié)果,而我的博客目前只有72篇文章,加上分類頁面也相差好幾百。原因是早段時間更換主機,自己 大頭哈忘記上傳robots.txt,導致一些重復(fù)內(nèi)容頁面也收錄了,后來才上傳了robots.txt?,F(xiàn)在Google “site:yihuiblog.com”就會出現(xiàn)如下的收錄,只有網(wǎng)址沒有內(nèi)容(過一段時間才會刪除)。
網(wǎng)站會出現(xiàn)很多的問題,造成搜索引擎索引一些站長不想索引的頁面,包括常見的重復(fù)內(nèi)容頁面、無限循環(huán)頁面(平時我們還要盡量找出這些鏈接屏蔽掉和到Google管理員工具里刪除),大中型網(wǎng)站就更加普遍。但這些索引數(shù)據(jù)對SEO分析作用大么?不大,甚至等于0。
其實可以在Google管理員工具Sitemap模塊里得到“真實”的收錄數(shù)據(jù),這個“真實”取決于你想讓哪些頁面被Google索引?,F(xiàn)在我想知 道我博客分別有多少文章和分類頁面被索引,首先我制作兩個網(wǎng)站地圖文件,一個包含所有文章地址(URL),一個包含所有分類地址,然后在管理員工具提交 sitemap地址。
Google管理員工具后臺直接提交比robots.txt寫入地圖地址要好,一方面更加靈活,一方面可以防止競爭對手獲取站點數(shù)據(jù)進行研究。
因為演示,追求簡單,這里我只制作了文本地圖文件,主流搜索引擎支持RSS、Atom、XML和文本等多種格式的地圖文件,Google支持一個站點地圖文件最多包含 5 萬個網(wǎng)址,壓縮前體積不得超過 50MB。
上圖顯示Google索引了一灰博客的72個文章頁面和22個分類頁面。按照需求拆分網(wǎng)站地圖文件,可以方便得到你想要的索引數(shù)據(jù),而且可以提交重疊的網(wǎng)址,例如同時提交網(wǎng)站最新更新產(chǎn)品的網(wǎng)頁地址和某分類下產(chǎn)品的網(wǎng)頁地址(存在重疊網(wǎng)址)。得到收錄數(shù)據(jù),就可以有針對性地進行優(yōu)化。例如優(yōu)化長期不索引的頁面,等Google蜘蛛下次爬行后進行索引,也可以與同期其他SEO數(shù)據(jù)進行融合,得到更多對SEO有幫助的數(shù)據(jù)。其實Google在site的時候已經(jīng)明確Google管理員工具這一功能,只是很多人沒有進一步利用?! ?/p>
利用好Google管理員工具,可以抽離出更多對SEO有用的數(shù)據(jù),以后再慢慢探討。Bing管理員工具也有很多實用的數(shù)據(jù),同樣不要錯過哦。
原文地址:http://yihuiblog.com/a/299.html |