新闻资讯

SEO基础课程:认识抓取 (Crawl) 与索引 ( Index )

2017-07-11 11:16:06 ipbrother.zmz

抓取 (Crawl ) 与 索引 ( Index )是SEO领域里面非常非常基本的两个观念,在接触任何 SEO工作时你一定要理解。同时 百度 也有提供官方的 HTML 语法给网站经营者,透过这些语法你可以优化搜寻引擎蜘蛛如何抓取、索引你的网站。


下一篇文章我将会整理出所有的 SEO相关HTML语法,但前提是你必须要有抓取 (Crawl )以及索引 (Index) 的概念。



了解网络蜘蛛 ( Web Spider , Like 百度 Bot )


spiders


网络蜘蛛这个说法比较抽象,百度官方将它称为百度 Spider、百度 Bot,你可以把整个世界网络想像为一个巨大蜘蛛网,而搜寻引擎本身有属于它的软体,像是蜘蛛一样在这巨大的网络上爬行,并收集资讯。


做 SEO工作,维持网络蜘蛛与网站之间良好的关系是非常重要的,你必须要了解各大搜寻引擎蜘蛛的效能以及规范,并尽量让它能够完整抓取你网站上的优质内容。在早些年前,Bing 的网络蜘蛛太大容量的网站内容会无法抓取,这就是Bing网络蜘蛛的效能限制,你必须要把最好的内容前放,因为档案太大的话,后面的内容Bing是抓不到的。


搜寻引擎运作原理我们可以简单说为


 

抓取 ( Crawl) – > 演算、建立索引到搜寻引擎上 ( Index ) – > 供查询、使用


 

Crawl 在 百度 Search Console里面被翻译为"检索",但我个人还是习惯将它翻译为抓取,抓取 ( Crawl )这个动作便是指搜寻引擎抓取你网站上资料的行为,包含你的网站关键字、网站内容、反向连结等。而索引则是在百度  抓取完你的网站资料之后,它会将获得的资讯透过演算、建档,并收录到搜寻引擎中,这个建档、收录的动作称为索引 ( Index ),建立完索引后,用户便可以于搜寻引擎中找到你的网站(简单来说,先有抓取才会有索引)。


透过百度 Search Console 我们可以用数据观察到百度抓取、索引我们网站的状况。抓取与索引是完全不同的两件事。有可能透过观察,你会看到 百度 确实很正常的抓取到了你页面上的资讯,但 百度却没有将你的页面索引到搜寻引擎上,这样状况通常是你的网站有违规行为受到 百度逞处,又或是你的排名太差,在搜寻引擎找不到自己的页面。



抓取 ( Crawl ) 与索引 ( Index )的优化工作


理解抓取与索引是甚麽并不是重点,重点在于理解如何优化工作,你可以利用很多数位行销工具来观察网络蜘蛛与你的网站的互动状况,像是Screaming Frog 以及 Search Console 为做 SEO工作,优化抓取必备的工具。下一篇文章我将会把所有 SEO HTML语法整理出来,到时会提到更多关于抓取以及索引的优化。



为何抓取 (Crawl ) 会需要优化 ?


我曾经碰过一个专案,该网站的入口页是使用 JQuery 动态式的瀑布流,在你进入网站时会看到四则文章连结,接著你滑鼠向下卷动时,程式则会触发JQuery并出现后面四则 (有点像Facebook 现在的做法 ),这个状况底下网络蜘蛛只会抓取到一开始的四则文章而已!因为网络蜘蛛不会去卷动并触发JQuery。这个案例下,网络蜘蛛看到的资讯很少,当然也很伤害你的 SEO!


抓取优化工作,最主要是你必须要确定,百度有确实完整抓到网站的资料,有可能你的一些网站结构以及HTML语法的错误,导致它看不到你的网站,这是非常致命的一件事。


当然也有一些特殊情况你不希望网络蜘蛛去抓取到你的网站,比方说你有页面未完成、还在测试中,你不希望用户跟百度看到这个页面 ,那你必须要使用一些语法,防止网络蜘蛛抓到这个页面的资料。


 


为何索引 ( Index ) 需要优化 ?


测试索引 ( Index )的唯一办法就是实际使用搜寻引擎去搜寻自己的网站


这里的索引优化我们先不谈排名,索引的优化工作除了排名以外,便是确保你的页面都有正常的建立进搜寻引擎,并且某些页面会影响使用者体验的,你不希望被建立进搜寻引擎,你就要使用meta robots来进行SEO工作,这个我将于下一篇文章有完整的简介。