seo爬虫,它还有其他名字:搜索引擎爬虫、网页爬虫、网页蜘蛛、网络机器人。做网站seo,一定要知道seo爬虫是怎样爬取网站数据的,并且懂得如何吸引爬虫来抓取自己的网页,因为没有爬虫就没有收录。
seo爬虫是什么?
seo爬虫就是按照一定规则从互联网上抓取信息的程序,既然是程序那和正常用户访问页面有何区别?爬虫与用户正常访问信息的区别就在于:用户是缓慢、少量的获取信息,而爬虫是大量的获取信息。
seo爬虫怎样爬取网站数据?
seo爬虫的工作流程及原理:
1.种子URL
所谓种子URL,就是最开始选定的URL地址,大多数情况下,网站的首页、频道页等丰富性内容更多的页面会被作为种子URL;
然后将这些种子URL放入到待抓取的URL列表中;
2.待抓取URL列表
爬虫从待抓取的URL列表中逐个进行读取,读取URL的过程中,会将URL通过DNS解析,把这个URL地址转换成网站服务器的IP地址+相对路径的方式;
3.网页下载器
接下来把这个地址交给网页下载器(所谓网页下载器,顾名思义就是负责下载网页内容的一个模块);
4.源代码
对于下载到本地的网页,也就是我们网页的源代码,一方面要将这个网页存储到网页库中,另一方面会从下载网页中再次提取URL地址。
5.抽取URL
新提取出来的URL地址会先在已抓取的URL列表中进行比对,检查一下这个网页是不是被抓取了。
6.新URL存入待抓取队列
如果网页没有被抓取,就将新的URL地址放入到待抓取的URL列表的末尾,等待被抓取。
就这样循环的工作着,直到待抓取队列为空的时候,爬虫就算完成了抓取的全过程。
然后下载的网页,就都会进入到一定的分析中,分析后进行索引,我们就能看到收录结果了。
对于真正的爬虫来说,先抓哪些页面、后抓哪些页面,以及不抓哪些页面等等都是有一定的策略的,这里讲述的是一个比较普遍的爬虫抓取流程,身为SEO的我们,知道这些就足够了。
seo爬虫为什么不来你的网站?
如果你发现你的网站没有爬虫来光顾,以下是几个可能的原因:
1.网站还很新,没被来得及被爬到。
2.网站没有任何外链。
3.网站的nevigation不适合爬虫算法。
4.网站页面里含有禁止爬虫的指令。
5.网站由于之前违反规定被搜索引擎加入黑名单。
如何吸引seo爬虫?
以谷歌爬虫为例:
1.Robots.txt
把robots.txt放在你网站的根目录下:yourdomain.com/robots.txt
里面的内容是告诉搜索引擎什么网页需要爬,什么网页不需要爬。另外sitemapfiles也也可以在robots.txt里面列出。
注意:如果网站没有robots.txt,那么google爬虫就按照正常逻辑爬虫。如果有robots.txt那么就会按照里面的内容来爬。如果爬虫在打开robots.txt文件遇到问题,那么网站就会被爬虫skip掉!
2.使用sitemaps
sitemaps非常的重要,他可以帮助爬虫按照sitemaps指定的URL去索引所有重要的页面。997SEO顾问网的建议是每个网站都需要一个sitemaps!!
sitemaps支持XML,RSS,Text等多种格式,推荐使用xml.加上sitemap文件到网站根目录下以后,然后再将其完整的URL上传至GoogleConsole,就可以全面放心你的页面可以被google索引起来啦~~~至此我们解决了最基本且重要的问题!
3.网站更新的频率和质量
坚持有频率的更新网站内容,最好是高质量的原创内容。
蜘蛛每次爬行网站的时候都会把这些页面的数据保存在数据库中,下次蜘蛛再次爬行此网站的时候则会与上次爬行的数据进行对比,如果页面与上次的页面是一样的,这就说明网页没有更新,这样的页面蜘蛛会减少抓取的频率,甚至不抓取。反过来,假如网页页面有更新,或是有新的链接的话,蜘蛛会依据新的链接爬向新的页面,那样就非常容易提升收录量了。
4.内链建设
蜘蛛的爬行是跟着链接走的,所以内链的合理优化可以要蜘蛛抓取到更多的页面,促进网站的收录。内链建设过程中要给用户合理推荐,除了在文章中增加锚文本之外,可以设置相关推荐,热门文章,更多喜欢之类的栏目,这是很多网站都在利用的,可以让蜘蛛抓取更大范围的页面。
一个网站搜索排名靠前的前提是网站有大量页面被搜索引擎所收录,而好的内链建设正好可以帮助网站页面被收录。当网站某一篇文章被收录时,蜘蛛就会沿着这个页面的超链接继续爬行下去,如果你的内链做的好,蜘蛛就会沿着你的网站整个爬行一遍,这样网站页面被收录的机会就大大增加了。
5.外链及友情链接
搭建外部链接,可以和相关的网站做友情链接交换,可以去别的平台发布高质量的文章指向自己的页面,内容要相关。
6.页面的深度与广度
不少SEOer没注意到这一点,事实上,页面层级太复杂对seo优化的危害是比较大的,一般我们只设置二三级文件目录就行了,如果页面太深就会使得蜘蛛爬取得很困难,而且对用户体验也是不利的,会导致页面权重下降。所以,不要让网页页面间距主页很远。
7.检查死链,设置404页面
搜索引擎蜘蛛是通过链接来爬行搜索,如果太多链接无法到达,不但收录页面数量会减少,而且你的网站在搜索引擎中的权重会大大降低。蜘蛛在遇见死链就像进了死胡同,又得折返重新来过,大大降低蜘蛛在网站的抓取效率,所以一定要定期排查网站的死链,向搜索引擎提交,同时要做好网站的404页面,告诉搜索引擎错误页面。
百度爬虫多久爬一次?
这个取决于你的网站页面数、网站质量,一般单页站点在每天1次左右。
你从百度获取的流量越多,爬虫也爬的越勤奋。
百度爬虫多久收录?
首先,新站爬取后,并不会立马收录,如果内容质量好,并持续增加内容,预计1个月左右。
其次,优质老站当日就有收录,也就是秒收。
最后,垃圾站取决于你的态度,垃圾内容越多,越不收录。
百度爬虫多久更新?
分两种情况:
第1种,网站内容被爬虫访问后,如果内容质量垃圾,收录蜘蛛访问后1-3天内,如果没有快照蜘蛛访问,多久都不会有更新。
第2种,网站内容质量好,快照蜘蛛访问后一般1-3天内快照必然更新,否则是你的站没有过考察期,要等1-3个月不等。
总结
做seo势必要和seo爬虫打交道的,若它不来,你就要想办法吸引它来;它来了,你要分析它来的时间、频率、抓取数据的频次、爬行的深度等等。总之,不管它来与不来,关于它,你都有一大堆事情要做。
997SEO顾问网,专注为企业提供SEO顾问咨询服务!(www.997seo.com)