您的位置:997SEO顾问 >> SEO知识 >> SEO知识 >> seo爬虫是什么 seo爬虫怎样爬取网站数据

seo爬虫是什么 seo爬虫怎样爬取网站数据

2020年1月10日  11:16:17   来源:997SEO顾问 编辑:997SEO顾问网    阅读:103人次

seo爬虫,它还有其他名字:搜索引擎爬虫、网页爬虫、网页蜘蛛、网络机器人。做网站seo,一定要知道seo爬虫是怎样爬取网站数据的,并且懂得如何吸引爬虫来抓取自己的网页,因为没有爬虫就没有收录。

seo爬虫是什么?

seo爬虫就是按照一定规则从互联网上抓取信息的程序,既然是程序那和正常用户访问页面有何区别?爬虫与用户正常访问信息的区别就在于:用户是缓慢、少量的获取信息,而爬虫是大量的获取信息。

seo爬虫怎样爬取网站数据?

seo爬虫的工作流程及原理:

1.种子URL

所谓种子URL,就是最开始选定的URL地址,大多数情况下,网站的首页、频道页等丰富性内容更多的页面会被作为种子URL;

然后将这些种子URL放入到待抓取的URL列表中;

2.待抓取URL列表

爬虫从待抓取的URL列表中逐个进行读取,读取URL的过程中,会将URL通过DNS解析,把这个URL地址转换成网站服务器的IP地址+相对路径的方式;

3.网页下载器

接下来把这个地址交给网页下载器(所谓网页下载器,顾名思义就是负责下载网页内容的一个模块);

4.源代码

对于下载到本地的网页,也就是我们网页的源代码,一方面要将这个网页存储到网页库中,另一方面会从下载网页中再次提取URL地址。

5.抽取URL

新提取出来的URL地址会先在已抓取的URL列表中进行比对,检查一下这个网页是不是被抓取了。

6.新URL存入待抓取队列

如果网页没有被抓取,就将新的URL地址放入到待抓取的URL列表的末尾,等待被抓取。

就这样循环的工作着,直到待抓取队列为空的时候,爬虫就算完成了抓取的全过程。

然后下载的网页,就都会进入到一定的分析中,分析后进行索引,我们就能看到收录结果了。

对于真正的爬虫来说,先抓哪些页面、后抓哪些页面,以及不抓哪些页面等等都是有一定的策略的,这里讲述的是一个比较普遍的爬虫抓取流程,身为SEO的我们,知道这些就足够了。

seo爬虫为什么不来你的网站?

如果你发现你的网站没有爬虫来光顾,以下是几个可能的原因:

1.网站还很新,没被来得及被爬到。

2.网站没有任何外链。

3.网站的nevigation不适合爬虫算法。

4.网站页面里含有禁止爬虫的指令。

5.网站由于之前违反规定被搜索引擎加入黑名单。

如何吸引seo爬虫?

以谷歌爬虫为例:

1.Robots.txt

把robots.txt放在你网站的根目录下:yourdomain.com/robots.txt

里面的内容是告诉搜索引擎什么网页需要爬,什么网页不需要爬。另外sitemapfiles也也可以在robots.txt里面列出。

注意:如果网站没有robots.txt,那么google爬虫就按照正常逻辑爬虫。如果有robots.txt那么就会按照里面的内容来爬。如果爬虫在打开robots.txt文件遇到问题,那么网站就会被爬虫skip掉!

2.使用sitemaps

sitemaps非常的重要,他可以帮助爬虫按照sitemaps指定的URL去索引所有重要的页面。997SEO顾问网的建议是每个网站都需要一个sitemaps!!

sitemaps支持XML,RSS,Text等多种格式,推荐使用xml.加上sitemap文件到网站根目录下以后,然后再将其完整的URL上传至GoogleConsole,就可以全面放心你的页面可以被google索引起来啦~~~至此我们解决了最基本且重要的问题!

3.网站更新的频率和质量

坚持有频率的更新网站内容,最好是高质量的原创内容。

蜘蛛每次爬行网站的时候都会把这些页面的数据保存在数据库中,下次蜘蛛再次爬行此网站的时候则会与上次爬行的数据进行对比,如果页面与上次的页面是一样的,这就说明网页没有更新,这样的页面蜘蛛会减少抓取的频率,甚至不抓取。反过来,假如网页页面有更新,或是有新的链接的话,蜘蛛会依据新的链接爬向新的页面,那样就非常容易提升收录量了。

4.内链建设

蜘蛛的爬行是跟着链接走的,所以内链的合理优化可以要蜘蛛抓取到更多的页面,促进网站的收录。内链建设过程中要给用户合理推荐,除了在文章中增加锚文本之外,可以设置相关推荐,热门文章,更多喜欢之类的栏目,这是很多网站都在利用的,可以让蜘蛛抓取更大范围的页面。

一个网站搜索排名靠前的前提是网站有大量页面被搜索引擎所收录,而好的内链建设正好可以帮助网站页面被收录。当网站某一篇文章被收录时,蜘蛛就会沿着这个页面的超链接继续爬行下去,如果你的内链做的好,蜘蛛就会沿着你的网站整个爬行一遍,这样网站页面被收录的机会就大大增加了。

5.外链及友情链接

搭建外部链接,可以和相关的网站做友情链接交换,可以去别的平台发布高质量的文章指向自己的页面,内容要相关。

6.页面的深度与广度

不少SEOer没注意到这一点,事实上,页面层级太复杂对seo优化的危害是比较大的,一般我们只设置二三级文件目录就行了,如果页面太深就会使得蜘蛛爬取得很困难,而且对用户体验也是不利的,会导致页面权重下降。所以,不要让网页页面间距主页很远。

7.检查死链,设置404页面

搜索引擎蜘蛛是通过链接来爬行搜索,如果太多链接无法到达,不但收录页面数量会减少,而且你的网站在搜索引擎中的权重会大大降低。蜘蛛在遇见死链就像进了死胡同,又得折返重新来过,大大降低蜘蛛在网站的抓取效率,所以一定要定期排查网站的死链,向搜索引擎提交,同时要做好网站的404页面,告诉搜索引擎错误页面。

百度爬虫多久爬一次?

这个取决于你的网站页面数、网站质量,一般单页站点在每天1次左右。

你从百度获取的流量越多,爬虫也爬的越勤奋。

百度爬虫多久收录?

首先,新站爬取后,并不会立马收录,如果内容质量好,并持续增加内容,预计1个月左右。

其次,优质老站当日就有收录,也就是秒收。

最后,垃圾站取决于你的态度,垃圾内容越多,越不收录。

百度爬虫多久更新?

分两种情况:

第1种,网站内容被爬虫访问后,如果内容质量垃圾,收录蜘蛛访问后1-3天内,如果没有快照蜘蛛访问,多久都不会有更新。

第2种,网站内容质量好,快照蜘蛛访问后一般1-3天内快照必然更新,否则是你的站没有过考察期,要等1-3个月不等。

总结

做seo势必要和seo爬虫打交道的,若它不来,你就要想办法吸引它来;它来了,你要分析它来的时间、频率、抓取数据的频次、爬行的深度等等。总之,不管它来与不来,关于它,你都有一大堆事情要做。

997SEO顾问网,专注为企业提供SEO顾问咨询服务!(www.997seo.com)

评论专区
*必填
-选填
-选填
   本站有缓存,一般1小时内能看到您的评论
郑重声明:997SEO顾问网,专注为企业提供SEO顾问咨询服务!发布此信息目的在于传播SEO技术信息,因SEO技术日新月异,本站不保证该信息内容的及时性、有效性等,详情请加997SEO顾问微信咨询。如因作品内容、版权和其它问题需要同本网联系的,请在15日内进行。
版权所有:997SEO顾问网,www.997seo.com   粤ICP备19064625号-1    SEO顾问咨询QQ:765565686,邮箱:765565686@qq.com