站长网 优化 网站收录及抓取创建指南

网站收录及抓取创建指南

抓取友好性优化1、URL规范:任何一个资源都是通过URL来抓取的,URL相对于网站的门牌号,那么URL的规划就非常重要了。尤其是如上图所示,待抓URL的环境,爬虫在首页的时候,并不知道URL是什么样子。优秀的URL的特点是主流的、简单的,竟可能不要去做一些非主

抓取友好性优化

1、URL规范:

 

任何一个资源都是通过URL来抓取的,URL相对于网站的门牌号,那么URL的规划就非常重要了。尤其是如上图所示,“待抓URL”的环境,爬虫在首页的时候,并不知道URL是什么样子。

 

优秀的URL的特点是主流的、简单的,竟可能不要去做一些非主流的样式,让人看起来很直观的URL。

 

如上图所示,第一条是百度知道的链接,整个链接分成三段,第一段是网站的站点,第二段是资源类型,第三段是资源的ID。这种就是非常简单,并且爬虫看起来非常优质的URL。

 

如上图所示,第三条相对百度知道多了一个段,首先第一段是网站的站点,第二段是站点的一级目录,第三段是站点的二级目录,最后一段是站点的内容ID。像这种的URL也是符合标准的。

本文来自网络,不代表站长网立场,转载请注明出处:https://www.zwzz.com.cn/html/jianzhan/youhua/2021/1031/17127.html

作者: dawei

【声明】:站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。
联系我们

联系我们

0577-28828765

在线咨询: QQ交谈

邮箱: xwei067@foxmail.com

工作时间:周一至周五,9:00-17:30,节假日休息

返回顶部