黑喵SEO为您提供:SEO优化、SEO学习、SEO优化方案、SEO网站诊断

首页 > 帝国CMS > 帝国问题

帝国cms采集步骤图文教程

网络整理 2018-12-29 22:14:56 帝国问题

  帝国cms采集步骤图文教程

  现在只以一个栏目的其中一个页面做例子:http://seo.baidutop123.com/seoyh/list_17_6.html

  我要采的就是这个下图中红框部分的文章。

  查看这个页面的代码,下图红框中的代码对应上图红框中的文章。

  那么后台增加采集规则,应该这样填写,看下图。

  内容页地址前缀填写什么?如何判断这里要不要填写?

  看前端代码。下图红框处的链接不完全,需要补充完整:http://seo.baidutop123.com/top/4104.html

  也就是下图红框处应该填写【http://seo.baidutop123.com】

  图片/FLASH地址前缀(内容)填写什么?

  打开一篇有图片的文章,例如下图。


  对着图片,右击,审查元素,如下图。

  图片地址完整,不需要填;反之,如果图片地址不完整,则需要将图片地址补充完整。(原理跟上面的一样)

  入库栏目填写什么?

  想要采集到哪个栏目,就选择哪个栏目。

  下图这4个地方,看需求修改,一般这样设置就没问题了。

  转码设置。

  如果自己网站和采集的网站都是utf-8,那么就选择正常编码,否则,对应修改。我这里,2个站正巧都是utf-8。(注意:有些站编码不一样,就算选择相应的选项,也有可能采集不出来,所以选择采集网站时,最好是选择编码相同的站进行采集。)

  下图箭头地方,根据需求填写。

  过滤广告正则怎么填写?看下图箭头处,另外,其他代码需要去除的,可以按需求选择。

  信息链接区域正则如何填写?

  查看列表页代码,下图红框处的代码,是每个列表页都有的代码,并且每个页面只有一处。


  下图箭头代码,对应上图红框代码。中间处的代码,对应后台左侧代码。

  信息页链接正则怎么填写?

  打开列表页,对着要采集的文章标题,审查元素,下图箭头处,对应红框处的代码。

  每篇文章的链接都是这种格式的。取其中一个为例子【<a href="/top/3991.html" class="title">https和http有何区别?HTTPS的七个误解</a>】

  填到信息页链接正则上,应该这样写【<a href="[!--newsurl--]" class="title">*</a>】

  一下子没看懂的朋友可以多研究一下。

  注意:本文没提到地方,就算不填写,也能正常采集。

  标题正则怎么填写?

  打开一篇文章,查看源代码。红框代码h1 标签,只有一个可以选择它。


  内容简介正则需要填写吗?可以不写,因为上面默认截取正文前200个字符。如果这里填写了,上面默认截取的简介就会失效。

  新闻正文正则怎么填写?

  打开一篇文章,查看源代码。


  如果采集下来的文章,采集,发出去后排版乱了,则需要重新选择箭头2处代码,因为截取正文的时候,如果前面多了一个div代码、或者后面多了一个/div代码,都会造成排版混乱,这点很重要。

  内容页分页采集设置怎么填写?

  有些是没有分页的,例如本文这里的例子,就没有分页,不需要填写。

  要是有分页呢?应该怎么填写?这里留个位置,以后分享内容页分页采集设置教程。




  看上图,能顺利采集到文章标题和正文,至于描述,等入库后,文章描述会自动填写好。

  以上就是帝国cms采集步骤图文教程,如果有用,请分享给有需要的朋友,谢谢,纯手打,截图,好累。分页采集只能下次再继续。

  注意:本文没提到地方,就算不填写,也能正常采集。

<黑 喵S E O,www.bxdzc.com>

Tags:帝国采集

免责声明:本站内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。(QQ:422026368)

搜索
网站分类
标签列表