dedecms如何采集文章-转自百度经验

作者:石头的博客 | 分类:织梦总结| 浏览:185 | 评论:

 如果要从其他站点转载文章,我们无需复制来复去,dedecms自带了文章和图片采集功能,对于不熟悉的人员来,采集规则配置起来很麻烦,常常在采集时出错,或者乱码,现在就向大家介绍dedecms的采集功能。

 方法/步骤

 1打开新增节点菜单

 打开后台->采集->采集节点管理,点击增加新节点

 

dedecms如何采集文章

 

 2选择模型

 

dedecms如何采集文章

 

 3新增节点-配置网址索引

 填写要采集的网站的列表相关规则,

 

dedecms如何采集文章

 

 4查看采集站点的编码和网站源码

 我们右键单击,点击查看源码,在源码的开头位置,找到一个写有charset=某一编码的meta标签,比如charset="gb2312",这个就是第二步中所说的网站编码了

 

dedecms如何采集文章
dedecms如何采集文章

 

 新增节点-配置文章网址匹配规则

 我们查看采集站点的列表页源码,找到文章列表开始html和结束html标签,分别把它们复制到增加采集节点->文章网址匹配规则的"区域开始的HTML"和“区域结束的HTML”输入框中。你不一定选择右键查看源码来找到文章列表开始标签,你可以在文章开始的地方右键单击,审查元素(chrome浏览器,firefox是查看元素),这样就更方便的找到文章列表开始和结束的标签了。

 设置之后我们点击"保存信息并进入下一步设置"

 

dedecms如何采集文章
dedecms如何采集文章

 

 网址获取规则测试

 如果在测试结果发现有无关的网址信息,说明的第五步中的网址过滤规则有误或者没有填写过滤规则。如果发现采集有误,你可以返回上一次修改,没有就点击“保存信息并进入下一步设置”。

 

dedecms如何采集文章

 

 内容字段获取规则

 我们查看采集站点的文章源码,找到相关选项的开始和结束html标签,填写入指定位置,开始和结束标签以"[内容]"分格。

 设置完毕,我们点击"保存配置并预览"

 

dedecms如何采集文章
dedecms如何采集文章

 

 过滤规则

 在第七步中的匹配规则后面,都 有一个过滤规则,这个过滤规则是用来过滤无需采集的内容。

 比如,网易每篇文章都有一个放置广告的iframe标签,我们要采集网易的文章,不可能采集回来之后,一篇一篇得去删除这个广告。但是如何去除呢?去除方法就是那个过滤规则,我们点击常用规则,就会弹出一个小窗口,列出了常用的过滤规则,我们只需点击要们要过滤的规则即可,要过滤网易文章中的iframe标签,我们就点击iframe即可。

 

dedecms如何采集文章

 

 测试内容字段设置

 因为网易有的文章开头是

,有的文章开头是
,所以会出现采集出错的情况。

 

 如果你现在就要采集,你可以点击保存并采集。这里我选择仅保存

 

dedecms如何采集文章
dedecms如何采集文章

 

 采集内容(一)

 回到采集节点管理的界面,也就是第一步中的界面,我们选择节点,点击采集

 

dedecms如何采集文章

 

 采集内容(二)

 

dedecms如何采集文章

 

 查看已下载

 可以在采集界面(即第十步中的界面)的右上角,点击“查看已下载”。也可以在“采集节点管理”的界面里点击“查看已下载”。这里以第二个方法为例。

 

dedecms如何采集文章
dedecms如何采集文章

 

 导出内容

 选择要导入到的栏目,数据量,是否生成html文件 ,随机推荐数量

 

dedecms如何采集文章
dedecms如何采集文章

 

 最终结果

 

dedecms如何采集文章

 

原文网址:http://jingyan.baidu.com/article/37bce2be1c53d61002f3a2bd.html

原文地址:http://www.361jl.com/zmzj/159.html 转载请保留原文地址,尊重作者版权,谢谢!!!

支付宝打赏微信打赏

PS:修改之前请先做好备份,因某些原因导致方法无法实现可以与我联系:,尽量靠自己,实在不行再找我,,嘿嘿!!!

上一篇:织梦新奇代码2数组@me[field:id runphp='yes']     下一篇:织梦dedecms更改友情链接logo图片大小

网名:石头的博客

姓名:石头

籍贯:河南省

现居:郑州市

职业:网站维护、seo

副业:聊天、娱乐、陪伴家人

喜欢的书:新奇小说

喜欢的音乐:有韵律的

网站分类
想去看大海

微信