趣文网 > 作文大全

phpcms文章采集器如何设置采集规范

2020-11-30 01:40:01
相关推荐

在应用采集器采集文章的时候,第一步就是设置采集规范,那么应当如何设置呢?本文就此问题做一个简单的介绍。

首先我们需要新建一个采集任务,并单击【起始网址】右侧的添加按钮。

系统弹出【添加开始采集地址】对话框,该对话框给出五中采集分时,一般我们应用的比较多的为【单条网址】、【批量/多页】、【RSS地址】这三种方式。我们在单条或多条网址下输入需要采集的网址,并依次单击右侧的【添加】按钮和【完成】按钮。

网址添加完毕后,我们需要告诉采集软件我们需要采集网页的哪一部分。此时,我们需要单击【多级网址获取】右侧的添加按钮添加采集规则。

在【添加多级网址规则】选项框中,一般我们勾选【从页面自动分析得到地址连接】,并在下方设置【从该选定区域中提取网址】来达成采集某一段网页的目的。

我们可以通过查看该页面的HTML代码来得到我们需要哪些栏目,或者通过观看这些连写的共性,之后通过网址过滤的方式将这些网址过滤出来,比如文本中过滤条件为:http://news.baidu.com/n?cmd=4&class

获取该页面的COOKIE信息,通过点击【网页登录信息】右侧的【浏览器登录获取】打开【内置微型浏览器】对话框,单击其中的Cookie,请确定保存。

单击右下方的【测试网址采集】按钮,可以查看【测试地址采集】是否满足需求,如果不满足需求,则需要对【步骤5】中的规则进行调整。

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

我被什么作文 我不再胆小作文 防侵性作文 春节英语作文80词 以遇见为题的作文 心里话作文400字 元宵节作文初中 感恩作文800字高中 三年级作文下雪了 关于孝道的作文 学校打屁股作文 我与社会作文 感恩作文600字初中 我喜欢画画作文 我的好朋友400字作文 优秀中考作文600字 学习的意义作文 学滑雪作文 传统节日作文300字 在阳光下成长作文 我战胜了困难作文 四年级作文我的自画像 记事的作文400字 圆作文600字 我的梦想日语作文 日语作文我的一天 周记作文500字 我最爱的食物作文 我的阅读故事作文 新年活动作文