趣文网 > 作文大全

phpcms文章采集器之采集内容规范

2020-11-30 11:45:01
相关推荐

在我们应用PHPCMS采集器进行采集的时候,需要指定文章的标题、内容、作者、出去等标签信息,并且对页面进行修正,去除一些多余的HTML标签。本文简单介绍如何实现上述操作。

我们需要在第一步【采集网址规则】中单击任意地址跳转到第二部【采集内容规范】页面

观察之后的【采集内容规则】界面,我们发现【标题】自动已经被设置,器内容为“百度新闻搜索——体育新闻”,我们需要在此删除“——体育新闻”字段。双击【标题】标签,在弹出的【标签编辑】选项卡中点击【添加】按钮,在弹出的快捷菜单中选择【内容替换】,并按图设置。

之后我们双击【内容】标签,在此我们可以通过【前后提取】【正则提取】【可视化提取】【正文提取】【标签组合】等多种方式提取网页的正文数据。

通过对网页的分析,我们确定从那个HTML标签处开始提取,比如本文中为:

    ,结束字符则为

此外,我们还可以通过【数据处理】模块,将文本中多余的HTML标签删除,如下图所示。

至此,内容采集到此结束。整个步骤最关键的为【第三步】只有截取正确的HTML代码,才能达到只留文本信息而屏蔽代码的目的。

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

作文亲情类 作文 初心 爱上阅读作文 19年作文 作文提纲范例大全13篇 中考的作文 激烈的足球比赛作文 冬天里的故事作文 教师节英语作文初中 写我的爸爸的作文 黄姚古镇作文 观察的作文200字 运动会作文儿 相信美好作文 我喜欢吃鱼作文 我被妈妈感动了作文 含泪的微笑作文400字 风景作文600字初中 温暖作文400字五年级 生活需要作文500字 口语交际作文100字 写一篇水果作文 550字作文大全 大自然的奇妙作文300字 四年级作文评语大全 作文某某我想对你说 运动会200米作文 珍爱时间作文 看菊展作文 勇往直前作文600字