我们以腾讯广州新闻为例,来讲一下文章的采集和发布,也包括图片的下载及上传。网址http://news.qq.com/gd/gdnews/guangzhou/guangzhounews.htm,我们一步步来讲。
1.新建站点
2.在该站点上新建任务
3.网址规则,查看一下源代码,发现这些网址代码在一个区域里,我们可以这样写规则
测试一下,正确,下边该采内容了。
4.内容规则制作。我们随便找个页面,如http://news.qq.com/a/20090204/000175.htm,先测试一下
看了一下,里边是有我们需要的东西的,这说明火车可以采它。下边做一下具体的内容采集规则。
标 题如何获取呢?就用默认的<title>,过滤个“_社会万象_新闻_腾讯网”就可以了。这个是如果您不懂代码时使用的方法,内容也可以这样 做。对于一般的简单的采集来说,没有什么大的问题。但是对于一些相对比较复杂的网页采集来说,还是需要仔细分析源码,分析网页结构。下边我们做具体的分 析。分析工具IE可以使用 ie developer toolbar
,firefox 可以使用插件[url=https://addons.mozilla.org/zh-CN/firefox/search?q=firebug& amp; amp;cat=all]firebug[/url](具体请在工具'附件-组件浏览-附加组件里'查看并安装),google可以使用右键“审查元 素”。我以firebug为例:
经分析我们可以得知,内容在id为cntMain的区域内,标题id是ArticleTit,<div?id="ArticleTit">店员疑因手机爆炸死亡续:现场发现9发子弹</div>,所以标题我们可以这样写,注意,截取的代码要以查看源码里的格式为准 .
内容这一块是ArticleCnt,我们以ArtPLink作为结束。内容的采集就是这样了.
这样过滤就有些复杂了.只是能单个过滤.我这里就过滤一下链接.其它的大家可以自己再处理.然后我们看一下,还有文章尾部还有一接文章链接,这是我们不需要的,过滤掉.再过滤些,然后再多找几个页面测试,查找问题,最后的结果如图
5.发布设置。我们使用WEB在线发布,将数据发到dedecms 5.1里去。 我们选中发布,然后点定义在线post到网站全局设置.弹出web在线配置管理器.
这时我们选添加,出现添加web发布配置.我们来先看一下使用说明,这个要仔细看一下,具体可以参考一下 WEB在线发布模块的修改 这篇文章,看完后开始配置:
我们发布到本地网站dedecms5.3里,所以模块选对应版本的,网站管理目录是http://dede53gbk/dede,所以按说明填写上,然后是选定编码,我们网站gbk的,所以选gbk.然后是登陆网站,使用火车内置浏览器登陆.如图
1.新建站点
2.在该站点上新建任务
3.网址规则,查看一下源代码,发现这些网址代码在一个区域里,我们可以这样写规则
测试一下,正确,下边该采内容了。
4.内容规则制作。我们随便找个页面,如http://news.qq.com/a/20090204/000175.htm,先测试一下
看了一下,里边是有我们需要的东西的,这说明火车可以采它。下边做一下具体的内容采集规则。
标 题如何获取呢?就用默认的<title>,过滤个“_社会万象_新闻_腾讯网”就可以了。这个是如果您不懂代码时使用的方法,内容也可以这样 做。对于一般的简单的采集来说,没有什么大的问题。但是对于一些相对比较复杂的网页采集来说,还是需要仔细分析源码,分析网页结构。下边我们做具体的分 析。分析工具IE可以使用 ie developer toolbar
经分析我们可以得知,内容在id为cntMain的区域内,标题id是ArticleTit,<div?id="ArticleTit">店员疑因手机爆炸死亡续:现场发现9发子弹</div>,所以标题我们可以这样写,注意,截取的代码要以查看源码里的格式为准
内容这一块是ArticleCnt,我们以ArtPLink作为结束。内容的采集就是这样了.
我们测试一下,是可以采到所有内容了,但是还有广告和其它一些乱七八糟的代码在里边,我们要过滤掉它。我看最上边的分析代码,广告代码,就那个推荐阅读,id是reading,所以我们这样过滤. .看一下,没有了,但要注意的一点是,这个还有个之前报道.请看图,大多数的是不一样的,比如有的
是相关报道,有的是事件回放.有的只是链接.
是相关报道,有的是事件回放.有的只是链接.
我们发布到本地网站dedecms5.3里,所以模块选对应版本的,网站管理目录是http://dede53gbk/dede,所以按说明填写上,然后是选定编码,我们网站gbk的,所以选gbk.然后是登陆网站,使用火车内置浏览器登陆.如图
-
然后就可以登陆成功后关闭火车浏览器了.下边我们来刷新列表,这个是用来指定将文章发布到哪个栏目的,如图 -
-
-
-
-
-
-
-
-
下载的具体设置在标签里指定,也可以指定下载文件的命名方式. -
-
-
-
-
-
-
我们去网站后台看一下效果,