当前位置：首页 > CMS教程 > dedecms

织梦分页采集如何做？

管理员 2015-06-02

dedecms

166

　　最近想做个技术型的网站，不知道用什么cms来做，在网上搜索了一大堆，看到织梦的采集功能还不错，我也在想啊，做一个站如果所有的文章都需要站长一个一个的加，那不是要累死啊，所以就选着了织梦。

　　还好自己有点基础，弄了一天就基本弄懂织梦的操作流程了，申请域名、空间，上传程序。忙得是不亦乐乎，好了，开始采集文章了。好高兴，一下就有了2000多篇文章。高兴的打开来瞧瞧，哇，突然吓了一跳，发现一个文章一看就只有一段没有完整，打开源原址一看，原来有分页，在网上找了N久，还是没有结果，自己摸索摸索吧，搞了一天一夜几乎没有睡觉，我差点都没有信心了，想着就是采集的文章只有一半，别人怎么看啊，都不想做了，也累了，还是好好睡一觉吧。

　　也许是老天看我太辛苦了吧，刚想睡觉，突然我一下睡意全无，我太兴奋了，我看到了，看到了分页被我采集了。好了，说了这么多，还是开始进入正题了。直接看图。如果看不懂请打开源网址，查看源文件，和我的教程比较。　开始选着左边的采集，然后打开采集节点管理，添加新节点，选着普通文章。1、　文章列表页采集节点名称：自己根据你的网站目录和采集内容结合起来。网址：(*l 是有规则的网址列表。　　如果有不规则追加就好了。如果只有一页或几页没有规则就直接写在下面手工指定网址就好了。　　

　　文章列表匹配规则。注意要多看几页找出相同的，列表页大体相同，但有些有点小变化，所以要找出几页的共同html代码。

　　区域开始的html ：

　　<TBODY>　　　　　　　　　　　　　　　　　 <TR> 　　　　　　　　　　　　　　　　　　　 <TD width="74%" height="796" align=left vAlign=top><BR>　　　　　　　　　　　　　　　　　　　　　 <table cellSpacing=0 cellPadding=0 width=490 align=center border=0>　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 <tr>　区域结束的html ：</tr>　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 <tr> 　　　　　　　　　　　　　　　　　　　　　　　　　 <td class=zhi12 colSpan=2><BR>

　　建议写上筛选，一般写必须包含，这样准确点：/flashsl

　　保存进入下一步设置。以看到下面的图为准。

　　3、　分页设置预览网址可以更改。选择有分页的页面来预览，当然最好多预览几页，主要是和前面一样代码可能有小变化，选着相同的html代码分页匹配规则这里只要做过一次就不难了。

　　看我的代码，请和源网址，查看源文件对比。

　　<p align='center'><b><font color='red'>[内容]</b></p><div align=right style="margin:3px 0;">[内容]为我们需要的内容，这个我想大家都知道了同理做好文章标题：(标题有两个地方有，当然选简单的个)<B class=zhi25><FONT color=#003399><BR><BR></FONT></B><B class=zhi25><FONT color=#003399>[内容]</FONT></B><br>文章作者：<IMG height=11 src=";">{dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}</a>{/dede:trim}　　文章内容：进入网络咨询平台</strong></a> <strong><span class="style1"> ◆</span></strong><br>　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 <BR class=zhi14>[内容]<span style="border:1px dashed #cccccc; margin:3px;">　

　　同样的需要过滤规则，你可以先不写规则看哈，有什么区别就知道规则有什么用了。规则一定要根据实际文章来写。

　　{dede:trim replace=""}<style([^>]*)>(.*)</style>{/dede:trim}{dede:trim replace=""}<div([^>]*)>{/dede:trim}{dede:trim replace=""}</div>{/dede:trim}{dede:trim replace=""}<SPAN([^>]*)>{/dede:trim}{dede:trim replace=""}</SPAN>{/dede:trim}{dede:trim replace=""}<a([^>]*)>{/dede:trim}{dede:trim replace=""}</a>{/dede:trim}{dede:trim replace=""}</p><p align='center'><b>(.*)</b></p>{/dede:trim}

　　这一句我多说哈，主要作用是去掉后面的分页的文字。我开始也考虑把分页内容排除在文章内容外面，但是有些文章又没有分页代码，所以在文章的结尾html不好写，所以我写远点然后用规则去掉分页文字（同样的如果不懂先不加这条，比较哈就知道了）

　　{dede:trim replace=""}<font([^>]*)>{/dede:trim}{dede:trim replace=""}</font>{/dede:trim}分页采集成功没有可以看有没有一个{副标题#e#}，还有看哈最后一页采集到没有就知道。　

　　图片看不清楚？请点击这里查看原图（大图）。

　　中间也有

本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除！

未经允许不得转载：Str Tom工作室 » 织梦分页采集如何做？

各类知识收集，PHP技术分享与解决方案

织梦分页采集如何做？

相关推荐

文章