PHP建站技术分享-从入门到精通PHP建站技术分享-从入门到精通PHP建站技术分享-从入门到精通

QQ:420220301 微信/手机:150-3210-7690
当前位置:首页 > CMS教程 > iCMS

如何使用采集器_基本用法

管理员 2024-12-15
iCMS
10

采集器说明

基本设置说明

网页编码    最好选择正确的编码 否则可能存在乱码列表采集模式    正则    phpQuery列表网址    要采集的列表页列表区域规则    正则模式        <%content%> 匹配的内容    phpQuery 模式       例:div.xxx li a       需要匹配到 a 标签上列表区域整理    正则模式        具体见[规则数据整理说明]    phpQuery 模式        此处为空列表链接规则    正则模式        <%title%> 标题        <%url%>   网址        <%var_TM%>    phpQuery 模式        一般为固定值        text 或者 title        href网址合成    前面列表采集的网址    <%url%>    例:采到网址为/sss/sss.html    实际网址为 http://www.xxxx.com/sss/sss.html    可填写为 http://www.xxxx.com<%url%>网址整理    对<%url%>进行整理    具体见[规则数据整理说明]

数据项说明

  • 数据项名称说明

字段    例:title    标题字符PRE:字段    例:PRE:body     * [PRE:body]     * 把 PRE:body 采集到的数据 当做原始数据     * 一般用于下载内容DATA:字段    例:DATA:body     * 把之前[body]处理完的数据当作原始数据     * 如果之前有数据会叠加     * 用于数据多次处理EMPTY:name    如果[name]之前抓取结果数据为空使用这个数据项替换字段.字段    例:metadata.xxx    * 采集内容做为数组

规则特殊字符

<%content%>    内容<%var_nz%>    任意字符[DATA@字段]    例:[DATA@name]    例:[DATA@name.key]    * 内容回调 可以在规则里调用之前内容phpQuery模式    右侧勾选phpQuery    可使用jquery模式采集    例:div.xxxRULE@规则ID    使用[规则ID]采集RAND@长度,(0:数字+字母,1:数字)    RAND@10,0 10位数字+字母    RAND@10,1 数字    返回随机数
  • 规则 数据整理说明

采集后整理    抓取html后取出匹配后数据发布前整理    数据经[采集后整理]处理后    在发布前替换    例:xxx==ooo    把xxx替换成ooo清除    例:xxx    直接把xxx字符清除正则    例:<%d+%> 替换所有数字    例:<%w+%> 替换所有字母数字    例:<%(d+)%>==$1xxxx 所有数字替换成 数字xxxx    例:<%.+%> 替换所有字符
  • 规则 数据整理特殊字符

<BR>    例:<BR>    换行<%SELF%>    例:<%SELF%>    替换成内容 本行无替换/正则效果BEFOR::    例:BEFOR::xxx    将xxx放置在内容前AFTER::    例:AFTER::xxx    将xxx放置在内容后NEED::    例:NEED::xxx    必需包含xxx 否则返回空NOT::    例:NOT::xxx    不能包含xxx 否则返回空LEN::    例:LEN::5    必需长度为5个字符 否则返回空IMG::    例:IMG::5    必需有5张图片 否则返回空DOM::    例:DOM::div.xxx    使用phpquery~SELF~    例:~SELF~==1111    替换掉自身内容~S~    例:~S~    替换掉空格

分页设置说明

使用分页采集需要在 数据项 任意一项中 勾选 [有分页] 选项分页数据获取方式    采集方式    逻辑方式        当前网址分解:<%url%>        例: 当前网址            [http://www.xxx.com/asd/123213.html]            分页网址为            [http://www.xxx.com/asd/123213_2.html]            [http://www.xxx.com/asd/123213_3.html]            当前网址分解:<%url%>.html        分页增量            起始编号[分页数开始数字]            结束编号[分页数结束数字]            步长[分页数的增幅度]            分页网址为            [http://www.xxx.com/asd/123213_2.html]            [http://www.xxx.com/asd/123213_3.html]            [http://www.xxx.com/asd/123213_20.html]            共20页            起始编号:2            结束编号:20            步长:1分页有效特征码    分页内容必需出现此特征码分页无效特征码    分页内容如果出现此特征码    停止采集    并设置为无效分页网址合成    <%url%> 分页网址    <%step%> 分页增量

希望以上内容对你有所帮助!如果还有其他问题,请随时提问。 各类知识收集 拥有多年CMS企业建站经验,对 iCMS, Fastadmin, ClassCMS, LeCMS, PbootCMS, PHPCMS, 易优CMS, YzmCMS, 讯睿CMS, 极致CMS, Wordpress, HkCMS, YznCMS, WellCMS, ThinkCMF, 等各类cms的相互转化,程序开发,网站制作,bug修复,程序杀毒,插件定制都可以提供最佳解决方案。

相关推荐

扫码关注

qrcode

QQ交谈

回顶部