采集器说明
基本设置说明
网页编码 最好选择正确的编码 否则可能存在乱码列表采集模式 正则 phpQuery列表网址 要采集的列表页列表区域规则 正则模式 <%content%> 匹配的内容 phpQuery 模式 例:div.xxx li a 需要匹配到 a 标签上列表区域整理 正则模式 具体见[规则数据整理说明] phpQuery 模式 此处为空列表链接规则 正则模式 <%title%> 标题 <%url%> 网址 <%var_TM%> phpQuery 模式 一般为固定值 text 或者 title href网址合成 前面列表采集的网址 <%url%> 例:采到网址为/sss/sss.html 实际网址为 http://www.xxxx.com/sss/sss.html 可填写为 http://www.xxxx.com<%url%>网址整理 对<%url%>进行整理 具体见[规则数据整理说明]
数据项说明
数据项名称说明
字段 例:title 标题字符PRE:字段 例:PRE:body * [PRE:body] * 把 PRE:body 采集到的数据 当做原始数据 * 一般用于下载内容DATA:字段 例:DATA:body * 把之前[body]处理完的数据当作原始数据 * 如果之前有数据会叠加 * 用于数据多次处理EMPTY:name 如果[name]之前抓取结果数据为空使用这个数据项替换字段.字段 例:metadata.xxx * 采集内容做为数组
规则特殊字符
<%content%> 内容<%var_nz%> 任意字符[DATA@字段] 例:[DATA@name] 例:[DATA@name.key] * 内容回调 可以在规则里调用之前内容phpQuery模式 右侧勾选phpQuery 可使用jquery模式采集 例:div.xxxRULE@规则ID 使用[规则ID]采集RAND@长度,(0:数字+字母,1:数字) RAND@10,0 10位数字+字母 RAND@10,1 数字 返回随机数
规则 数据整理说明
采集后整理 抓取html后取出匹配后数据发布前整理 数据经[采集后整理]处理后 在发布前替换 例:xxx==ooo 把xxx替换成ooo清除 例:xxx 直接把xxx字符清除正则 例:<%d+%> 替换所有数字 例:<%w+%> 替换所有字母数字 例:<%(d+)%>==$1xxxx 所有数字替换成 数字xxxx 例:<%.+%> 替换所有字符
规则 数据整理特殊字符
<BR> 例:<BR> 换行<%SELF%> 例:<%SELF%> 替换成内容 本行无替换/正则效果BEFOR:: 例:BEFOR::xxx 将xxx放置在内容前AFTER:: 例:AFTER::xxx 将xxx放置在内容后NEED:: 例:NEED::xxx 必需包含xxx 否则返回空NOT:: 例:NOT::xxx 不能包含xxx 否则返回空LEN:: 例:LEN::5 必需长度为5个字符 否则返回空IMG:: 例:IMG::5 必需有5张图片 否则返回空DOM:: 例:DOM::div.xxx 使用phpquery~SELF~ 例:~SELF~==1111 替换掉自身内容~S~ 例:~S~ 替换掉空格
分页设置说明
使用分页采集需要在 数据项 任意一项中 勾选 [有分页] 选项分页数据获取方式 采集方式 逻辑方式 当前网址分解:<%url%> 例: 当前网址 [http://www.xxx.com/asd/123213.html] 分页网址为 [http://www.xxx.com/asd/123213_2.html] [http://www.xxx.com/asd/123213_3.html] 当前网址分解:<%url%>.html 分页增量 起始编号[分页数开始数字] 结束编号[分页数结束数字] 步长[分页数的增幅度] 分页网址为 [http://www.xxx.com/asd/123213_2.html] [http://www.xxx.com/asd/123213_3.html] [http://www.xxx.com/asd/123213_20.html] 共20页 起始编号:2 结束编号:20 步长:1分页有效特征码 分页内容必需出现此特征码分页无效特征码 分页内容如果出现此特征码 停止采集 并设置为无效分页网址合成 <%url%> 分页网址 <%step%> 分页增量
希望以上内容对你有所帮助!如果还有其他问题,请随时提问。 各类知识收集 拥有多年CMS企业建站经验,对 iCMS, Fastadmin, ClassCMS, LeCMS, PbootCMS, PHPCMS, 易优CMS, YzmCMS, 讯睿CMS, 极致CMS, Wordpress, HkCMS, YznCMS, WellCMS, ThinkCMF, 等各类cms的相互转化,程序开发,网站制作,bug修复,程序杀毒,插件定制都可以提供最佳解决方案。