时间:2021-05-18
hi 各位免费火车头采集器的采友:
火车头免费版本不支持采集结果的外挂处理,比如采用php来辅助处理结果,而火车头本身对于正则表达式的不完整支持,
导致对于采集一些有混淆文字的内容效果不好,那么咱们怎么做到过滤那些混淆字串呢?
其实很简单--采用服务器端过滤
比如采集发送到服务器端是:
$_POST = array("subject"=> "这里是标题","content"=> "<div class='1fadfafasfasdf'>混淆文字</div>这里是内容");
在服务器端我们稍加处理:
$_POST["content"] = preg_replace("正则表达式","",$_POST["content"]);
就可以使用熟悉的工具完成工作。
有朋友说了,我服务器端代码是加密的怎么办?
其实很简单 比如 add.php 加密 ,那么将add.php 改名为 add_ori.php
然后建立新的 add.php
<?
//处理上传来的数据
....
include dirname(__FILE__)."/add_ori.php";
?>
这样就可以了
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
笔者一直使用火车头的v7版本,发现在采集一些网站的时候,总有些图片不能正确的获取,那么只好升级到官方的v8版本的火车头了。软件名称:火车采集器(LocoySpi
火车头很好想怎么采集就怎么采集,但是有时需要过滤一些麻烦的数字怎么办呢?今天小编就给大家一个方法!软件名称:火车采集器(LocoySpider)网页数据采集利器
所以下面给出临时的解决方法:我这里是用的火车头采集器2010sp2个人版。商业版用户的采集后的网址都存储在PageUrl目录里面的,一个任务对应一个db3.大家
火车头采集器百度空间发布模块使用说明:1.请使用火车头内置登录器登录.2.登录地址为:http://hi.baidu.com/你的空间名/3.你发贴时的地址为:
从前面的我讲的采集原理大家可以看出,绝大多数采集程序都是靠分析规则来进行采集的,如分析分页文件名规则、分析页面代码规则。一、分页文件名规则防采集对策大部分采集器