时间:2021-05-25
落伍的贴也看了很多了,发现了很多讲小偷技术的,如精华贴里的--小偷程序原理和简单示例:
[url]http:///article/77.html"
SetOXML=server.CreateObject("Microsoft.XMLHTTP")
'下面定义两个函数,得到数据
PrivateFunctionBytesToBstr(body)'利用流进行中文编码
SetADOS=Server.CreateObject("ADODB.Stream")
DimBdat
Bdat=Body
ADOS.Type=1
ADOS.Mode=3
ADOS.Open
ADOS.WriteBdat
ADOS.Position=0
ADOS.Type=2
ADOS.Charset="GB2312"
BytesToBstr=ADOS.ReadText
ADOS.Close
EndFunction
PublicFunctionGetData(byrefurl)
'onerrorresumenext
SourceCode=OXML.open("GET",url,false)
OXML.send()
ifOXML.readystate<>4thenexitfunction
GetData=BytesToBstr(OXML.responseBody)'
iferr.number<>0thenerr.Clear
EndFunction
mydate=getdata(url)
mydate=Replace(mydate,chr(34),"")'去掉一些特殊字符,如双引号等,看自己情况定
mydate=Replace(mydate,chr(16),"")
PublicFunctionfinddate(byrefstr,byrefstart,byreflast,byrefn)
IfInstr(lcase(str),lcase(start))>0then
selectcasen
case0'左右都截取(都取前面)(去处关键字)
finddate=Right(str,Len(str)-Instr(lcase(str),lcase(start))-Len(start)+1)
finddate=Left(finddate,Instr(lcase(finddate),lcase(last))-1)
case1'左右都截取(都取前面)(保留关键字)
finddate=Right(str,Len(str)-Instr(lcase(str),lcase(start))+1)
finddate=Left(finddate,Instr(lcase(finddate),lcase(last))+Len(last)-1)
endselect
Else
finddate=""
Endif
endfunction
dimtitle,artor,content,wherefrom
title=finddate(mydate,"width=540borderColorDark=#ffffff
borderColorLight=#cccccc","</font></b>",1)
title=finddate(title,"<fontcolor='#000000'>","</font></b>",0)
artor=finddate(mydate,"作者:</b>","<b>",0)
wherefrom=finddate(mydate,"来源:</b><fontcolor=#000000>","</font>",0)
content=finddate(mydate,"</td></tr><tr><td><br>","<br><br><iframename=import_frame",0)
callintomdb(title,artor,content,wherefrom)
functionintomdb(title,artor,content,wherefrom)
'''''''''''''''''''''''''''''''''''
'''这个是入库的函数,自己定义下就可以了
'''''''''''''''''''''''''''''''''''
endfunction
%>
我这里只是以采集文章为例,其它的采集软件等都是这个道理。
说了怎么多,我也不知道各位能不能看懂,如看不动那可能是我不会表达了,大家见谅。毕竟我没读过文
科,^_^
我只是讲原理,程序是靠自己写的,要采集的速度快,你还可以写成exe的啊,这样比较快,占内存少
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
前言要实现采集,默认方式是根据配置好的采集规则,在浏览器提交相应的参数即可完成后面的采集入库全部动作。而实现定时采集,与人工在浏览器提交有些区别,主要分两大步骤
接着这篇文章Node.js+jade抓取博客所有文章生成静态html文件的实例继续,在这篇文章中实现了采集与静态文件的生成,在实际的采集项目中,应该是先入库再选
本文实例讲述了删除MySQL重复数据的方法。分享给大家供大家参考。具体方法如下:项目背景在最近做的一个linux性能采集项目中,发现线程的程序入库很慢,再仔细定
淘宝还没有采集路口的时候,商家要增加品牌先是打电话给淘宝之后再由热线小二提交申请,最后再由品牌库的人审核,整个过程耗时比较多。但现在淘宝品牌入库方面比以前既
淘宝还没有采集路口的时候,商家要增加品牌先是打电话给淘宝之后再由热线小二提交申请,最后再由品牌库的人审核,整个过程耗时比较多。但现在淘宝品牌入库方面比以前既快又