也谈采集入库的技术

时间:2021-05-25



落伍的贴也看了很多了,发现了很多讲小偷技术的,如精华贴里的--小偷程序原理和简单示例:
[url]http:///article/77.html"
SetOXML=server.CreateObject("Microsoft.XMLHTTP")
'下面定义两个函数,得到数据
PrivateFunctionBytesToBstr(body)'利用流进行中文编码
SetADOS=Server.CreateObject("ADODB.Stream")
DimBdat
Bdat=Body
ADOS.Type=1
ADOS.Mode=3
ADOS.Open
ADOS.WriteBdat
ADOS.Position=0
ADOS.Type=2
ADOS.Charset="GB2312"
BytesToBstr=ADOS.ReadText
ADOS.Close
EndFunction
PublicFunctionGetData(byrefurl)
'onerrorresumenext
SourceCode=OXML.open("GET",url,false)
OXML.send()
ifOXML.readystate<>4thenexitfunction
GetData=BytesToBstr(OXML.responseBody)'
iferr.number<>0thenerr.Clear
EndFunction
mydate=getdata(url)
mydate=Replace(mydate,chr(34),"")'去掉一些特殊字符,如双引号等,看自己情况定
mydate=Replace(mydate,chr(16),"")
PublicFunctionfinddate(byrefstr,byrefstart,byreflast,byrefn)
IfInstr(lcase(str),lcase(start))>0then
selectcasen
case0'左右都截取(都取前面)(去处关键字)
finddate=Right(str,Len(str)-Instr(lcase(str),lcase(start))-Len(start)+1)
finddate=Left(finddate,Instr(lcase(finddate),lcase(last))-1)
case1'左右都截取(都取前面)(保留关键字)
finddate=Right(str,Len(str)-Instr(lcase(str),lcase(start))+1)
finddate=Left(finddate,Instr(lcase(finddate),lcase(last))+Len(last)-1)
endselect
Else
finddate=""
Endif
endfunction
dimtitle,artor,content,wherefrom
title=finddate(mydate,"width=540borderColorDark=#ffffff

borderColorLight=#cccccc","</font></b>",1)
title=finddate(title,"<fontcolor='#000000'>","</font></b>",0)
artor=finddate(mydate,"作者:</b>","<b>",0)
wherefrom=finddate(mydate,"来源:</b><fontcolor=#000000>","</font>",0)
content=finddate(mydate,"</td></tr><tr><td><br>","<br><br><iframename=import_frame",0)
callintomdb(title,artor,content,wherefrom)

functionintomdb(title,artor,content,wherefrom)
'''''''''''''''''''''''''''''''''''
'''这个是入库的函数,自己定义下就可以了
'''''''''''''''''''''''''''''''''''
endfunction
%>
我这里只是以采集文章为例,其它的采集软件等都是这个道理。
说了怎么多,我也不知道各位能不能看懂,如看不动那可能是我不会表达了,大家见谅。毕竟我没读过文

科,^_^

我只是讲原理,程序是靠自己写的,要采集的速度快,你还可以写成exe的啊,这样比较快,占内存少

声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。

相关文章