时间:2021-05-18
<?php
/*********************************
*
*作者: 徐祖宁 (唠叨)
*邮箱: czjsz_ah@stats.gov.cn
*开发: 2002.07
*
*
*函数: tags
*功能: 从文件中提取HTML标签
*
*入口:
*$filename 文件名
*$tag标签名
*返回:
*数组,每项为:
*tagNameString
*TextString
*AttrsArray
*
*示例:
*print_r(tags("test1.htm","a"));
*print_r("http://localhost/index.htm","img");
*
*/
function tags($filename,$tag) {
$buffer = join("",file($filename));
$buffer = eregi_replace("\r\n","",$buffer);
$tagkey = sql_regcase($tag);
$buffer = eregi_replace("<$tagkey ","\n<$tag ",$buffer);
$ar = split("\n",$buffer);
foreach($ar as $v) {
if(! eregi("<$tagkey ",$v)) continue;
eregi("<$tagkey ([^>]*)((.*)</$tagkey)?",$v,$regs);
$p[tagName] = strtoupper($tag);
if($regs[3])
$p[Text] = $regs[3];
$s = trim(eregi_replace("[ \t]+"," ",$regs[1]))." ";
$s = eregi_replace(" *= *","=",$s);
$a = split(" ",$s);
for($i=0;$i<count($a);$i++) {
$ch = array();
if(eregi("=[\"']",$a[$i])) {
$j = $i+1;
while(!eregi("[\"']$",$a[$i])) {
$a[$i] .= " ".$a[$j];
unset($a[$j]);
}
}
}
foreach($a as $k) {
$name = strtoupper(strtok($k,"="));
$value = strtok("\0");
if(eregi("^[\"']",$value))
$value = substr($value,1,-1);
if($name)
$p[Attrs][$name] = $value;
}
$pp[] = $p;
}
return $pp;
}
?>
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
1、应用场景:从一份html文件中或从String(是html内容)中提取纯文本,去掉网页标签;2、代码一:replaceAll搞定//从html中提取纯文本p
一般来说一个HTML文档有很多标签,比如“”、“”、“”等,想把文档中的img标签提取出来并不是一件容易的事。由于img标签样式变化多端,使提取的时候用程序寻找
在爬取网页信息时,如果在HTML代码中通过获取标签的方式来提取电影的下载地址时,不仅要编写比较多的代码,还需要不断的确认每一层的标签是否正确,这样的操作无疑是烦
这里介绍一些HTML的基本标签。 基本标签的说明表 标签:标签是放在HTML文档的第一行,用来表示HTML文档已经开始。标签是放在HTML文档的最后一行
用到CSS样式和HTML标签元素为了对html不同标签加边框虚线,我们选择几个常用标签对齐设置边框虚线效果。1、html常用标签p标签spanullitable