时间:2021-05-25
phantomjs因为是无头浏览器可以跑js,所以同样可以跑dom节点,用来进行网页抓取是再好不过了。
比如我们要批量抓取网页 “历史上的今天” 的内容。网站
对dom结构的观察发现,我们只需要取到 .list li a的title值即可。因此我们利用高级选择器构建dom片段
var d= ''var c = document.querySelectorAll('.list li a')var l = c.length;for(var i =0;i<l;i++){d=d+c[i].title+'\n'}之后只需要让js代码在phantomjs里跑起来即可~
var page = require('webpage').create(); page.open('http:///', function (status) { //打开页面 if (status !== 'success') { console.log('FAIL to load the address'); } else { console.log(page.evaluate(function () { var d= '' var c = document.querySelectorAll('.list li a') var l = c.length; for(var i =0;i<l;i++){ d=d+c[i].title+'\n' } return d })) } phantom.exit(); });最终我们另存为catch.js,在dos里面执行一下,输出内容到txt文件(也可以用phantomjs的文件api来写)
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
Ruby中实现网页抓取,一般用的是mechanize,使用非常简单。安装复制代码代码如下:sudogeminstallmechanize抓取网页复制代码代码如下
Python爬虫不仅仅可以爬取静态网页,也可以爬取抓取动态网页。但是新版的Selenium不支持PhantomJS,无法进行动态网页的爬取,因此要放弃Phant
获取网页快照并生成缩略图可分两步进行:1、获取网页快照2、生成缩略图获取网页快照这里我们用phantomjs来实现。关于phantomjs的详细用法可参考官方网
最基本的抓取网页内容的代码实现:#!/usr/bin/envpythonfromurllibimporturlretrievedeffirstNonBlank(
本文实例讲述了ASP.NET抓取网页内容的实现方法。分享给大家供大家参考。具体实现方法如下:一、ASP.NET使用HttpWebRequest抓取网页内容复制代