时间:2021-05-26
前言
当想用 nodejs 抓取一些网页 , 我第一反应想到的就是使用 http 模块 , 比如抓取百度首页:
var http = require('http');var req = http.request('http:///', function (status) { var data; if (status === 'fail') { console.log('open page fail!'); } else { console.log(page.content);//打印出HTML内容 } page.close();//关闭网页 phantom.exit();//退出phantomjs命令行});这里有个 webpage 模块 , 我们刚才明明没有这个模块 , 为什么能引用这个模块 ???
当然不能引用 , 假如我们使用 node main.js 来跑这段代码 , 是跑不起来的 , 应该这样运行这段代码 :
npm run phantomjs main.js这里的 npm run phantomjs 对应的就是前面我们在 package.json 里加入的那段命令 , 很方便吧 , 几乎和 http 模块一样方便。
page.content 就是 html 代码了 , 这个 page 对象还有很多的属性 , 功能更强大。
到这里 , 你就已经算入门了 , 想知道更多可以去 phantomjs 官网看看文档了。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流,谢谢大家对的支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
vue.js开发环境搭建教程分享,具体内容如下1、安装node.js,忽略2、基于node.js,利用淘宝npm镜像安装相关依赖在cmd里直接输入:npmins
node.js实现抓取代理ip主要文件:index.js/**支持:node.jsv7.9.0*/constcheerio=require('cheerio')
Node.JS有一个request模块,可以很方便的抓取网页内容。最简单的一个示例:varrequest=require('request');request(
Node.js抓取非utf-8的中文网页时会出现乱码问题,比如网易的首页编码是gb2312,抓取时会出现乱码复制代码代码如下:varrequest=requir
Linux使用Node.js建立访问静态网页的服务实例详解一、安装node.js运行所需要的环境,:二、创建node目录(/node/www),并在目录下创建n