时间:2021-05-19
废话不多说,直接上代码
/** To change this license header, choose License Headers in Project Properties.* To change this template file, choose Tools | Templates* and open the template in the editor.*//* * File: main.cpp* Author: yangchao**/#include <iostream>#include <string>#include <netdb.h>#include <string.h>#include <stdlib.h>using namespace std;void parseHostAndPagePath(const string url,string &hostUrl,string &pagePath){hostUrl=url;pagePath="/";int pos=hostUrl.find("http://");if(-1!=pos)hostUrl=hostUrl.replace(pos,7,"");pos=hostUrl.find("https://");if(-1!=pos)hostUrl=hostUrl.replace(pos,8,"");pos=hostUrl.find("/");if(-1!=pos){pagePath=hostUrl.substr(pos);hostUrl=hostUrl.substr(0,pos);}}string getPageContent(const string url){struct hostent *host;string hostUrl,pagePath;parseHostAndPagePath(url,hostUrl,pagePath);if(0==(host=gethostbyname(hostUrl.c_str()))){cout<<"gethostbyname error\n"<<endl;exit(1);}struct sockaddr_in pin;int port=80;bzero(&pin,sizeof(pin));pin.sin_family=AF_INET;pin.sin_port=htons(port);pin.sin_addr.s_addr=((struct in_addr*)(host->h_addr))->s_addr;int isock;if((isock=socket(AF_INET,SOCK_STREAM,0))==-1){cout<<"open socket error\n"<<endl;exit(1);}string requestHeader;requestHeader="GET "+pagePath+" HTTP/1.1\r\n";requestHeader+="Host: "+hostUrl+"\r\n";requestHeader+="Accept: */*\r\n";requestHeader+="User-Agent: Mozilla/4.0(compatible)\r\n";requestHeader+="connection:Keep-Alive\r\n";requestHeader+="\r\n";if(connect(isock,(const sockaddr*)&pin,sizeof(pin))==-1){cout<<"connect error\n"<<endl;exit(1);}if(send(isock,requestHeader.c_str(),requestHeader.size(),0)==-1){cout<<"send error\n"<<endl;exit(1);}struct timeval timeout={1,0};setsockopt(isock,SOL_SOCKET,SO_RCVTIMEO,(char*)&timeout,sizeof(struct timeval));char c;bool flag=true;while(recv(isock,&c,1,0)>0){if('\r'==c){continue;}else if('\n'==c){if(false==flag)break;flag=false;}else{flag=true;}}int len,BUFFER_SIZE=512;char buffer[BUFFER_SIZE];string pageContent="";while((len=recv(isock,buffer,BUFFER_SIZE-1,0))>0){buffer[len]='\0';pageContent+=buffer;}return pageContent;}int main(int argc, char** argv) {cout<<getPageContent("http://")<<endl;return 0;}以上这篇linux c++模拟简易网络爬虫实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了python爬虫模拟浏览器的两种方法。分享给大家供大家参考,具体如下:爬虫爬取网站出现403,因为站点做了防爬虫的设置一、Herders属性爬取C
linux下的C\C++多进程多线程编程实例详解1、多进程编程#include#include#includeintmain(){pid_tchild_pid;
python网络编程详解网络编程的专利权应该属于Unix,各个平台(如windows、Linux等)、各门语言(C、C++、Python、Java等)所实现的符
C++实现统计代码运行时间计时器的简单实例一、前言这里记下从网上找到的一些自己比较常用的C++计时代码二、Linux下精确至毫秒#include#include
概述这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识。什么是网络爬虫简单的讲,网络爬虫就是模拟人