零基础写python爬虫之爬虫的定义及URL构成

时间：2021-05-22

一、网络爬虫的定义

网络爬虫，即Web Spider，是一个很形象的名字。
把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，
然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。
如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
这样看来，网络爬虫就是一个爬行程序，一个抓取网页的程序。
网络爬虫的基本操作是抓取网页。
那么如何才能随心所欲地获得自己想要的页面？
我们先从URL开始。

二、浏览网页的过程

抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。
比如说你在浏览器的地址栏中输入的根目录。

爬虫最主要的处理对象就是URL，它根据URL地址取得所需要的文件内容，然后对它进行进一步的处理。
因此，准确地理解URL对理解网络爬虫至关重要。

好了，基础知识就先介绍到这里，接下来我们来进行点实际的爬虫操作

声明：本页内容来源网络，仅供用户参考；我单位不保证亦不表示资料全面及准确无误，也不保证亦不表示这些资料为最新信息，如因任何原因，本网内容或者用户因倚赖本网内容造成任何损失或损害，我单位将不会负任何法律责任。如涉及版权问题，请提交至online#300.cn邮箱联系删除。

零基础写python爬虫之爬虫的定义及URL构成

相关文章

Python 爬虫之超链接 url中含有中文出错及解决办法

Python网络爬虫实例讲解

零基础学python应该从哪里入手

Python抓包并解析json爬虫的完整实例代码

python定向爬取淘宝商品价格