python制作爬虫***美男图片人工智能筛选颜值高的保存下来_爬虫_实战
有时候,你可能从某个网页上看到一段信息,以为非常符合口味,于是动手把它存下来了。这个读取并且存储数据的过程,和一次网络爬虫爬取是类似的。百度,谷歌等搜索引擎,相信大家都用过,它是怎么实现搜索功能的呢?
实在全靠爬虫。他们的网络爬虫一直的爬取互联网的信息并且把认为有用的存下来,当用户输入关键词搜索时,百度谷歌把关键词和自己的数据库匹配,把最干系的网页展示给用户,这样就完成了一次搜索。
咱们再设想一个场景:有一天,你可能看到某个网站上很多信息都很好,一个一个网页的打开并且存储真是麻烦去世了。那么这个时候就可以借助网络爬虫,乃至把全体网站的信息都爬取下来。这也是爬虫的一个用场。
python网络爬虫经由上面的阐明,可以知道,网络爬虫的行为和咱们利用浏览器的行为很像。那么,这里先容的python网络爬虫实在便是仿照浏览器的。
上图是一组图片,如果咱们想把这些图片都保存下来,一张一张的保存实在太费事了。彷佛有迅雷可以***全部链接,但是它会把不该***的也***下来,比如红框圈中的那个怪男。
右键,查看网页源代码:
得到很多很多字符,咱们只关心图片链接,打开上图红框圈中的链接,得到图片如下:
显然图片的链接在网页的源代码中,那么怎么写这个python实战项目,网络爬虫呢?
python实战项目1. 首先获取网页的源代码
实际上便是仿照浏览器要求那个图片网页的网址。不多说,直接看源码,很大略
运行后,会创造刚才咱们在浏览器查看的源代码被打印出来了。
2. python项目实战,提取出图片链接
怎么从一大堆字符里提取出关键的美女图片链接呢?答案是利用正则表达式,关于正则表达式,可以参考:
python根本,什么是正则表达式,正则表达式的利用
利用正则表达式的第一步是找出链接的规律,它在哪些位置涌现。这里粗略的试一下:
运行实战项目的 python 网络爬虫脚本,创造我们成功了,得到了一系列的图片地址:
3. python实战项目,***图片
得到了图片的链接后,咱们怎么把它们存下来呢?答案便是,再仿照浏览器访问一次图片链接,然后把得到的数据写到文件即可。咱们直接上代码:
在实行代码前,先创建一个文件夹 pic 用来存图片,然后实行实战项目python脚本,得到
成功了!
4. python实战项目,筛选图片
可以看到,虽然图片被爬取下来了,但并不是完美的,由于怪男也被***下来了。怎么筛选呢?实际上,可以参考我们前面的博客:
python实战小项目,人脸检测,让电脑对你的颜值打分
咱们只*** female(女),颜值大于 55 分的,代码如下:
代码展示有点乱,可以点击文章结尾处的“理解更多”。
运行实战项目python脚本,得到结果如下:
可以看出,怪男被剔除了,***的基本都是颜值较高的美女图片,这样我们就完成了实战项目,python 人工智能爬虫 — 选择性的爬取图片。
本文系作者个人观点,不代表本站立场,转载请注明出处!