收藏本页 | 设为主页 | 网站首页  

上海雷煜自动化科技有限公司

主营:模温机,吹瓶机,制袋机,植保无人机

网站公告
欢迎光临上海雷煜自动化科技有限公司
详情咨询客服QQ:553987032
有事儿您Q我!
?
公司资讯
站内搜索
 
香港神码高手论坛
Python爬虫下载美女图片(不同网站不同方法)
发布时间:2019-09-06        浏览次数:        

  通过urllib.request.Request(image_url)获取图片,然后写入本地,看到路径下多了一张图片,说明整个爬虫实现是可实现的

  5. 分析:豆瓣图片下载用比较简单的爬虫就能实现,网站唯一的控制好像只有不能频繁调用,所以豆瓣不适合用多线程调用

  2. Test_Url.py,双重循化先获取图片人物地址,在获取人物每页的图片

  3. 下载图片 Test_Down.py,用豆瓣下载的方法下载,发现不论下载多少张,都是一样的下面图片

  这个就有点尴尬了,妹子图片地址都有了,就是不能下载,浏览器打开的时候也是时好时坏,网上也找不到原因,当然楼主最终还是找到原因了, 阜新公务员报考条件浅谈数学运算下面先贴上代码

  可以看到下载成功,改用requests.get方法获取图片内容,这种请求方法方便设置头文件headers(urllib.request怎么设置headers没有研究过),headers里面有个Referer参数,必须设置为此图片的进入地址,从浏览器F12代码可以看出来,如下图

  5. 分析:MM131图片下载主要问题是保存图片的时候需要用headers设置Referer

  从上面关键结果可以看到,span class=img-hash后面的一长串哈希字符才是图片地址,网站打开时候动态转换位图片地址显示的,这个时候只想说三个字MMP

  不过上有政策,下有对策,那就把这些hash字符串转为图片地址了,怎么转呢? 以下提供两种方案

  (1)通过Python的execjs模块直接调用JS里面的函数,将这个hash转为图片地址,具体实现就是把当前网页保存下来,然后找到里面的js转换方法函数,单独拎出来写在一个JS里面

  此种方法只提供思路,楼主找到的JS如下 OOXX.js,实际调用报错了,这个方法应该会比方法二速度快很多,所以还是贴上未完成代码供读者参阅研究

  用Chrome无头浏览器需要Chrome60以上版本,根据Chrome版本下载对应(下图对面关系)的chromedrive.exe(说是好像Chrome60以上版本自带无头浏览器功能,楼主没有成功实现,还是老老实实下载了chromedriver,下载地址:

  5. 分析:用调用chrome方法速度会比较慢,不过这个方法会是反爬虫技术越来越先进的必然选择,如何提速才是要考虑的关键

  速度快,很容易被发现,不能获取js执行后的网页内容

  速度快,可以实现伪装,不能获取js执行后的网页内容

  速度慢,雪佛兰迈锐宝最快跑多少!等于浏览器访问,可以获取js执行后的网页内容

?
4748开奖结果| ok442小鱼儿| 状元红心水主论坛| 00676金光佛| 跑狗网开奖现场| 118cc九龙图| 万众堂| 小鱼儿网站| 搜码网| 白小姐心水| 扬红公式心水论| 乖乖图库| 护民图库| 开奖记录| 白小姐的马报图|