之前在码农网看过python的爬虫小技巧,但是我认为总结地不够全面,而且在这段编写爬虫的过程中,也形成了自己的套路~
特意在这里分享给大家,当然一方面也是以后忘记了留作参考。
1、基本网页抓取
包含伪装浏览器访问(解决403错误)
使用代理,避免长时间爬取被封本机IP
处理网页gzip压缩
HTTPError异常处理
|
|
2、Mysql数据库操作
一般在类的构造函数init中完成数据库的连接,在析构函数中断开连接。
示例如下:
|
|
3、把json格式数据插入表中
首先使用toJson()函数把我们要插入的数据项转为json格式,再使用jsonINTOMysql()函数将json格式数据插入mysql中。
|
|
4、对爬取数据的乱码进行解析
有时我们需要爬取的是单独的json格式数据(请参考利用爬虫爬取js生成数据),可能会发现json中的数据是经过编码的,例如我爬取汽车之家车辆的详细参数配置时,会发现json中的数据为:
|
|
这种编码相信大家看着很熟悉,就像我们把包含中文的url地址复制粘贴下来的结果,那么我们该怎么对这种数据进行解码呢?
使用这种方式:
|
|
5、requests通过post提交表单数据(一般用于模拟登录)
requests的post实现依赖于维持一个session,也就是说在session存在期间,我们可以以登录的身份来获取其他需要登录后才能获取的页面源码。
简单使用如下:
|
|