下面是一个python
小程序,用来获取对应网址上的图片,并保存到本地D://imgs_from_yinwoods/
目录下(linux系统会在当前目录下生成对应文件夹)
|
|
最近重新看这份代码,发现写的非常不好,而且试了下运行的话会报403错误。原因是该网站不允许爬虫直接读取页面内容。
那我们所要做的就是给爬虫穿上伪装的外衣就好了。在尝试读取网页内容的时候为头信息添加User-Agent即可。
还要注意的是这里不能用urllib.request.urlretrieve()
,原因是无法赋予User-Agent信息,所以我采用了读取文件源码再写到本地的方法。
另外我又加了多线程机制提高爬取效率。
代码如下:
|
|