爬取百度图片需要下载什么库_Python如何爬取百度图片

A. 怎么从百度简单大量的下载图片

最简单的方法就是用大仙一键搬图软件，去下载网络图片，可以按照关键词次下载，挺号用的。

B. Python3.xx中写爬虫，下载图片除了urlretrieve方法，还有什么库的什么方法呢

Part 1. urllib2
urllib2是Python标准库提供的与网络相关的库，是写爬虫最常用的一个库之一。
想要使用Python打开一个网址，最简单的操作即是：
your_url = "http://publicdomainarchive.com/"html = urllib2.urlopen(your_url).read()12

这样所获得的就是对应网址(url)的html内容了。
但有的时候这么做还不够，因为目前很多的网站都有反爬虫机制，对于这么初级的代码，是很容易分辨出来的。例如本文所要下载图片的网站http://publicdomainarchive.com/，上述代码会返回HTTPError: HTTP Error 403: Forbidden错误。
那么，在这种情况下，下载网络图片的爬虫（虽然只有几行代码，但一个也可以叫做爬虫了吧，笑），就需要进一步的伪装。
要让爬虫伪装成浏览器访问指定的网站的话，就需要加入消息头信息。所谓的消息头信息就是在浏览器向网络服务器发送请求时一并发送的请求头(Request Headers)信息和服务器返回的响应头(Response Headers)信息。
例如，使用FireFox打开http://publicdomainarchive.com/时所发送的Request Headers的部分内容如下：
Host:"publicdomainarchive.com/"User-Agent:"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0"Accept:"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"...1234

还有一些其他属性，但其中伪装成浏览器最重要的部分已经列出来了，即User-Agent信息。
要使用Headers信息，就不能再仅仅向urlopen方法中传入一个地址了，而是需要将HTTP Request的Headers封装后传入：
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}req = urllib2.Request(url = url, headers = headers)content = urllib2.urlopen(req).read()123

这样，就获得了网站的html内容。
接下来，就需要从html去获取图片的链接。
Part 2. HTMLParser
HTMLParser是Python提供的HTML解析库之一。
但Python提供的这个类中很多方法都没有实现，因而基本上这个库只负责进行解析，但解析完了什么都不做。所以如果需要对HTML中的某些元素进行加工的话，就需要用户自己去实现其中的一些方法。本文仅实现其中的handle_starttag方法：
class MyHTMLParser(HTMLParser): #继承HTMLParser类
def __init__(self): #初始化
HTMLParser.__init__(self) def handle_starttag(self, tag, attrs):
#参数tag即由HTMLParser解析出的开始标签，attrs为该标签的属性
if tag == "img": #下载图片所需要的img标签
if len(attrs) == 0: pass
else: for (variable, value) in attrs: #在attrs中找到src属性，并确定其是我们所要下载的图片，最后将图片下载下来（这个方法当然也有其他的写法）
if variable == "src" and value[0:4] == 'http' and value.find('x') >= 0:
pic_name = value.split('/')[-1] print pic_name
down_image(value, pic_name)123456789101112131415

Part 3. 下载图片
从handle_starttag方法中，我们已经获得了图片的url，那么，最后一步，我们要下载图片了。
当然，要获得网络上的图片，自然也需要向服务器发送请求，一样需要用到urllib2这个库，也需要用到上面所用到的请求头。
以下是down_image()方法的主要代码：
binary_data = urllib2.urlopen(req).read()
temp_file = open(file_name, 'wb')
temp_file.write(binary_data)
temp_file.close()1234

因为这次打开的网址是个图片，所以urllib2.urlopen(req).read()所获取的就是图片的数据，将这些数据需要以二进制的方式写入本地的图片文件，即将图片下载下来了。
因为图片的url的最后一部分是图片的名字，所以可以直接用做本地的文件名，不用担心命名冲突，也不用担心后缀不符，很是方便。
Part 4. getFreeImages.py
这个下载图片的脚本的完整代码如下：
import urllib2,osfrom HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self) #self.links = {}

def handle_starttag(self, tag, attrs):
#print "Encountered the beginning of a %s tag" % tag
if tag == "img": if len(attrs) == 0: pass
else: for (variable, value) in attrs: if variable == "src" and value[0:4] == 'http' and value.find('x') >= 0:
pic_name = value.split('/')[-1] print pic_name
down_image(value, pic_name)def down_image(url,file_name):
global headers
req = urllib2.Request(url = url, headers = headers)
binary_data = urllib2.urlopen(req).read()
temp_file = open(file_name, 'wb')
temp_file.write(binary_data)
temp_file.close()if __name__ == "__main__":
img_dir = "D:\\Downloads\\domain images"

if not os.path.isdir(img_dir):
os.mkdir(img_dir)

os.chdir(img_dir) print os.getcwd()
url = ""
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}
all_links = []
hp = MyHTMLParser() for i in range(1,30):
url = 'http://publicdomainarchive.com/public-domain-images/page/' + str(i) + '/'
req = urllib2.Request(url = url, headers = headers)
content = urllib2.urlopen(req).read()
hp.feed(content)

hp.close()041424344454647484950

C. 如何快速下载百度图片网页上的图片

右击图片，在弹出的窗口中选择图片另存为，再选择要存放的地点，再点保存，就OK了

D. 在百度下载图片要安装什么软件

不用什么软件，直接点击右键，另存为，就可以了。
假如，你是想批量下载整页的图片，可以网页另存为。也可以使用批量下载工具。这个看你的需求了。

E. 怎么样下载百度上的图片

进入网络
图片库
，在你想下载的图片上，用鼠标右键点击图片，然后再点“图片另存为”，就可以把图片保存到你的电脑里了。

F. python 爬取图片，没有后缀名

首先你要安装Pillow这个库，它可以帮助你获取这个图片的类型。

importcStringIO,urllib2,time
fromPILimportImage

url='http://mmbiz.qpic.cn/mmbiz/KrBnGnvYojpichqTUY5X3g/0'
req=urllib2.urlopen(url)
data=req.read()
tmpIm=cStringIO.StringIO(data)
im=Image.open(tmpIm)

tm='%s.%s'%(int(time.time()),im.format.lower())
withopen(tm,'wb')asfp:
fp.write(data)

给分吧，哈啊哈。

如果解决了您的问题请采纳！
如果未解决请继续追问！

G. 如何批量下载百度图片（大图，不是缩略图）

批量下载网络图片的方式如下：

1、首先，打开一个网页，这里拿网络经验举例。

2、鼠标右击网页空白处，选择下载工具下载全部链接

3、选择文件过滤，只要图片类型的文件。看清提示，然后点击下载保存。

4、等待下载完成之后找到，下载工具的下载目录

5、最后，确认一下是不是网页内所有图片都下载下来了。

H. Python如何爬取百度图片

几乎所有的网站都会有反爬机制，这就需要在爬取网页时携带一些特殊参数，比如：user-agent、Cookie等等，可以在写代码的时候用工具将所有参数都带上。

I. 如何用python3.x爬取百度图片

网络的反爬虫机制触发了，它检测到你是爬虫所以拒绝了你的请求。
这个东西比较复杂，建议网上搜一搜反爬虫机制，然后一个一个试解决办法。
最简单的就是通过代理服务器来爬。
最后建议你可以试一试requests库，我在爬取微博图床的时候只用requests库就完美解决了反爬虫，再没报过错。

J. 怎么才能批量下载百度图片

网络图片搜索结果不能直接批量下载，但是可以借助软件实现：

1.网络一下“网络图片批量下载”可以轻松找到这样的软件。下载，无须安装就可以使用。

3.输入搜索内容后，回车就可自动下载图片，当然你也个别图片无法下载。

爬取百度图片需要下载什么库

与爬取百度图片需要下载什么库相关的内容