爬取百度圖片需要下載什麼庫_Python如何爬取百度圖片

A. 怎麼從百度簡單大量的下載圖片

最簡單的方法就是用大仙一鍵搬圖軟體，去下載網路圖片，可以按照關鍵詞次下載，挺號用的。

B. Python3.xx中寫爬蟲，下載圖片除了urlretrieve方法，還有什麼庫的什麼方法呢

Part 1. urllib2
urllib2是Python標准庫提供的與網路相關的庫，是寫爬蟲最常用的一個庫之一。
想要使用Python打開一個網址，最簡單的操作即是：
your_url = "http://publicdomainarchive.com/"html = urllib2.urlopen(your_url).read()12

這樣所獲得的就是對應網址(url)的html內容了。
但有的時候這么做還不夠，因為目前很多的網站都有反爬蟲機制，對於這么初級的代碼，是很容易分辨出來的。例如本文所要下載圖片的網站http://publicdomainarchive.com/，上述代碼會返回HTTPError: HTTP Error 403: Forbidden錯誤。
那麼，在這種情況下，下載網路圖片的爬蟲（雖然只有幾行代碼，但一個也可以叫做爬蟲了吧，笑），就需要進一步的偽裝。
要讓爬蟲偽裝成瀏覽器訪問指定的網站的話，就需要加入消息頭信息。所謂的消息頭信息就是在瀏覽器向網路伺服器發送請求時一並發送的請求頭(Request Headers)信息和伺服器返回的響應頭(Response Headers)信息。
例如，使用FireFox打開http://publicdomainarchive.com/時所發送的Request Headers的部分內容如下：
Host:"publicdomainarchive.com/"User-Agent:"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0"Accept:"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"...1234

還有一些其他屬性，但其中偽裝成瀏覽器最重要的部分已經列出來了，即User-Agent信息。
要使用Headers信息，就不能再僅僅向urlopen方法中傳入一個地址了，而是需要將HTTP Request的Headers封裝後傳入：
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}req = urllib2.Request(url = url, headers = headers)content = urllib2.urlopen(req).read()123

這樣，就獲得了網站的html內容。
接下來，就需要從html去獲取圖片的鏈接。
Part 2. HTMLParser
HTMLParser是Python提供的HTML解析庫之一。
但Python提供的這個類中很多方法都沒有實現，因而基本上這個庫只負責進行解析，但解析完了什麼都不做。所以如果需要對HTML中的某些元素進行加工的話，就需要用戶自己去實現其中的一些方法。本文僅實現其中的handle_starttag方法：
class MyHTMLParser(HTMLParser): #繼承HTMLParser類
def __init__(self): #初始化
HTMLParser.__init__(self) def handle_starttag(self, tag, attrs):
#參數tag即由HTMLParser解析出的開始標簽，attrs為該標簽的屬性
if tag == "img": #下載圖片所需要的img標簽
if len(attrs) == 0: pass
else: for (variable, value) in attrs: #在attrs中找到src屬性，並確定其是我們所要下載的圖片，最後將圖片下載下來（這個方法當然也有其他的寫法）
if variable == "src" and value[0:4] == 'http' and value.find('x') >= 0:
pic_name = value.split('/')[-1] print pic_name
down_image(value, pic_name)123456789101112131415

Part 3. 下載圖片
從handle_starttag方法中，我們已經獲得了圖片的url，那麼，最後一步，我們要下載圖片了。
當然，要獲得網路上的圖片，自然也需要向伺服器發送請求，一樣需要用到urllib2這個庫，也需要用到上面所用到的請求頭。
以下是down_image()方法的主要代碼：
binary_data = urllib2.urlopen(req).read()
temp_file = open(file_name, 'wb')
temp_file.write(binary_data)
temp_file.close()1234

因為這次打開的網址是個圖片，所以urllib2.urlopen(req).read()所獲取的就是圖片的數據，將這些數據需要以二進制的方式寫入本地的圖片文件，即將圖片下載下來了。
因為圖片的url的最後一部分是圖片的名字，所以可以直接用做本地的文件名，不用擔心命名沖突，也不用擔心後綴不符，很是方便。
Part 4. getFreeImages.py
這個下載圖片的腳本的完整代碼如下：
import urllib2,osfrom HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):
def __init__(self):
HTMLParser.__init__(self) #self.links = {}

def handle_starttag(self, tag, attrs):
#print "Encountered the beginning of a %s tag" % tag
if tag == "img": if len(attrs) == 0: pass
else: for (variable, value) in attrs: if variable == "src" and value[0:4] == 'http' and value.find('x') >= 0:
pic_name = value.split('/')[-1] print pic_name
down_image(value, pic_name)def down_image(url,file_name):
global headers
req = urllib2.Request(url = url, headers = headers)
binary_data = urllib2.urlopen(req).read()
temp_file = open(file_name, 'wb')
temp_file.write(binary_data)
temp_file.close()if __name__ == "__main__":
img_dir = "D:\\Downloads\\domain images"

if not os.path.isdir(img_dir):
os.mkdir(img_dir)

os.chdir(img_dir) print os.getcwd()
url = ""
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}
all_links = []
hp = MyHTMLParser() for i in range(1,30):
url = 'http://publicdomainarchive.com/public-domain-images/page/' + str(i) + '/'
req = urllib2.Request(url = url, headers = headers)
content = urllib2.urlopen(req).read()
hp.feed(content)

hp.close()041424344454647484950

C. 如何快速下載百度圖片網頁上的圖片

右擊圖片，在彈出的窗口中選擇圖片另存為，再選擇要存放的地點，再點保存，就OK了

D. 在百度下載圖片要安裝什麼軟體

不用什麼軟體，直接點擊右鍵，另存為，就可以了。
假如，你是想批量下載整頁的圖片，可以網頁另存為。也可以使用批量下載工具。這個看你的需求了。

E. 怎麼樣下載百度上的圖片

進入網路
圖片庫
，在你想下載的圖片上，用滑鼠右鍵點擊圖片，然後再點「圖片另存為」，就可以把圖片保存到你的電腦里了。

F. python 爬取圖片，沒有後綴名

首先你要安裝Pillow這個庫，它可以幫助你獲取這個圖片的類型。

importcStringIO,urllib2,time
fromPILimportImage

url='http://mmbiz.qpic.cn/mmbiz/KrBnGnvYojpichqTUY5X3g/0'
req=urllib2.urlopen(url)
data=req.read()
tmpIm=cStringIO.StringIO(data)
im=Image.open(tmpIm)

tm='%s.%s'%(int(time.time()),im.format.lower())
withopen(tm,'wb')asfp:
fp.write(data)

給分吧，哈啊哈。

如果解決了您的問題請採納！
如果未解決請繼續追問！

G. 如何批量下載百度圖片（大圖，不是縮略圖）

批量下載網路圖片的方式如下：

1、首先，打開一個網頁，這里拿網路經驗舉例。

2、滑鼠右擊網頁空白處，選擇下載工具下載全部鏈接

3、選擇文件過濾，只要圖片類型的文件。看清提示，然後點擊下載保存。

4、等待下載完成之後找到，下載工具的下載目錄

5、最後，確認一下是不是網頁內所有圖片都下載下來了。

H. Python如何爬取百度圖片

幾乎所有的網站都會有反爬機制，這就需要在爬取網頁時攜帶一些特殊參數，比如：user-agent、Cookie等等，可以在寫代碼的時候用工具將所有參數都帶上。

I. 如何用python3.x爬取百度圖片

網路的反爬蟲機制觸發了，它檢測到你是爬蟲所以拒絕了你的請求。
這個東西比較復雜，建議網上搜一搜反爬蟲機制，然後一個一個試解決辦法。
最簡單的就是通過代理伺服器來爬。
最後建議你可以試一試requests庫，我在爬取微博圖床的時候只用requests庫就完美解決了反爬蟲，再沒報過錯。

J. 怎麼才能批量下載百度圖片

網路圖片搜索結果不能直接批量下載，但是可以藉助軟體實現：

1.網路一下「網路圖片批量下載」可以輕松找到這樣的軟體。下載，無須安裝就可以使用。

3.輸入搜索內容後，回車就可自動下載圖片，當然你也個別圖片無法下載。

爬取百度圖片需要下載什麼庫

與爬取百度圖片需要下載什麼庫相關的內容