需要套件

Spynner (需要 PyQt4 或 PySide, autopy)
IPython notebook (因為這個範例是用 IPython notebook 示範，不然跳過 IPython 相關部份也行) 安裝先安裝 Python, IPython notebook, PyQT4

在 mac 下(如果 autopy 安裝不起來):

先安裝 Qt。 brew 的話， brew install qt 即可。
安裝 PyQt 。 brew, pip 都行。
easy_install -N spynner
在適當的地方， touch autopy.py，如 touch /usr/local/lib/python2.7/site-packages/autopy.py。假裝有 autopy 就行了，因為 autopy 其實用不到。

在 windows 下:

安裝 python(x,y) 2.7
接下來打開 IPython 然後輸入 !easy_install spynner（win8 可用搜尋找到 IPython）
最後，打開 IPython notebook，按下 New notebook 開始。

# This is for windows 
# on linux, simply sudo easy_install spynner in command line
!easy_install spynner 
# restart the kernel

先 import 所有我們將會用到的東西

import spynner
import os, sys

# 下面這行是 IPython 相關
from IPython.display import display, Image

browser = spynner.Browser(debug_level=spynner.ERROR, debug_stream=sys.stderr)

如果看起來什麼事情都沒發生，那大概就對了。 spynner 已經在背景建立了一個 webkit 瀏覽器(叫做 browser)。
通常我們不需要 browser 真的被顯示出來，不過為了方便了解發生了什麼事情，我們先讓它能夠被顯示。

browser.show() # 告訴  browser，要它之後不要隱身
# 為了避免法律上的疑慮，這裡你要自己找到適當的 url，把 ???? 換掉
base_url = 'http://???.com/show/????-????.html?ch='  
browser.load( base_url+'1')

這時候，成功的話，一個瀏覽器會跳出來，顯示漫畫第 1 話的封面。
瀏覽器能夠改變大小，但是看來像是當掉一樣，沒有回應。
這其實是好事，因為我們希望能夠完全控制瀏覽器，所以先凍結它，再慢慢來蹂躪它。
接下來，我們要把封面圖的 url 抓出來。

browser.load_jquery(True)   #  spynner 內建有 jquery，用這個 method 載入，比較方便。
img_url = str(browser.runjs('$("#TheImg").attr("src")').toString())
print img_url
# 當然不用 jquery 也可以
img_url = str(browser.runjs('document.getElementById("TheImg").getAttribute("src")').toString())
print img_url

上面先用 runjs 跑 javascript 得到一個結果。
這個結果是一個 Qt (C++)物件，可能是數字、字串或者物件。因為我們知道我們要的是字串，所以用　.toString 讓他成為一個 Qt 字串。
最後，再用 str 轉成 Python 字串。

抓圖

知道了圖片的 url，那要如何將圖片抓下來呢？
可以用 browser.download(img_url, outfd=fd) 直接下載到檔案裏面。
不過這裡先直接在 IPython notebook 裡面秀一下圖片。

# 直接顯示 url 看看
display(Image(url=img_url, width=200))

# 先用 browser 抓下圖檔內容, 然後顯示
display(Image(data=browser.download(img_url), width=200))

漫畫每一頁的 url 格式是 .......ch=M-N 其中 M, N 是數字，分別是卷數及頁數, 所以現在我們只要知道有幾頁就行了。
一般來說，可以從 html 內容中找到資訊。 8comic 控制 UI 的 javascript 就有這個資訊了，我們直接利用。
一樣先用 runjs 得到 ps 這個 javascript 變數的內容, 然後轉成整數。
因為 toInt 的結果包含一些額外資訊，所以我們用 [0] 取出數字。

total_pages = browser.runjs('ps').toInt()[0] 
print total_pages

所以我們用一個迴圈把每一頁都抓下來吧

book_no = 1
for page in range(1, total_pages+1):
    browser.load("{}{}-{}".format(base_url, book_no, page))
    img_url = str(browser.runjs('document.getElementById("TheImg").getAttribute("src")').toString())
    print page, img_url
    display(Image(url=img_url, width=100))
    continue
    # 上面只是顯示每一頁的圖片
    # 如果你現在就想真的抓檔案下來， 把上面那個 continue 註解掉
    with open("{}-{}.jpg".format(book_no, page), "wb") as f:
        browser.download(img_url, outfd=f)
        print "File saved in", os.getcwd()

小松鼠嚇了一跳，有了魔法眼鏡後，這世界看起來完全不一樣了

2014年12月31日 星期三

2014年12月19日 星期五

2014年11月30日 星期日

平行化的好處

import 將會用到的 module

建立瀏覽器

設定 Widget

利用 ThreadPool 來下載

結果

要解決的問題

解法

一樣 import 所有我們將會用到的東西

建立瀏覽器

建立一個 QNetworkAccessManager 子類別

後面的程式碼都一樣

結果

2014年11月29日 星期六

已經可以抓了，還有什麼問題？

頻寬問題

介面問題

接下來，一樣先 import 所有我們將會用到的東西

再來是建立瀏覽器，並且設定不要載入圖片

再來是建立 Interactive Widget

下載

看起來還不錯？

2014年11月24日 星期一

需要套件

在 mac 下(如果 autopy 安裝不起來):

在 windows 下:

先 import 所有我們將會用到的東西

再來我們試試看建立瀏覽器

抓圖

2014年11月21日 星期五

2014年10月15日 星期三

Search

Popular Posts

Categories

Blog Archive

2014年12月31日星期三

2014年12月19日星期五

2014年11月30日星期日

2014年11月29日星期六

2014年11月24日星期一

2014年11月21日星期五

2014年10月15日星期三