雑記

2009年12月31日木曜日

Pythonで遊んでみる (主にurllib2とBeautiful Soup)

こんな年の瀬に何をしているんだという感じですが、少しPython使えたらなぁと思いちょっと勉強中です。
まぁちょっと簡単なコードでも書いてのせてみます。
以下、amazonの商品ページをフェッチしてパーシングして価格のみ取り出してprintするだけのコードです。

import re, urllib2
from BeautifulSoup import BeautifulSoup


url = 'http://www.amazon.co.jp/gp/product/*********/'
html = urllib2.urlopen(url).read()
priceDisp = BeautifulSoup(html).find('b',{'class':'priceLarge'})


if priceDisp:
    rePrice = priceDisp.renderContents()
    regex = re.compile(r'[\xef\xbf\xa5\s,]')
    price = regex.sub('\1', rePrice)
    print price

urllib2とBeautiful Soupというライブラリを使っております、正規表現は適当なのでご勘弁を
Google App Engineとか使えば面白そうだなぁと思いつつ、まだまだ勉強が必要そう・・・。
仕事で使うようになったら面白いんだけどなぁ