HTMLタグを取り除く
http://www.codereading.com/codereading/python/strip-html-tags.html
ここを参考にしてHTMLタグを取り除こうと思ったら、Python 3.x系からはsgmllibが無くなってるみたいなので少し書き換え。といってもライブラリのところを置換しただけですが。
import html.parser class Stripper(html.parser.HTMLParser): def __init__(self): html.parser.HTMLParser.__init__(self) def strip(self, some_html): self.theString = "" self.feed(some_html) self.close() return self.theString def handle_data(self, data): self.theString += data