HTML や XML から狙ったデータを抽出するためのライブラリです。
Beautiful Soupは今いったような「HTMLファイルやXMLファイルからデータを抽出するためのPythonライブラリ」だ
If you only want the human-readable text inside a document or tag, you can use the get_text() method. It returns all the text in a document or beneath a tag, as a single Unicode string:
You can tell Beautiful Soup to strip whitespace from the beginning and end of each bit of text: # soup.get_text("|", strip=True)
PythonのBeautifulsoupを使って、国立国会図書館APIから取得したXMLからタイトル情報を取得する。
BeautifulSoupで使用できるパーサを次表に示す。今回はxmlパーサを使用する。
調べたところ、どうやらlxmlライブラリはC言語の拡張を使用しており、そのままではlambdaで使えないとのこと。
Pythonだけでなく、OS依存っぽいので面倒ですね。
html.parser だけが標準で含まれています。 lxml などは BeautifulSoup の依存パッケージに含まれないので、別途インストールが必要です。
以下の2点を守ると概ね幸せです。 Content-Typeヘッダーのエンコーディングを参照するコードは下の方に掲載しています。