映画.comから映画の情報を取得するコードを書いてみます。
WebスクレイピングとはWebサイトのHTMLデータを収集して、特定のデータを抽出・整形することです
MechanizeはWebサイトとの対話を自動化するためのライブラリです。 ここでは、ログインのためのフォーム入力、ページ遷移しての処理を Mechanizeのインスタンスで行っています。
NokogiriというかXPathの検索方法です。idやclassなどの属性値で検索することが多いですが、実は属性値であれば、 なんでも使えます。属性値検索の場合は、[]で指定します。@部分が属性値の名前です。
CSSセレクタ doc.search("img.news") # 「class="news"」が付いたimgタグの一覧 doc.search("img#news") # 「id="news"」が付いたimgタグの一覧
# Finds all <table>s with class open
Nokogiriでxmlファイルを読み込む・解析のやり方について(メモ程度)。
Nokogiri を使って、ページ内にある a タグの href 属性を全て取得するサンプルコードです。
gem install nokogiri -- --with-xml2-include=/Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX10.11.sdk/usr/include/libxml2 --use-system-libraries
$ sudo gem install nokogiri -v '1.6.6.2' -- --use-system-libraries --with-xml2-include=/usr/include/libxml2 --with-xml2-lib=/usr/lib