#author("2021-06-21T21:16:14+00:00","default:hotate","hotate") #author("2023-06-04T00:34:59+00:00;2021-06-21T21:16:14+00:00","default:hotate","hotate") #contents &tag(Ruby, スクレイピング); &tag(Ruby,スクレイピング); * 情報 [#a75bcca0] - [[sparklemotion/nokogiri: Nokogiri (鋸) is a Rubygem providing HTML, XML, SAX, and Reader parsers with XPath and CSS selector support.>https://github.com/sparklemotion/nokogiri]] - https://nokogiri.org/index.html * 事例 [#a71e44a3] - [[RubyのNokogiriを使ってサイトをスクレイピングする - Think Big Act Local>http://himaratsu.hatenablog.com/entry/2013/04/27/002249]] 映画.comから映画の情報を取得するコードを書いてみます。 - [[Nokogiri を使った Rubyスクレイピング [初心者向けチュートリアル] - 酒と泪とRubyとRailsと>http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial/]] WebスクレイピングとはWebサイトのHTMLデータを収集して、特定のデータを抽出・整形することです - [[スクレイピングのためのNokogiri利用メモ - それはそれ。これはこれ。>http://d.hatena.ne.jp/otn/20090509/p1]] - [[RubyのMechanizeとNokogiriで読書メーターをスクレイピング - THE SNOWBALL>http://blog.baboocon.com/posts/2015-04-26-bookmeter-scraping-with-ruby-mechanize-and-nokogiri/]] MechanizeはWebサイトとの対話を自動化するためのライブラリです。 ここでは、ログインのためのフォーム入力、ページ遷移しての処理をMechanizeのインスタンスで行っています。 - [[Ruby製の構文解析ツール、Nokogiriの使い方 with Xpath - プログラマでありたい>http://blog.takuros.net/entry/2014/04/15/070434]] NokogiriというかXPathの検索方法です。idやclassなどの属性値で検索することが多いですが、実は属性値であれば、なんでも使えます。属性値検索の場合は、[]で指定します。@部分が属性値の名前です。 - [[RubyでWebスクレイピング - yhara.jp>https://yhara.jp/RubyScraping]] CSSセレクタ doc.search("img.news") # 「class="news"」が付いたimgタグの一覧 doc.search("img#news") # 「id="news"」が付いたimgタグの一覧 ** 表 [#x8a783a4] - [[ruby on rails - How to parse a HTML table with Nokogiri? - Stack Overflow>https://stackoverflow.com/questions/34781600/how-to-parse-a-html-table-with-nokogiri]] # Finds all <table>s with class open ** XML [#y20fe990] - [[Nokogiriメモ。XMLを解析する - ぽひゅっとメモ>https://fre-oik.hatenadiary.org/entry/20110609/1307627018]] Nokogiriでxmlファイルを読み込む・解析のやり方について(メモ程度)。 ** リンク [#bc516b11] - [[[Ruby] Nokogiri を使って、ページ内全ての a タグの href 属性の値を取得する « Codaholic>http://codaholic.org/?p=2000]] Nokogiri を使って、ページ内にある a タグの href 属性を全て取得するサンプルコードです。 * インストール [#k90e90af] - [[nokogiri を嫌いにならないで 〜インストール時のエラーを乗り越えろ〜 - Qiita>https://qiita.com/dskst/items/b1f073fcffeca3bc9fc6]] ** [[macOS]] [#q8d8c5f3] - [[BigSur]] - [[Catalina]] - [[Mojave]] - [[Bundler]] - [[Redmine]] ** [[OSX]] [#k682c496] *** [[El Capitan]] [#sbcdb235] - [[ruby - Error to install Nokogiri on OSX 10.9 Maverick? - Stack Overflow>http://stackoverflow.com/questions/19643153/error-to-install-nokogiri-on-osx-10-9-maverick]] gem install nokogiri -- --with-xml2-include=/Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX10.11.sdk/usr/include/libxml2 --use-system-libraries - [[OSX 10.10.2 installation problem (1.6.6.2) #1235>https://github.com/sparklemotion/nokogiri/issues/1235]] $ sudo gem install nokogiri -v '1.6.6.2' -- --use-system-libraries --with-xml2-include=/usr/include/libxml2 --with-xml2-lib=/usr/lib * 関連 [#bbfbfc56] - [[Mechanize]]