#author("2021-06-21T21:16:14+00:00","default:hotate","hotate")
#author("2023-06-04T00:34:59+00:00;2021-06-21T21:16:14+00:00","default:hotate","hotate")
#contents
&tag(Ruby, スクレイピング);
&tag(Ruby,スクレイピング);

* 情報 [#a75bcca0]
- [[sparklemotion/nokogiri: Nokogiri (鋸) is a Rubygem providing HTML, XML, SAX, and Reader parsers with XPath and CSS selector support.>https://github.com/sparklemotion/nokogiri]]
- https://nokogiri.org/index.html

* 事例 [#a71e44a3]
- [[RubyのNokogiriを使ってサイトをスクレイピングする - Think Big Act Local>http://himaratsu.hatenablog.com/entry/2013/04/27/002249]]
 映画.comから映画の情報を取得するコードを書いてみます。
- [[Nokogiri を使った Rubyスクレイピング [初心者向けチュートリアル] - 酒と泪とRubyとRailsと>http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial/]]
 WebスクレイピングとはWebサイトのHTMLデータを収集して、特定のデータを抽出・整形することです
- [[スクレイピングのためのNokogiri利用メモ - それはそれ。これはこれ。>http://d.hatena.ne.jp/otn/20090509/p1]]
- [[RubyのMechanizeとNokogiriで読書メーターをスクレイピング - THE SNOWBALL>http://blog.baboocon.com/posts/2015-04-26-bookmeter-scraping-with-ruby-mechanize-and-nokogiri/]]
 MechanizeはWebサイトとの対話を自動化するためのライブラリです。 ここでは、ログインのためのフォーム入力、ページ遷移しての処理をMechanizeのインスタンスで行っています。
- [[Ruby製の構文解析ツール、Nokogiriの使い方 with Xpath - プログラマでありたい>http://blog.takuros.net/entry/2014/04/15/070434]]
 NokogiriというかXPathの検索方法です。idやclassなどの属性値で検索することが多いですが、実は属性値であれば、なんでも使えます。属性値検索の場合は、[]で指定します。@部分が属性値の名前です。
- [[RubyでWebスクレイピング - yhara.jp>https://yhara.jp/RubyScraping]]
 CSSセレクタ
 doc.search("img.news")  # 「class="news"」が付いたimgタグの一覧
 doc.search("img#news")  # 「id="news"」が付いたimgタグの一覧

** 表 [#x8a783a4]
- [[ruby on rails - How to parse a HTML table with Nokogiri? - Stack Overflow>https://stackoverflow.com/questions/34781600/how-to-parse-a-html-table-with-nokogiri]]
 # Finds all <table>s with class open

** XML [#y20fe990]
- [[Nokogiriメモ。XMLを解析する - ぽひゅっとメモ>https://fre-oik.hatenadiary.org/entry/20110609/1307627018]]
 Nokogiriでxmlファイルを読み込む・解析のやり方について(メモ程度)。

** リンク [#bc516b11]
- [[[Ruby] Nokogiri を使って、ページ内全ての a タグの href 属性の値を取得する « Codaholic>http://codaholic.org/?p=2000]]
 Nokogiri を使って、ページ内にある a タグの href 属性を全て取得するサンプルコードです。

* インストール [#k90e90af]
- [[nokogiri を嫌いにならないで 〜インストール時のエラーを乗り越えろ〜 - Qiita>https://qiita.com/dskst/items/b1f073fcffeca3bc9fc6]]

** [[macOS]] [#q8d8c5f3]
- [[BigSur]]
- [[Catalina]]
- [[Mojave]]
- [[Bundler]]
- [[Redmine]]

** [[OSX]] [#k682c496]
*** [[El Capitan]] [#sbcdb235]
- [[ruby - Error to install Nokogiri on OSX 10.9 Maverick? - Stack Overflow>http://stackoverflow.com/questions/19643153/error-to-install-nokogiri-on-osx-10-9-maverick]]
 gem install nokogiri -- --with-xml2-include=/Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX10.11.sdk/usr/include/libxml2 --use-system-libraries
- [[OSX 10.10.2 installation problem (1.6.6.2) #1235>https://github.com/sparklemotion/nokogiri/issues/1235]]
 $ sudo gem install nokogiri -v '1.6.6.2' -- --use-system-libraries --with-xml2-include=/usr/include/libxml2 --with-xml2-lib=/usr/lib

* 関連 [#bbfbfc56]
- [[Mechanize]]

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS