<b>Webクローラーの作り方をディープに解説! </b>
Webから任意の情報を引き出す「クローラー」技術の概要と、
クローラーの作成方法を解説します。
汎用的なクローラーの作成から、
ブログ・Twitter・Facebookなどターゲットごとの活用法まで、
データ収集効率を劇的にアップするクローラー技術をディープに解説します。
■本書の「はじめに」より
本書はRubyでクローラーを開発・運用できるようにするための本です。
クローラーを使えば情報収集のスピードが速くなり、
最新情報をいち早く入手できるようになります。
本書を通じてクローラーを実際に開発・運用して、それを体感してください。
クローラーというのは、自動的にWebサイトを巡回して情報収集するプログラムのことです。
Google botなどの検索エンジンロボットが代表的ですが、
個人・ビジネスに関わらず、さまざまな場面で使われています。
そう聞くと難しそうに感じるかもしれませんが、
まったくそんなことはなく、小規模なクローラーはRuby初級者でも書けます。
実は、ファイルから情報を抜き出す普通のRubyスクリプトに、
たった1行加えるだけでクローラーに変身してしまいます。
もしかしたら知らず識らずのうちにあなたもクローラーを作っていたのかもしれません。
クローラーは身近な存在です。
■本書に掲載するクローラーサンプル
・Googleの検索結果を取得する
・ブログへのクローリング
・Amazonのデータを取得する
・Twitterのデータ収集
・Facebookへのクローリング
・画像を収集する
・YouTubeから動画を収集する
・iTunes Storeの順位を取得する
・Google Playの順位を取得する
・SEOに役立てる
・Wikipediaのデータを活用する
・キーワードを収集する
・流行をキャッチする
・企業・株価情報を収集する
・為替情報・金融指標を収集する
・郵便番号と緯度経度情報を取得する
・新刊情報を収集する
・荷物を追跡する
・不動産情報を取得する
・官公庁のオープンデータを活用する
・聞の見出しを集める
■目次
Chapter 1 10分クローラーの作成
Chapter2 クローラー作成の基礎
Chapter 3 収集したデータを分析する
Chapter 4 高度な利用方法
Chapter 5 目的別クローラーの作成
Chapter 6 クローラーの運用
Google、Twitter、Facebookからのデータ収集、iTunes Store、Google Playのランキング情報、企業・株価情報・為替情報・金融指標の取得、SEOやマネジメントに役立つ情報の収集etc…データ収集効率を劇的にアップするクローラー技術をディープに解説。
佐々木 拓郎
本業は、Web系のシステムアーキテクト。
企画から設計開発、運用まで幅広く担当。
最近はクラウド×自動化をテーマに、できるだけ楽することを考えている。
休日はワインを飲みながら、趣味でアプリを開発している。
またAWSやRubyをはじめとする、
いろいろなコミュニティに出没している。
るびきち
RubyとEmacsとw3mとScreenとratpoisonとLinuxがないと生きていけないガチガチCUI系フリーライター。
テキストブラウザw3mで快適にWebを駆け回るために多数の個人用クローラーを開発。
主な著書に『Ruby逆引きハンドブック(C&R研究所)』『Emacsテクニックバイブル(技術評論社)』。
メルマガ『Emacsの鬼るびきちのココだけの話』毎週土曜日発行。
佐々木/拓郎
本業は、Web系のシステムアーキテクト。
企画から設計開発、運用まで幅広く担当
るびきち
CUI系フリーライター。
多数の個人用クローラーを開発(本データはこの書籍が刊行された当時に掲載されていたものです)
まだレビューがありません
TVerをクローリングしてつぶやいてみる
Railsでアンケートの再発明みたいなレーティングアプリ
Rubyでanemoneを使用してURLを取得するだけ
営業がプログラミングを勉強してみた
Webサイトをスクレイピングする時のちょっとしたコツ
freeeへの闘争 〜営業でも職業エンジニアに育て上げるfreeeの文化〜
Instagram APIをつかってイケてるファッションを集めたサイトを作ってみたい
[*Ruby*] RubyでGoogle Drive APIを使ってファイル一覧取得&ファイルアップロード
NokogiriでXMLの要素を取得するときの名前空間(namespace)対処
JavaScript等を用いた動的ページをスクレイピングするためのライブラリSeleniumのRubyでの使い方
2015年に読み終えた書籍
CapybaraとSeleniumを使ってGoogle検索するサンプルコード
スクレイピングした画像をRailsのViewで閲覧
webスクレイピング Ruby 学習記録①
読書メーターのスクレイピングに rubyXL, parallel が便利だった
RubyのMechanizeとNokogiriで読書メーターをスクレイピング