クローリングハックあらゆるWebサイトをクロールするための実践テクニック

翔泳社 2017/09

竹添直樹島本多可子田所駿佑萩野貴拓川上桃子

amazonで見る

この書籍の内容

内容紹介

Webアプリケーション、Webサービスを開発・運用する

エンジニアは、HTML/HTTPやWebサーバなどWeb技術の

仕組みや基礎的な知識をおさえておかなければなりません。

本書では、実サービスでの大規模なWebクローラーの

開発・運用経験をもとに、クローラーを支える、HTTP、

文字コード、HTML、認証、Ajax/JSONなど、Webエンジニアが

おさえておくべきポイントやテクニックを学びます。

クローラーから見たWebサイトの仕組みとその実情に加えて、

現実に即した実践的かつ効率的なクローリングの方法論に

ついても解説します。

○実例をもとにHTTPやHTMLなどWebの仕組みを深く知ることができる

○大規模なクローラーの開発・運用ノウハウを知ることができる

○Webサイトの運営者(クロールされる側)もクローラーに関する知見を得ることができる

【対象読者】

本書はWebクローラーを題材としていますが、クローリングのために

必要なWeb技術の解説に重点を置いており、

主に次のような方々に読んでいただけるよう執筆しました。

● 正しい知識を身につけたいWeb開発者

● クローラビリティの高いWebサイトを作成したいWebサイト運営者

また、HTMLやCSSなど、Webサイトの作成に関わる最低限の知識、

およびサンプルコードを読解するためのプログラミングに関する基礎知識を

前提としています。

サンプルコードはJavaで記述していますが、

Java固有のセマンティクスやプログラミングテクニックは可能な限り

避けていますので、Javaに対する深い理解は必要ありません。

内容（「BOOK」データベースより）

あらゆるWebサイトをクロールするための実践テクニック。

著者略歴 (「BOOK著者紹介情報」より)

竹添/直樹

株式会社ビズリーチ所属。

プログラマ。

業務の傍らOSS活動や書籍などの執筆を行っており、GitBucket、Apache PredictionIQ、Scalatraなどのコミッタを務める一方、『Scalaパズル』を翻訳、『Java逆引きレシピ』『Scala逆引きレシピ』『Seasar2徹底入門SAStruts/S2JDBC対応』などを執筆(いずれも翔泳社刊)

島本/多可子

株式会社ビズリーチに勤務中。

技術者でいたいと思い現職へ。

ここ数年は「Scala」「オープンソース」をキーワードに、Webアプリケーションの開発に携わってきたが、最近はもっぱらApache Spark StreamingとAWS‐Kinesisのお世話に追われている。

オープンソースのGitHubクローン「GitBucket」の開発も行う

田所/駿佑

株式会社ビズリーチ所属のScalaエンジニア

萩野/貴拓

株式会社ビズリーチAI室所属。

求人検索エンジニア「スタンバイ」のクローラー運用や検索品質の最適化、データマイニングなどを担当した後、現在は機械学習のシステム基盤構築に従事

川上/桃子

株式会社ビズリーチスタンバイ事業部で業務委託として勤務中。

求人検索エンジン「スタンバイ」のクローリング定義のメンテナンスを行っている(本データはこの書籍が刊行された当時に掲載されていたものです)

みんなのレビュー

まだレビューがありません

Qiitaでこの書籍を紹介している記事

[クローリングハック]メモ1