Webアプリケーション、Webサービスを開発・運用する
エンジニアは、HTML/HTTPやWebサーバなどWeb技術の
仕組みや基礎的な知識をおさえておかなければなりません。
本書では、実サービスでの大規模なWebクローラーの
開発・運用経験をもとに、クローラーを支える、HTTP、
文字コード、HTML、認証、Ajax/JSONなど、Webエンジニアが
おさえておくべきポイントやテクニックを学びます。
クローラーから見たWebサイトの仕組みとその実情に加えて、
現実に即した実践的かつ効率的なクローリングの方法論に
ついても解説します。
○実例をもとにHTTPやHTMLなどWebの仕組みを深く知ることができる
○大規模なクローラーの開発・運用ノウハウを知ることができる
○Webサイトの運営者(クロールされる側)もクローラーに関する知見を得ることができる
【対象読者】
本書はWebクローラーを題材としていますが、クローリングのために
必要なWeb技術の解説に重点を置いており、
主に次のような方々に読んでいただけるよう執筆しました。
● 正しい知識を身につけたいWeb開発者
● クローラビリティの高いWebサイトを作成したいWebサイト運営者
また、HTMLやCSSなど、Webサイトの作成に関わる最低限の知識、
およびサンプルコードを読解するためのプログラミングに関する基礎知識を
前提としています。
サンプルコードはJavaで記述していますが、
Java固有のセマンティクスやプログラミングテクニックは可能な限り
避けていますので、Javaに対する深い理解は必要ありません。
あらゆるWebサイトをクロールするための実践テクニック。
竹添/直樹
株式会社ビズリーチ所属。
プログラマ。
業務の傍らOSS活動や書籍などの執筆を行っており、GitBucket、Apache PredictionIQ、Scalatraなどのコミッタを務める一方、『Scalaパズル』を翻訳、『Java逆引きレシピ』『Scala逆引きレシピ』『Seasar2徹底入門SAStruts/S2JDBC対応』などを執筆(いずれも翔泳社刊)
島本/多可子
株式会社ビズリーチに勤務中。
技術者でいたいと思い現職へ。
ここ数年は「Scala」「オープンソース」をキーワードに、Webアプリケーションの開発に携わってきたが、最近はもっぱらApache Spark StreamingとAWS‐Kinesisのお世話に追われている。
オープンソースのGitHubクローン「GitBucket」の開発も行う
田所/駿佑
株式会社ビズリーチ所属のScalaエンジニア
萩野/貴拓
株式会社ビズリーチAI室所属。
求人検索エンジニア「スタンバイ」のクローラー運用や検索品質の最適化、データマイニングなどを担当した後、現在は機械学習のシステム基盤構築に従事
川上/桃子
株式会社ビズリーチスタンバイ事業部で業務委託として勤務中。
求人検索エンジン「スタンバイ」のクローリング定義のメンテナンスを行っている(本データはこの書籍が刊行された当時に掲載されていたものです)
まだレビューがありません
[クローリングハック]メモ1