PythonによるWebスクレイピング

この書籍の内容

内容紹介

「Webスクレイピング」とは、インターネットからデータを機械的に集め、必要な情報を抽出するプロセスのこと。

検索エンジンだけでは限られた情報しか集められませんが、この技術を使えば、インターネット上の膨大な情報の中から本当に必要な情報を入手できます。

小売業、金融業をはじめ多くの業界で情報収集に活用され、アカデミックでも広い分野で使われ注目されています。

本書は、前半でWebスクレイパーとクローラの基礎をていねいに解説し、後半でOCRを使った情報抽出や、JavaScript実行、Seleniumによるインタフェース使用やテスト自動化、自然言語処理などの高度なトピックに加えて法律面の解説など、Webスクレイピングを実際に行うために必要なプログラミングテクニックとテクノロジー全般を紹介します。

Python 3.x対応。

内容（「BOOK」データベースより）

「Webスクレイピング」とは、インターネットからデータを機械的に集め、必要な情報を抽出するプロセスのこと。

検索エンジンだけでは限られた情報しか集められませんが、この技術を使えば、インターネット上の膨大な情報の中から本当に必要な情報を入手できます。

小売業、金融業をはじめ多くの業界で情報収集に活用され、アカデミックでも広い分野で使われ注目されています。

本書は、前半でWebスクレイパーとクローラの基礎をていねいに解説し、後半でOCRを使った情報抽出や、JavaScript実行、Seleniumによるインタフェース使用やテスト自動化、自然言語処理などの高度なトピックに加えて法律面の解説など、Webスクレイピングを実際に行うために必要なプログラミングテクニックとテクノロジー全般を紹介します。

Python3.x対応。

著者について

Ryan Mitchell(ライアン・ミッチェル):ボストンを拠点とするLinkeDrive社のソフトウェアエンジニア。

社内用APIおよびデータ分析ツールを開発している。

オーリン工科大学卒業、現在はハーバード大学Extension Schoolの修士課程を履修中である。

LinkeDrive社に入社する前は、Abine社でスクレイパーとボットの構築を担当していた。

また、定期的にWebスクレイピングプロジェクトのコンサルティングを金融業界と小売業界向けに行っている。

著者略歴 (「BOOK著者紹介情報」より)

ミッチェル,ライアン

ボストンを拠点とするLinkeDrive社のソフトウェアエンジニア。

社内用APIおよびデータ分析ツールを開発している。

オーリン工科大学卒業、現在はハーバード大学Extension Schoolの修士課程を履修中である。

LinkeDrive社に入社する前に、Abine社でスクレイパーとボットの構築を担当していた。

また、定期的にWebスクレイピングプロジェクトのコンサルティングを金融業界と小売業界向けに行っている

黒川/利明

1972年、東京大学教養学部基礎科学科卒。

東芝(株)、新世代コンピュータ技術開発機構、日本IBM、(株)CSK(現SCSK(株))、金沢工業大学を経て、2013年よりデザイン思考教育研究所主宰。

情報規格調査会SC22 C#、CLI、スクリプト系言語SG主査として、C#、CLI、ECMAScriptなどのJIS作成、標準化に携わっている。

現在、日本規格協会標準化アドバイザー、町田市介護予防サポータ、カルノ(株)データサイエンティスト、日本マネジメント総合研究所LLC客員研究員

嶋田/健志

主にWebシステムの開発に携わるフリーランスのエンジニア(本データはこの書籍が刊行された当時に掲載されていたものです)

みんなのレビュー

まだレビューがありません

Qiitaでこの書籍を紹介している記事

コミュニティサイクルの利用履歴をスクレイピング PhantomJS版

pip, pyenv, BeautifulSoup4をインストールする

Pythonのseleniumライブラリからphantomjsを使ったらzombieになった

コミュニティサイクルの利用履歴をスクレイピング

PythonのWebスクレイピングでProxy設定のため応答がなかったときの対処

「小説家になろう」をPythonでスクレイピングして本文を保存する（自然言語処理用コーパス作成）

(随時更新) スクレイピングハッカソンの為の情報リスト

Pythonにまつわる3タイプ別オススメ書籍

NIJIBOXのエンジニアの見たいもの

ubuntu16.04 anaconda jupyter メモ

Pythonで色々やってみた:スクレイピング（Beautiful Soup+Selenium+PhantomJS）とか形態素解析とか

wikipediaからのページからリンク一覧を取得する方法

機械学習のデータの集め方