初めてのSpark

オライリージャパン 2015/08

140

Holden Karau Andy Konwinski Patrick Wendell Matei Zaharia Sky株式会社玉川竜司

#Spark #MachineLearning

amazonで見る

この書籍の内容

内容紹介

Sparkの概要、RDDを使ったプログラミング、キー/値ペアの処理など基礎的な説明から、Sparkの高度なプログラミング、クラスタ上での本格的な利用まで解説した、Sparkの総合的な入門書です。

日本語版の内容にはバージョン1.3/1.4での機能強化も取り入れ、土橋昌氏による「原書発行以降の変更点」、猿田浩輔氏による「Spark SQLについて本編の補足」、堀越保徳氏と濱口智大氏による「Spark/MapReduceの機械学習ライブラリ比較検証」を収録。

全編にわたりCloudera株式会社エンジニアチームによるテクニカルレビューを実施。

Sparkについて包括的に学べる本書は、ビッグデータや機械学習に携わる開発者必携の一冊です。

著者について

Holden Karau(ホールデン・カラウ):Alpine Data Labsのソフトウェア開発技術者で、オープンソースソフトウェアに活発に携わっており、初期のSparkの書籍も執筆している。

Alpine Data Labs以前には、Databricks、Google、Foursquare、Amazonで検索と分類についての仕事に携わってきた。

ワーテルロー大学でコンピュータサイエンスと数学の学士を取得。

ソフトウェアの他には、炎と金属溶接のアート(http://bit.ly/xyloflg1)、そしてフラフープを楽しんでいる。

Andy Konwinski(アンディ・コンウィンスキ):Databricksの共同設立者。

カリフォルニア大学バークレー校でPhDを取得し、AMPLabで大規模分散コンピューティングとクラスタスケジューリングを研究していた。

Apache Mesosプロジェクトの共同創始者であり、コミッタでもある。

Googleでは、システムエンジニアや研究者たちと共に、次世代スケジューリングシステムであるOmegaの設計に携わっていた。

AMP Camp Big Data BootcampsやSparkサミットを立ち上げ、Sparkプロジェクトに貢献している。

Patrick Wendell(パトリック・ウェンデル):Databricksの共同設立者。

Sparkのコミッタであり、PMCメンバーでもある。

Spark1.0を含む複数のSparkのバージョンのリリースマネージャも務めており、Sparkのコアエンジンの複数のサブシステムのメンテナンスを行っている。

カリフォルニア大バークレー校でコンピュータサイエンスのMSを取得後、DataBricksの立ち上げに協力した。

研究の中心は、大規模な分析のワークロードにおける低レイテンシのスケジューリング。

プリンストン大学からコンピュータサイエンスでBSEを取得。

Matei Zaharia(マテイ・ザハリア):Apache Sparkの作者であり、DatabricksのCTO。

カリフォルニア大バークレー校でPhDを取得。

Sparkは、その際の研究プロジェクトとして誕生した。

現在、ApacheでSparkプロジェクトのVice Presidentを務めている。

Spark以外にも、Apache HadoopやApache Mesosを含むクラスタコンピューティングの分野の他のプロジェクトにおいて、研究と貢献を行っている。

Hadoopのコミッタであり、バークレーでのMesosの立ち上げにも携わった。

著者略歴 (「BOOK著者紹介情報」より)

カラウ,ホールデン

Alpine Data Labsのソフトウェア開発技術者で、オープンソースソフトウェアに活発に携わっており、初期のSparkの書籍も執筆している。

Alpine Data Labs以前には、Databricks、Google、Foursquare、Amazonで検索と分類についての仕事に携わってきた。

ワーテルロー大学でコンピュータサイエンスと数字の学士を取得

コンウィンスキ,アンディ

Databricksの共同設立者。

カリフォルニア大学バークレー校でPhDを取得し、AMPLabで大規模分散コンピューティングとクラスタスケジューリングを研究していた。

Apache Mesosプロジェクトの共同創始者であり、コミッタでもある。

Googleでは、システムエンジニアや研究者たちと共に、次世代スケジューリングシステムであるOmegaの設計に携わっていた。

AMP Camp Big Data BootcampsやSparkサミットを立ち上げ、Sparkプロジェクトに貢献している

ウェンデル,パトリック

Databricksの共同設立者。

Sparkのコミッタであり、PMCメンバーでもある。

Spark1.0を含む複数のSparkのバージョンのリリースマネージャも務めており、Sparkのコアエンジンの複数のサブシステムのメンテナンスを行っている。

カリフォルニア大バークレー校でコンピュータサイエンスのMSを取得後、DataBricksの立ち上げに協力した。

研究の中心は、大規模な分析のワークロードにおける低レイテンシのスケジューリング

ザハリア,マテイ

Apache Sparkの作者であり、DatabricksのCTO。

カリフォルニア大バークレー校でPhDを取得。

Sparkは、その際の研究プロジェクトとして誕生した。

現在、ApacheでSparkプロジェクトのVice Presidentを務めている。

Spark以外にも、Apache HadoopやApache Mesosを含むクラスタコンピューティングの分野の他のプロジェクトにおいて、研究と貢献を行っている。

Hadoopのコミッタであり、バークレーでのMesosの立ち上げにも携わった

玉川/竜司

Sky株式会社。

本業はソフトウェア開発。

新しい技術を日本の技術者に紹介することに情熱を傾けており、その手段として翻訳に取り組んでいる(本データはこの書籍が刊行された当時に掲載されていたものです)

みんなのレビュー

まだレビューがありません

Qiitaでこの書籍を紹介している記事

Apache Spark で分散処理入門

Spark mllib 教師あり学習アルゴリズム精度測定

1兆レコードの分析処理基盤@Azure

Apache Sparkでバイナリ固定長ファイルを読み込む