Apache Mahoutは、Apache Software Foundationが管理する機械学習アルゴリズムのオープンソース・ソフトウェアである。Apache Mahoutは、協調フィルタリングやクラスタリング、クラス分類に特化されたスケーラブルなアルゴリズムを実装している。これらの実装の多くは、Apache Hadoopのプラットフォームが使用されている。Mahoutでは、一般的な線形代数や統計などの数学操作のためのJavaライブラリやプリミティブ型を提供している。Mahoutは現在開発中であり、実装されたアルゴリズムの数は急速に増えている。しかし、アルゴリズムの種類は未だ満たされたものとは言えない。

Mahoutのコアとなるクラスタリング、クラス分類のアルゴリズムは、Apache HadoopのMapReduceのパラダイム上に実装されているが、これによってHadoopを利用しないと実装が制限されるわけではない。したがって、単一ノード、もしくはHadoopクラスタ以外での実行も推奨されている。 例えば、Mahoutを使う上でメインディッシュとなる、協調フィルタリングによるレコメンダシステムコンポーネントは、Hadoopを使わない環境でも実行することができる。 Pregel(Google社で開発)ライクなGiraphなどの開発途上のプロジェクトとの統合も積極的に議論されている。

参考文献

外部リンク

  • 公式ウェブサイト
  • EC2 AMI with Hadoop and Mahout
  • Giraph - a Graph processing infrastructure that runs on Hadoop (see Pregel).
  • Pregel - Google's internal graph processing platform, released details in ACM paper.
  • Mahout Mailing List Archives - Mahout Mailing List Archives

Implementing Scalable Machine Learning Algorithms Using Apache Mahout

Enjoy machine learning with Mahout on Hadoop Big Data Analytics News

Apache Mahout Hadoop Machine Learning

Apache Mahout

Introduction to Apache Mahout