SparkとMLlibで実現するかんたん高速機械学習

1. SparkとMLlibで実現するかんたん高速機械学習株式会社マーズフラッグ R&D部山下勝司（@yamakatu） Hadoop Conference Japan 2014 2014/7/8 2. Who are U !!! •  やまかつ（@yamakatu） •  株式会社マーズフラッグ R&D部 •  やってること •  検索関連のR&D •  担当 •  開発、インフラ、統計、機械学習 •  育児 •  やってたこと •  Gihyo.jp連載「Mahoutで体感する機械学習の実践」 •  IPA 未踏ソフトウェア創造事業（共同開発者だけど） 3. SparkとMLlib について話します 4. …の前にHadoopの話 5. Hadoopは繰り返し処理で遅い 6. この繰り返し処理を高速に行えるのがSpark 7. 割愛 • 適当にググってください or • 以下のスライド見てください「Spot Instance + Spark + MLlibで実現する簡単低コスト高速機械学習」 8. 繰り返し処理の高速化 Ref. “Spark: A framework for iteraPve and interacPve cluster compuPng” hTp://laser.inf.ethz.ch/2013/material/joseph/LASER-‐Joseph-‐6.pdf 9. この繰り返し処理はどこで使うのか？ 10. 機械学習 11. What’s 機械学習 • スパムフィルタ • レコメンド • 画像処理 • 広告のパーソナライズ • 消費予想 • マルウェア検知 • 検索エンジン • とかとか 12. という訳で、 Sparkと機械学習は相性がいい 13. しかし、機械学習は実装が困難 14. アルゴリズムが難解 15. テストが困難 16. できれば実装したくない 17. Sparkには機械学習ライブラリが用意されている 18. MLlib •  実装済みアルゴリズム（青文字は1.0で追加） •  SVM •  ロジスティク回帰 •  線形回帰 •  ridge回帰 •  Lasso回帰 •  GLM(一般化線形モデル) •  K-‐Means •  協調フィルタリング •  ALS（交互最小二乗法） •  AtochasPc Gradient Descent（最急降下法） •  NaiveBayse •  Decision Forest（Random Forest） •  SVD（特異値分解） •  PCA（主成分分析） •  L−BGFS 19. Spark 1.1ですげー増えるらしいよ 20. けど、簡単に使えるの？ 21. ロジスティック回帰の場合（Java） JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("JavaLR”)); JavaRDD points = sc.textFile(args[0]).map(new ParsePoint()).cache(); LogisPcRegressionModel model = LogisPcRegressionWithSGD.train( points.rdd(), Integer.parseInt(args[2]),Double.parseDouble(args[1]) ); sc.stop(); 4行 + おまじない 22. 肝心の速さは？ 23. 公式サイトによるとロジスティック回帰でHadoopの100倍 24. というのは実際には少し違う 25. 結果、繰り返し処理の高速化 Ref. “Spark: A framework for iteraPve and interacPve cluster compuPng” hTp://laser.inf.ethz.ch/2013/material/joseph/LASER-‐Joseph-‐6.pdf 26. 繰返しの数で速度差は変わる 27. アルゴリズムだけでなく、パラメータや入力データも影響 28. Hadoopと比べて実際どんだけ速いかはケース by ケース 29. けど、Hadoopより Sparkの方が速いことに変わりはない 30. 実際使ってみての課題 31. データがメモリに乗り切らなかったらアレ 32. サンプリングや前処理でデータ量を減らすことが重要 33. ハードウェア増設も有効 34. 今日はこれだけ覚えて帰ってください •  Hadoopは繰り返し処理で遅い、Sparkはちょっぱや •  機械学習は繰り返し処理なので、Sparkと相性がいい •  Sparkで機械学習するにはMLlibがお手軽 •  MLlibの今後の機能追加に期待大 •  Sparkのパフォーマンスはメモリが重要なので、データ量とメモリの関係に気をつける。サンプリング、前処理、ハードウェア追加でがんばれ。 35. Have a nice Machine Learning !!

SparkとMLlibで実現するかんたん高速機械学習

Description

Comments