2017年4月9日日曜日

無料統計教室

英語のになりますが、全て無料で、SASやRの使い方の解説をしてくれています
Youtube上にコンテンツが上がっているので、字幕→翻訳である程度日本語でも内容確認出来ますので、さくさく勉強できますよ
OpenIntro

2016年10月25日火曜日

こんな僕でもデータサイエンティストになれた秘密


こんな僕(前職分析業、ゲーム業無関係)…
統計の講義2回受講しただけの子がいかにデータサイエンティストになれたかの
奇跡(間違い、軌跡)を描くスライド公開!


データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密 from Ryo Matsuura

データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密
  1. 1. データサイエンティスト養成勉強会 こんな僕がデータサイエンティストになれた秘密 2016/10/21 澪標アナリティクス株式会社
  1. 2. 会社概要 会 社 名: 澪標アナリティクス株式会社 代表取締役: 井原 渉 顧 問: 川村 秀憲(北海道大学教授) 栗原 聡(電気通信大学教授) 所 在 地: 東京都中央区日本橋茅場町1丁目10-8 グリンヒルビル6階 事 業 内 容: データ分析に関する各種事業 アドバイザリーサービス 教育研修 分析組織・IT基盤構築 分析官派遣 受託分析 U R L : http://www.mioana.com/ ©Miotsukushi Analytics Inc. 2016, All rights reserved. 2
  1. 3. 話者紹介 3 澪標アナリティクス 松浦 遼(アナリスト・シニアコンサルタント) データ分析と全く関係ない業界から、紆余曲折あり澪標アナリティクスに入社。 上場ソーシャルゲームプラットフォーム運営企業の分析チーム立ち上げプロジェクトに一年弱参画。 ブラウザゲーム・ネイティブアプリ・プラットフォームの分析について、分析設計や実分析作業とそのノウハウ共有、社内報告会 などを担当。 その後、上場ソーシャルゲーム運営企業の分析チーム立ち上げプロジェクトにてコンサルタント・アナリストとして数ヶ月参画。 現在は、国内最大級ゲーム企業の大規模ゲームログの集計・分析プロジェクトをプロジェクトマネージャとして推進し、 十名規模の分析チームのマネージャ業務を行っている。 その他複数のゲーム分析プロジェクトへ、プロジェクトマネージャおよびチーフアナリストとして参画。 主な実績 ・ゲーム分析組織構築 ・ブラウザゲーム・ネイティブアプリのログ要件設計 ・ゲーム内詳細KPI設定と監視 ・ゲームログによる継続率・課金率・LTV予測分析 ・その他ゲーム内課題に対するアドホック調査分析
  1. 4. Agenda 序.ゲーム分析とデータサイエンティスト 1. キミも使える! データサイエンティストの四つの武器 旅人編 ⁻ 全ての道は集計に通ず ⁻ ExcelとSPSS ModelerとSQL ⁻ 集計は母集団とデータ仕様で決まる 2. キミも使える! データサイエンティストの四つの武器 戦士編 ⁻ ビジネス理解が推進力に ⁻ データ分析は人の心を読み取ること 3. キミも使える! データサイエンティストの四つの武器 魔法使い編 ⁻ 得意な分析手法を一つ身に付けよう ⁻ 魔法は正しく、的確に 4. キミも使える! データサイエンティストの四つの武器 僧侶編 ⁻ 分析環境に合わせよう ©Miotsukushi Analytics Inc. 2016, All rights reserved. 4
  1. 5. 5 ゲーム分析とデータサイエンティスト ©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 6. ゲーム分析って何してたっけ?? 6©Miotsukushi Analytics Inc. 2016, All rights reserved. KPI ウォッチング イベント レポート ガチャの売上 セグメント調査 ユーザペルソナ 策定と監視 初心者の 離脱要因 ヘビーユーザー 継続・課金要因
  1. 7. ルーチンとアドホック 7©Miotsukushi Analytics Inc. 2016, All rights reserved. KPI ウォッチング イベント レポート ガチャの売上 セグメント調査 ユーザペルソナ 策定と監視 初心者の 離脱要因 ヘビーユーザー 継続・課金要因 課題に応じて調査 →現状を把握し、 問題点を見つけ『改善』
  1. 8. ルーチンとアドホック 8©Miotsukushi Analytics Inc. 2016, All rights reserved. KPI ウォッチング イベント レポート ガチャの売上 セグメント調査 ユーザペルソナ 策定と監視 初心者の 離脱要因 ヘビーユーザー 継続・課金要因定常的に監視 →異常検知して『対応』
  1. 9. ゲーム分析の目標とは? 9©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 分析 施策 反映
  1. 10. 10©Miotsukushi Analytics Inc. 2016, All rights reserved. ゲーム分析における業務フロー •ターゲットKPI設定 •運営スケジュールとターゲット施策分析戦略策定 •データ理解 •基盤構築・クレンジングデータ導入 •運営上の課題感 •分析での検証ターゲットとなる仮説課題と仮説の設定 •分析ターゲットのセグメント決定 •具体的なデータ分析フローの策定分析プランと分析設計 •データマート構築 •状況俯瞰のための集計基礎集計 •狙いを定めたクリティカルなクロス集計 •アルゴリズムの適用とモデル作成分析作業 •分析を理解可能な形で表現解釈とレポート •施策の検討 •施策導入か追加分析かの判断施策反映
  1. 11. 私は昔こうだった…… 11©Miotsukushi Analytics Inc. 2016, All rights reserved. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 12. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 私は昔こうだった…… 12©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 13. 13 キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 14. キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ 14©Miotsukushi Analytics Inc. 2016, All rights reserved. データの樹海を迷わず 上手に渡り歩くには……? 集計スキルが全ての基本
  1. 15. 15©Miotsukushi Analytics Inc. 2016, All rights reserved. 【再掲】ゲーム分析における業務フロー •ターゲットKPI設定 •運営スケジュールとターゲット施策分析戦略策定 •データ理解 •基盤構築・クレンジングデータ導入 •運営上の課題感 •分析での検証ターゲットとなる仮説課題と仮説の設定 •分析ターゲットのセグメント決定 •具体的なデータ分析フローの策定分析プランと分析設計 •データマート構築 •状況俯瞰のための集計基礎集計 •狙いを定めたクリティカルなクロス集計 •アルゴリズムの適用とモデル作成分析作業 •分析を理解可能な形で表現解釈とレポート •施策の検討 •施策導入か追加分析かの判断施策反映 赤字の部分で 集計を使っている
  1. 16. キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ 16©Miotsukushi Analytics Inc. 2016, All rights reserved. 集計へ の理解 このレポートって、 結局誰のこと 言ってるの? 抽出期間正確に 絞れてる?? この分析って、 自動化するときに どんな形でデータ 持てばいい?
  1. 17. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ データ分析に求められる集計の質 17©Miotsukushi Analytics Inc. 2016, All rights reserved. インストールログからユーザーごとのインストール日時を取得し、インストール72時間後の 時刻を算出する ユーザーキャラクター強化ログから素材キャラでないキャラを抽出し、各キャラクターのイン ストール72時間以内の最後のレコードを取り出し、キャラクター種類とレベルを取得する ユーザーキャラクター消費ログと結合し、そのキャラが72時間以内に消費・売却された場 合は除外する キャラクターマスタと結合し、そのキャラの各パラメータを取得し、所定の式で変換し戦闘 力を算出する 各ユーザーの上記結果に順位づけをして上位2キャラを判定する デッキ編集ログから各ユーザーインストール72時間以内の最後に編集されたデッキデー タを取得し、その中上記の2キャラが含まれているかのパターンごとのフラグをたてる インストール日ごとに、デッキ枚数と上位2キャラ含有パターンごとのUU数を集計する 例題:初心者ってちゃんと強いキャラ使ってんの?
  1. 18. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SQLが書けなかった私 18©Miotsukushi Analytics Inc. 2016, All rights reserved. SELECTって何? テーブルって? なんか表出てくるの?? CREATE TABLE hogehoge AS WITH install_201608 AS (SELECT user_id ,date(install_datetime) as install_date ,platform FROM log_user_install WHERE date(install_datetime) >= '2016-08-01' and date(install_datetime) < '2016-09-01' ) SELECT user_id ,quest_category ,datediff(date(quest_start_timestamp),install_date) as interval_day ,count(id) FROM log_quest_start INNER JOIN install_201608 ON log_quest_start.user_id = install_201608.user_id WHERE quest_category != 0 and datediff(date(quest_start_timestamp),install_date) <= 3 GROUP BY quest_category ,datediff(date(quest_start_timestamp),install_date)
  1. 19. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ Excelを使ってみた 19©Miotsukushi Analytics Inc. 2016, All rights reserved. SUMPRODUCT VLOOKUP SUMIFS COUNTIFS SLOPE/INTERCEPT RSQ Pivotテーブル
  1. 20. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SPSS Modelerを使ってみた 20©Miotsukushi Analytics Inc. 2016, All rights reserved. 機能別にノードを配置してデータ処理を行う
  1. 21. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SPSS Modelerを使ってみた 21©Miotsukushi Analytics Inc. 2016, All rights reserved. 集計の途中経過を確認できる
  1. 22. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ SQLが書けなかった私 22©Miotsukushi Analytics Inc. 2016, All rights reserved. • 関数を使ってみる→式の対象を意識 • pivotを使ってみる→縦持ち・横持ち・集計軸・ フィルタ Excel • 1ノード1処理をきちんと追いかける • 途中経過を確認し、データと処理の関係を理解 SPSS Modeler • サブクエリ • ウィンドウ関数・ユーザー定義変数SQL
  1. 23. キミも使える武器! 旅人編 ~全ての道は集計に通ず~ 母集団とデータ仕様 23©Miotsukushi Analytics Inc. 2016, All rights reserved. いつのデータ? – 何月のデータ? – インストール何日目? どんな人のデータ? – 例:『7日目までに○○たくさんしてる人は7日目まで残りやすいんです よ!』 – 例:『離脱した人の方が戦闘力低いんですよ!!』 何のデータがどのように入っている? – どのボタンをタップした時にどのテーブルにデータが落ちるのか? 集計では細かいことばかり考えよう!
  1. 24. キミも使える! データサイエンティストの四つの武器 旅人編 ~全ての道は集計に通ず~ 24©Miotsukushi Analytics Inc. 2016, All rights reserved. 簡単なツールで丁寧に集計しよう!
  1. 25. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 25©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 26. 26 キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 27. キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ 27©Miotsukushi Analytics Inc. 2016, All rights reserved. データ分析の推進力を 手に入れるには……? ビジネス理解で皆を味方に
  1. 28. キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ 28©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 分析 施策 反映 何調べればいいの?? で、結局どうすればいいの??
  1. 29. 29©Miotsukushi Analytics Inc. 2016, All rights reserved. 【再掲】ゲーム分析における業務フロー •ターゲットKPI設定 •運営スケジュールとターゲット施策分析戦略策定 •データ理解 •基盤構築・クレンジングデータ導入 •運営上の課題感 •分析での検証ターゲットとなる仮説課題と仮説の設定 •分析ターゲットのセグメント決定 •具体的なデータ分析フローの策定分析プランと分析設計 •データマート構築 •状況俯瞰のための集計基礎集計 •狙いを定めたクリティカルなクロス集計 •アルゴリズムの適用とモデル作成分析作業 •分析を理解可能な形で表現解釈とレポート •施策の検討 •施策導入か追加分析かの判断施策反映 赤字の部分で ビジネス理解が必要
  1. 30. キミも使える! 戦士編 ~ビジネス理解が推進力に~ 人の心を考えよう(社内編) 30©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 チーム 開発 チーム インフラ チーム 分析 チーム 分析 チーム 分析 チーム こういう施策入れてください…… このデータどんな意味ですか? こんな分析環境欲しいです! そんな施策ダメに決まってる この前の運営会議で話したよ 問い合わせばっかり投げて来る それいくらかかると思ってんの?
  1. 31. キミも使える! 戦士編 ~ビジネス理解が推進力に~ 頑張って仲良くなった後 31©Miotsukushi Analytics Inc. 2016, All rights reserved. 運営 チーム 開発 チーム インフラ チーム 分析 チーム 分析 チーム 分析 チーム こういう施策入れてください…… このデータどんな意味ですか? こんな分析環境欲しいです! それは運営的にNGなんだよね 何か代案教えてよ 仕様のメモ探してみるね いやーコスト的にそれ無理 こっちなら安いけどダメ?
  1. 32. キミも使える! 戦士編 ~ビジネス理解が推進力に~ 人の心を考えよう(ユーザー編) 32©Miotsukushi Analytics Inc. 2016, All rights reserved. ユーザ 分析 チーム カード所持枠を拡張している ユーザーが継続しやすい! じゃあ拡張させるために 要らんカードたくさん配ろう!! 枠キツキツでゲーム辞めたい…… 拡張すればまだマシだけど 分析 チーム ユーザ うわ、本当に枠キツすぎる…… もうついていけない ゲームをやり込むしかない……
  1. 33. キミも使える! データサイエンティストの四つの武器 戦士編 ~ビジネス理解が推進力に~ 33©Miotsukushi Analytics Inc. 2016, All rights reserved. ユーザーの気持ちになろう – サービスをきちんと触ろう 関係者の気持ちになろう – 社内で関係者と話して回ろう
  1. 34. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 34©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 35. 35 キミも使える! データサイエンティストの四つの武器 魔法使い編 ~得意な分析手法を一つ身に付けよう~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 36. キミも使える! データサイエンティストの四つの武器 魔法使い編 ~得意な分析手法を一つ身に付けよう~ 36©Miotsukushi Analytics Inc. 2016, All rights reserved. 統計分析を魔法のように 使いこなす秘訣とは……? まずは1つに集中しよう
  1. 37. キミも使える! データサイエンティストの四つの武器 魔法使い編 ~得意な分析手法を一つ身に付けよう~ 37©Miotsukushi Analytics Inc. 2016, All rights reserved. http://pypr.sourceforge.net/ wikipedia 等より 分析手法は数多い – 各手法について、一度学んで終わりではなく、使い込むことで精度と効率が上がる • パラメータ調整の勘所 • 数理的根拠の正確な理解 – 利用手法が多いと分析の受け手も混乱しがち 1つに集中して使い込む
  1. 38. キミも使える! 魔法使い編 ~得意な手法を一つ~ まずは一つ勉強しました! 38©Miotsukushi Analytics Inc. 2016, All rights reserved. 私はまず決定木分析を覚えました – 平易でかつ実用的な手法である – 分析を行いビジネス反映していく流れを試す パラメータ調整の勘所 – ドキュメントを探そう! 数理的根拠の正確な理解 – 勉強は、まずはつまみ食い! 詳しくは後半の発表にて
  1. 39. キミも使える! 魔法使い編 ~得意な手法を一つ~ 魔法使いの心得 39©Miotsukushi Analytics Inc. 2016, All rights reserved. 魔法を正しく覚えよう – 数理的根拠を可能な範囲で理解しよう – 入力データの制限や、パラメータの意味を把握しよう – 出力データの数理的・企画的意味を正確に読み取れるように なろう 魔法を暴発させないようにしよう – 統計分析が要らない場合もある→MPを大事に
  1. 40. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 40©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 41. 41 キミも使える! データサイエンティストの四つの武器 僧侶編 ~分析環境に合わせよう~ ©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 42. キミも使える! データサイエンティストの四つの武器 僧侶編 ~分析環境に合わせよう~ 42©Miotsukushi Analytics Inc. 2016, All rights reserved. いつでもわがまま環境を 使えるとは限らない 与えられた環境を使いやすく
  1. 43. キミも使える! 僧侶編 ~分析環境に合わせよう~ 分析環境構築の壁あるある データは『どこに』あるの?? – そもそもログ吐いてる? • 『ゲームが動けばいいじゃん』 • 『最低限のCS対応ができればいいじゃん』 – マスタがないと何もできない • 『マスタはエクセルで作ってツール通して読み込んでるんです』 • 『終わったガチャのマスタは消えてます、運用カレンダーもないです』 – 聞き方が悪いと二度手間に…… 43©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 44. キミも使える! 僧侶編 ~分析環境に合わせよう~ 分析環境構築の壁あるある 『どんな形』のデータがあったのか – きちんとテーブルが構築されてない場合 • JSONをカラム展開してDBに突っ込む手間…… • もっと厄介な形式での出力 いざDBに入れるとき – 重いクエリを投げたい – 昨日のデータをすぐ分析すべきか? – 一連の抽出・集計に必要な中間テーブル作成 コストが!工数が!!! 44©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 45. キミも使える! 僧侶編 ~分析環境に合わせよう~ 与えられた環境をどう活かすか データエンジニアリングの知識があるなら…… – 今まで培った集計力・ビジネス知識・データサイエンス力で理 想の環境を策定 • →一層の業務効率化に データエンジニアリングの知識がない場合は? – 可能なデータ活用方法≒データの持ち方は企業によって千差 万別 • 何を勉強すればいいのかわからない状態になりがち • データを持っている部署と仲良くして聞くしかない! – 貰った環境に合わせて一つ一つ覚えよう 45©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 46. キミも使える! 僧侶編 ~分析環境に合わせよう~ ド素人の私が身に付けたこと 仮想マシンの概念が分からなかった私でも、超簡単な シェルを書いてローカル環境で流せるようになった データベースの概念が分からなかった私でも、Redshift のカラム設定とDB変換が分かるようになった 46©Miotsukushi Analytics Inc. 2016, All rights reserved.
  1. 47. ビジネス力 データサイエンス力 データエンジニアリング力 1.業界代表レベ ル • 対象とする事業全体、産業領域にお ける課題の切り分け、テーマ、論点の 明確化ができる。 • 新しいアルゴリズムや分析手法の開発がで きる。 • 複数のデータソースを統合したデータ システム、もしくはデータプロダクトの構 築、全体最適化ができる。 2.棟梁レベル • 仮説や可視化された問題がない中 で、適切に問題を定義し、解き、価 値を見出すことができる。 • アルゴリズムを理解し、適切に活用、問題 解決することができる。 • 分析のためのデータシステム設計が できる。 • 問題設定に応じた新規データマート 設計ができる。 3.独り立ちレベル • 扱っている課題領域で新規の課題を 切り分け、構造化できる。 • 当該プロジェクト・サービスを超えて、 必要なデータの当たりをつけることがで きる。 • SPSS/R等が使える。指示されなくて もサンプル抽出ができるとともに内容を確認 できる。 • データクレンジング、分析、単回帰やP値 の概念を理解し、活用することができる。 • 大規模のファイルや、データベースに アクセスし、大量の構造化データを処 理することができる。 4.見習いレベル • 仮説や既知の問題が与えられた中で、 必要なデータに当たりをつけて、デー タを用いて改善することができる。 • 扱っている課題領域における基本的 な課題の枠組みが理解できる。 • 基本統計量(平均、中央値など)の知 識を有し、指示されればデータの抽出、グラ フ作成を正しく行うことができる。 • 抽出されたデータサブセットに対し、 Excel等を用い、目的に応じた処 理をすることができる。 それ以前の方 • ビジネスは勘と経験で回すものだと 思っている。 • 「平均」を鵜呑みにする • Excelは数字しか入れない。 レベルアップ! 47©Miotsukushi Analytics Inc. 2016, All rights reserved. 一般社団法人データサイエンティスト協会 データサイエンティストのスキルレベル より抜粋
  1. 48. I'll do my BEST. ©Miotsukushi Analytics Inc. 2016, All rights reserved. 48

2016年8月31日水曜日

Microsoft R Open 3.3.1 インストール手順(Windows編)

Rとは思えない程のEasy Installation

MKLのインストールも同時に出来るので壮絶便利です!

ダウンロード元
https://mran.microsoft.com/download/ にアクセスして


[Windows  -  Windows 7.0 (SP1), 8.1, 10 and Windows Server® 2008 R2 (SP1), 2012] をクリックしてダウンロード

ダウンロードしたファイルをダブルクリック

Wizardが立ち上がるので後は[Next]を押下

I acknowledge...に☑を入れてNextを押下


Install Intel Math Kernel Library(Intel(R) MKL)に☑を入れてNextを押下


I accept the MKL license termsに☑を入れてNext

インストールフォルダを選択して(標準のままで問題ありません)Next

Installをクリックしたらインストール開始です!

少し待ったら…

Finishでインストール終了

Microsoft R Openを開くと上記のような画面が出ます!
バージョンを確認の上ご利用下さい!

R version 3.3.1 (2016-06-21) -- "Bug in Your Hair"
Copyright (C) 2016 The R Foundation for Statistical Computing
Platform: x86_64-w64-mingw32/x64 (64-bit)
R は、自由なソフトウェアであり、「完全に無保証」です。
一定の条件に従えば、自由にこれを再配布することができます。
配布条件の詳細に関しては、'license()' あるいは 'licence()' と入力してください。
R は多くの貢献者による共同プロジェクトです。
詳しくは 'contributors()' と入力してください。
また、R や R のパッケージを出版物で引用する際の形式については
'citation()' と入力してください。
'demo()' と入力すればデモをみることができます。
'help()' とすればオンラインヘルプが出ます。
'help.start()' で HTML ブラウザによるヘルプがみられます。
'q()' と入力すれば R を終了します。
Microsoft R Open 3.3.1
The enhanced R distribution from Microsoft
Microsoft packages Copyright (C) 2016 Microsoft Corporation
Using the Intel MKL for parallel mathematical computing(using 2 cores).
Default CRAN mirror snapshot taken on 2016-07-01. See: https://mran.microsoft.com/.

Microsoft R Open 3.3.1 提供開始( Windows, Mac and Linux用)

http://blog.revolutionanalytics.com/2016/08/microsoft-r-open-331-now-available-for-windows-mac-and-linux.html

August 26, 2016

インストールもインストーラーを叩くだけ!

KMLも☑するだけで自動インストールされます!



2016年7月18日月曜日

ヘルプファンクションを使う


ヘルプファンクションを使う

機能の名前を知っていて、どのように呼び出して良いか分からない時。機能を利用するためにどのようにデータをセットアップしたら良いかの例を知りたい時。ヘルプが役に立ちます。Rは?とhelp機能を持っています。プロンプト内に?をタイプし、続いて機能名をタイプすれば説明が表示されます。
?q
OSによっておよびGUIヘルプブラウザーを起動しているかによって変わりますが、q機能に関する情報がコンソールもしくは別のウィンドウに表示されます。
ヘルプ機能も同様です:
help(q)
多くのユーザーが?の利用を好む傾向にあります。
から引用&翻訳

Microsoft R製品比較

 

Microsoft R: 製品比較表

Microsoft R Server、Microsoft R Client、Microsoft R Open機能比較は以下のテーブルを参照。 SQL Server R Servicesに関する詳細情報は SQL Server R Services. を参照の事
機能Microsoft R OpenMicrosoft R ClientMicrosoft R Server
ビッグデータ メモリ量依存あり メモリ量依存あり
R Serverと連携する場合は巨大ボリュームに対応可能
メモリ搭載量を超えるデータに対応
巨大ボリューム・ファクターに対応
分析速度 MKL(Math Kernel Library)インストール時、マルチスレッド処理 MKL(Math Kernel Library)インストール時、マルチスレッド処理
ローカルの計算においてはScaleR機能により2スレッドまで利用可能
マルチスレッド対応
サポート コミュニティーサポート コミュニティーサポート 商用サポート
Analytic
Breadth
& Depth
8,000以上のオープンソースパッケージ OSS Rパッケージの利用+ScaleRパッケージによりビッグデータに対応 OSS Rパッケージの利用+ScaleRパッケージによりビッグデータに対応+ScaleRパッケージによるマルチスレッド対応可能
商用利用 OSS利用責任 無料 商用ライセンス
DeployR 
Enterprise
不可能 不可能 含まれる
 

 

Microsoft R Client をWindowsマシンにインストールする

本Postは以下のリンクの2017年7月18日時点の日本語翻訳です。
https://msdn.microsoft.com/en-us/microsoft-r/install-r-client-windows

Microsoft R Clientはハイパフォーマンスな分析を実現する無料データサイエンスツールです。
Microsoft R ClientはMicrosoft R Openをベースに構築されているため、任意のオープンソースRパッケージを追加可能です。ScaleR技術及びプロプライエタリーの機能により並列化、リモートコンピューティング機能を享受できます。(注:ScaleRの利用は一部制限がかかっています)

Microsoft R ClientはScaleR機能の全てを利用して、分析用本番環境のデータを分析可能です。ただし一部機能成約があります。処理対象のデータは利用PCのメモリー量以下にする必要があり、ScaleR機能による複数スレッド処理も2スレッドまでに制約されています。

Compute contextをSQL Server R Services and R Server for Hadoop等のMicrosoft R Serverインスタンスにプッシュする事で、ディスクスケーラビリティー、パフォーマンス、スピードを享受する事が可能です。

ソフトの入手場所は?

Microsoft R Clientは無料です。以下のリンクからダウンロードいただけます。
http://aka.ms/rclient/download

システムリクワイアメント(機能要求)

2016年7月11日現在、Microsoft R ClientはWindows上でのみ動作いたします。
  • Operating Systems(OS): 64ビット版のMicrosoft Windows 7, Windows 8.1, and Windows 10
  • HDD空き容量: 600 MB以上の空き容量推奨 
  • メモリー: 4GB以上を推奨
  • インターネット接続:ダウンロード用に必要 

Microsoft R Clientのインストール

皆さんのコンピュータのローカルディスクにMicrosoft R Clientをインストールする必要があります。インストールにあたり、アンチウィルスソフトを一時的にOffにする必要が発生する可能性があります。その場合、インストール終了後、必ずアンチウィルスソフトをONにしてください。
To install Microsoft R Client:
  1. パソコンに管理者権限でログインします。
  2. Microsoft R Clientをダウンロードします。
  3. 実行中のプログラムを全て閉じます。
  4. Microsoft R Client setupをダブルクリックして実行。
  5. Microsoft R Client ライセンス条項を許諾します。
    Microsoft R Clientをインストールすためには、Micsorosft社のRディストリビューションである Microsoft R Open が必要になります。本セットアップはMicrosoft R Openを自動的にインストールします。
    1. 統合開発環境であるR Tools for Visual Studioをインストールする事も可能です。 R Tools for Visual StudioはVisual Studio用無料アドインであり、Visual Studioの全てのエディションで利用する事が出来ます。本オプションはサポートされているVisual Studioが既にインストールされている場合にのみご利用いただく事が出来ます。
  6. Microsoft R Openライセンス条項を許諾します。 また、インストールを選んだ場合R Tools for Visual Studioのライセンス条項も許諾します。
  7. Microsoft R Clientのデフォルトインストールパス(インストールするパス)もしくはその他の場所を選択します。
  8. インストール終了後、 Finish ボタンを押します。 Welcome (ようこそ)画面が開き、製品とドキュメントを紹介します。
RTVSインストールが終わると、R Tools for Visual Studioサイトが開きます。有用なリンクなので貼っておきます。
R Client 及びお好みの R IDEをインストールする事で、 RevoScaleR パッケージを利用してソリューションを開発する事ができるようになります。 この機能 とパッケージ内のAPIによってRコマンドをリモートサーバーに送って実行する事が出来るようになります。詳細はMicrosoft R Getting Started ガイドを参照下さい。

Microsoft R Clientを立ち上げます

Microsoft R Client起動:
インストール後以下のようにMicrosoft R Clientを立ち上げます
Windows 10:
  •  全てのアプリ > Microsoft R Client > Rgui.
Windows 8.1:(もう誰も使っていない想定で省略)
  1. ポインター(カーソル)をスタートアイコンが表示されるまで、デスクトップ左側に持って行きます。
  2. スタートボタン tをクリックし、 スタート スクリーンを表示します。
  3. Microsoft R Client.をクリックします
Windows 7:
  • タスクバーから  スタート > 全てのプログラム > Microsoft R Client > Rgui.

インストールテスト

 RevoIOQ パッケージによりR Clientが正しくインストールされオペレートされているかを確認します。Microsoft R Client新規インストールでは、非アクティブ化に関するテストがあるかもしれませんが、エラー・失敗無しのレポートがブラウザー上に表示されるはずです。
テストを実行するために:
 R promptに以下のコマンドを入力してEnterキーを押します:

library(RevoIOQ)
RevoIOQ()
結構時間がかかりますが、下記のような内容が表示されて終了になります。



What's Installed & Where to Find R Packages
Microsoft R ClientセットアップによりRベースパッケージ及びパラレルプロセシング、パフォーマンス改善、SQLサーバー、Hadoopを含むデータソースへの接続をサポートする拡張Rパッケージがインストールされます。
R パッケージ
R libraries(Rライブラリー)はR Clientがインストールされたディレクトリーにインストールされます。 C:\Program Files\Microsoft\R Client\R_SERVER. このディレクトリーには R ベースパッケージ, サンプル・データ、R libraryが保存されています。
R コマンドラインツール  GUI エディター
スタンダードなベース R用の全ツールは Microsoft R Clientに含まれており、 <R-Client-Install-Directory>\bin以下に保存されています。これらのツールに関するドキュメントはセットアップフォルダーである <R-Client-Install-Directory>\doc および <R-Client-Install-Directory>\doc\manual.に保存されています。これらのファイルを開く簡単な方法は RGuiを開く事です。 Helpをクリックしてオプションから選択下さい。
一般的なRツールは以下となります:
  • RTerm: Rスクリプトを利用するためのコマンドラインツール。 Rterm.exe を利用する事で64ビット版 Windows時、より多くのメモリーを割り当てる事が出来ます。
  • RGui.exe: R用のシンプルなインタラクティブなエディター。
  • RScript: R スクリプトをバッチ・モードで利用する際のコマンドラインツール。

R IDE(統合開発環境)
R IDE オプションは以下になります:
  • R Tools for Visual Studio (RTVS) を Microsoft R Clientと一緒にインストールしてある場合(先にVisual Studioをインストールする必要がありますが)、R統合開発環境を利用する事ができます。RTVS 全 Visual Studio.をサポートしており、無料で利用可能です。
  • RTVS, をインストールしていない場合でも遅くはありません。いつでもRTVSおよびRStudio、その他の開発環境をインストールし、利用する事ができます。 or any other development environment. Visual Studio用のRツールインストールを参照下さい。

チュートリアル及びスタートガイド

もっと学びたい、Rチュートリアル情報を知りたい場合は以下のリンクを参照下さい:
Related Posts Plugin for WordPress, Blogger...