技術セミナー・研修・出版・書籍・通信教育・eラーニング・講師派遣の テックセミナー ジェーピー

実践Rケモ・マテリアル・データサイエンス

ひとりで学べる

実践Rケモ・マテリアル・データサイエンス

~付録Rスクリプト付き / Practical Chemo&Material Data Science with R Script~
実践Rケモ・マテリアル・データサイエンスの画像

ご案内

 第1のパラダイムでは「仮説検定」の発想で経験科学が進展した。そして、ニュートンの法則に代表される第2のパラダイムでは、定量性を考慮した理論科学、計算機の発明により第3のパラダイムとして複雑な現象をシミュレーションに再現する科学へ、そして、現在、第4のパラダイム、として豊富なデータを活用したビッグ・データ・サイエンスが生まれた。ここでは、さらに社会実装も考慮されるようになった。一方、2012年、ハーバード・ビジネス・レビュー誌がデータサイエンスを「21世紀で最もカッコいい仕事」と位置づけたことから、注目を集めるようになった。では、これを具体的に化学・マテリアル科学の領域で進めるにはどうしたいいだろうか。実践として必要とされることは、ターゲットとする分野の知識、プログラミングとして必要とされるデータ解析技術としては、データの収集、機械学習と解析結果の評価法 (統計学) である。いままで、これらは地道に情報科学の各分野が基盤技術を確立してきた。しかし、オープンサイエンスの時代になり、これらのプログラムおよびデータについてもデータベースとして公開されるようになってきた。ではユーザーとしてこれらのプログラムとデータを活用し、新たな知見を獲得し、さらに社会実装することを目指すことになる。社会実装というと大げさに聞こえるが、企業であれば新たな製品を開発するということへつなげることであり、結局のところ、いま世の中に定着し始めたSustainable Development Goals (SDGs) に向けた取り組みということへ帰着する。
 本書では、このような背景を考慮しながらも、まず「機械学習、統計学をいかに実践的に習得するか?」に焦点を当て、化学・マテリアル科学の具体的データを取り入れ、R言語におけるプログラム例 (約75スクリプト) をもとに解説した。R言語にはさまざま解析用途に応じたパッケージが公開されている。そこで、本書では、<1.データの入力>、ファイルからのデータを入力、<2.データの整形>、目的に応じて入力データから必要な項目の抽出、<3.データ解析>、抽出されたデータを目的にあった関数・パッケージ (統計、多変量解析、機械学習などの関数) に入力し、解析結果を得る。<4.解析結果の表示・出力>解析結果をもとにグラフに表示する、あるいは、ファイルへ出力する。という4つのステップに沿って、Rスクリプトを作成することを説明した。特に、データの整形について本書全体を通して説明を加えた。また、さまざまなパッケージの活用法も習得できるように配慮した。エディタRStudio、Rのインストール、プログラミングの基礎、化学構造からの特徴表現 (分子記述子) による多変量データ解析 (機械学習により回帰モデル、分類モデル) 、妥当性・汎化性能評価という一連の流れを、ひとりでも学べるように本テキスト「 (ひとりで学べる) 実践Rケモ・マテリアル・データサイエンス~付録Rスクリプト付き~」を作成した。また、 株式会社 シーエムシー・リサーチでは、講習会も企画しているそうであるので、これもご活用いただくと、さらに理解が深まり実践的活用への自信もつくと思う。

金谷 重彦

目次

第1章 ケモ・マテリアル・データサイエンス

第Ⅰ部 プログラミング基礎編

第2章 RStudioの使い方
  • 2.1 インストール
  • 2.2 RStudioの使い方
    • (a) RStudioの立ち上げ
    • (b) 新規スクリプトの作成
    • © プログラムの作成と実行
    • (d) Rスクリプトの保存
第3章 Rプログラミング入門
  • 3.1 はじめに
  • 3.2 t検定によるプログラミングの例
    • (a) プログラムに直接データを組み込む
    • (b) ファイルから読み込む1
    • © ファイルから読み込む2
  • 3.3 ファイルの入出力
  • 3.4 typeof()とclass()
第4章 データ構造
  • 4.1 ベクトル
    • (a) ベクトルの定義
    • (b) ベクトルの長さ、並べ替えなど
    • © 集合にかかわる演算
  • 4.2 リスト
    • (a) リストの定義
    • (b) 空リストの作り方とリストの名前、要素の名前のつけ方、呼び出し方
  • 4.3 行列
    • (a) 行列の定義
    • (b) 行列の行と列に名前をつける
    • © 空行列を作成する
    • (d) データ解析で役に立つデータ成型法
      • (d1) NA (欠落値) を含む行を削除する
      • (d2) NA (欠落値) を含む列を削除する
      • (d3) 同一の要素からなる行の重複を削除する
  • 4.4 apply()系関数
    • (a) apply関数の使い方
    • (b) 同一の値のみからなる行、あるいは列を削除したい。
    • © 行ごとにパーセントに変換する
    • (d) tapply()関数によるデータの分

第Ⅱ部 データマイニング入門

第5章 統計検定
  • 5.1 統計検定とは
  • 5.2 正規分布との適合性
  • 5.3 パラメトリック統計学
    • 5.3.1 2群の平均値の差の検定
      • (a) t検定 (Welch検定を含む)
      • (b) t.test()
      • (b1) 1群の検定
        • (b2) 対応がない2群の平均値の差の検定
        • (b3) 対応がある2群の平均値の差の検定
      • © ボックスプロット
    • 5.3.2 分割表の統計学
      • (a) 統計学でいう複数の因子が独立とは
      • (b) χ2独立性の検定
    • 5.3.3 分散分析
      • (a) 2群のグループの等分散性の検定
      • (b) 一元配置の分散分析 (one-way analysis of variance、one-way ANOVA)
      • © 多群の検定 (Turkey-Kramer検定)
      • (d) 確率プロット
      • (e) 分散分析:二元配置
  • 5.4 ノンパラメトリック検定法
    • 5.4.1 2群の順位の検定
      • (a) Wilcoxon符号つき順位和検定:対応がある2群の検定
      • (b) ウイルコクソン順位和検定 (対応がとれない場合の順位検定)
      • © Fisher’s Exact Test (Fisherの直接確率計算法)
      • (d) 1要因のクロス集計
      • (e) 正規分布を用いた符号検定
  • まとめ
  • 1群の差の検定
  • 2群の差の検定 (独立2群) の場合
  • クロス集計
  • 1要因のクロス集計
  • 2要因のクロス集計
第6章 行列データを作ろう
  • 6.1 はじめに
  • 6.2 正規化テーブルの作り方
    • (a) reshapeパッケージの活用
    • (b) reshape2パッケージの活用
  • 6.3 部分行列の取得法
    • (a) 行列[c (xxx) ,c (yyy) ]あるいは行列[-c (xxx) ,-c (yyy) ]として部分行列を定義する
    • (b) 同一の数値のみから構成される列を削除する
    • © 行の削除
  • まとめ
第7章 教師なし学習:多変量データの視覚化、クラスター分析など
  • 7.1 はじめに
  • 7.2 相関係数
    • (a) ピアソン相関係数
    • (b) スピアマン相関係数
    • © ケンドール相関係数
    • (d) 相関係数の検定
    • (e) 多様なpairs()を活用した関数群
    • (f) pairs()では視覚化できない多くの変数間の相関を列挙する
  • 7.3 データ行列、相関行列、距離行列、スケーリング
    • (a) スケーリング
    • (b) 対数変換
  • 7.4 欠損値 (欠落値) の対応
    • (a) 距離行列
  • 7.5 多次元尺度構成法、主成分分析
    • (a) 多次元尺度構成法
    • (b) 主成分分析
  • 7.6 自己組織化マップ:Self-Organizing Mapping (SOM)
  • 7.7 クラスター分析法
    • (a) 階層法 (凝集法)
      • (a1) 最小距離法
      • (a2) 重心距離法
    • (b) 2次元クラスタリング
    • © 分割法
      • (c1) K平均
      • (c2) ギャップ統計量
  • まとめ
第8章 多変量回帰モデル
  • 8.1 はじめに
  • 8.2 重回帰分析
    • (a) 10種競技データ
    • (b) 重回帰分析
    • © 線形回帰モデルの妥当性の評価法
    • (d) 重回帰モデルの係数bの求め方
    • (e) 多重共線性
  • 8.3 PLS:部分最小二乗法
    • (a) PLS回帰モデル
    • (b) 重回帰モデルとPLSモデルのどちらを選ぶべきか?
  • 8.4 スパースモデリング
    • (a) リッジ解析
    • (b) ラッソ解析
第9章 機械学習
  • 9.1 はじめに
  • 9.2 教師あり学習
  • 9.3 データセット
  • 9.4 caretパッケージ
    • (a) caretパッケージとは
    • (b) インストール
    • © caretマニュアル
  • 9.5 アヤメデータの教師なし学習
  • 9.6 アヤメデータの教師あり学習
    • (a) 線形判別分析
    • (b) 2次判別関数法 (mmetod=’qda’)
    • © k最近隣法 (kNN法)
    • (d) NaiveBayes法
    • (e) 決定木 (Decion Tree)
    • (f) ニューラルネットワーク
    • (g) カーネルサポートベクトルマシーン
    • (h) アンサンブル学習:バギング, ランダムダムフォーレスト、ブースティング
  • 9.7 アヤメデータ解析のまとめ
  • まとめ
第10章 化学構造処理
  • 10.1 はじめに
  • 10.2 化学構造のデジタル処理
  • 10.3 SMILES
  • 10.4 rcdkパッケージ
  • 10.5 rcdk
    • 10.5.1 SMILESから化合物構造の描画1
      • (a) SMILESから化学構造を描画する
      • (b) SMILESから化学構造を描画する2
    • 10.5.2 モルファイルからSMILESへの変換
      • (a) 多数のモルファイルをSMILESに変換し、表データをマージする
    • 10.5.3 SMILESによる物性値の推算
      • (a) 種々の分子特性を計算しよう! (RcdkSmilesToMP01.R)
      • (b) 分子記述子
      • © 分子フィンガープリント
  • まとめ

第3部 科学データによるデータサイエンス実践

第11章 データサイエンスによる化学・マテリアル化学の課題解決の実践
  • 11.1 はじめに
  • 11.2 プラスチックパーツの引張強度
  • 11.3 ホモポリマーの物性相関
    • (a) 2Dクラスター分析
    • (b) モノマーの分子記述子のよるポリマーの物性予測のための回帰モデルの開発
  • 11.4 L-Aspartyl Dipeptidesの苦味と甘味の分子記述子による識別
  • 11.5 農薬添加回収率のケモインフォマティクス
    • (a) 説明変数と目的変数の相関解析
    • (b) 説明変数と目的変数の相関データを視覚化する
    • © グラフから次の作業を考える
    • (d) 多変量回帰モデルを作成する
    • (e) 回帰モデルを選択する
第12章 おわりに:さらなる展開
  • 謝辞
  • 付録1:caretパッケージの方法とmethodの定義

執筆者

黄 銘

奈良先端科学技術大学院大学
先端科学技術研究科
情報科学領域
計算システムズ生物学研究室

助教

小野 直亮

奈良先端科学技術大学院大学
先端科学技術研究科
情報科学領域
計算システムズ生物学研究室

准教授

モハマド アルタフル アミン

奈良先端科学技術大学院大学
先端科学技術研究科
情報科学領域
計算システムズ生物学研究室

准教授

金谷 重彦

奈良先端科学技術大学院大学
先端科学技術研究科
情報科学領域
計算システムズ生物学研究室

教授

出版社

お支払い方法、返品の可否は、必ず注文前にご確認をお願いいたします。

お問い合わせ

本出版物に関するお問い合わせは tech-seminar.jpのお問い合わせからお願いいたします。
(出版社への直接のお問い合わせはご遠慮くださいませ。)

体裁・ページ数

A4判 並製本, PDF 308ページ

ISBNコード

978-4-904482-95-7

発行年月

2020年12月

販売元

tech-seminar.jp

価格

100,000円 (税別) / 110,000円 (税込)

付録CDご利用にあたって:

付録CDには、書籍内容のPDFと金谷研で開発したRスクリプトのフォルダが入っています。
Rスクリプトは著作権フリーですが、書籍のPDFは著作権で保護されておりますので、ご購入いただきました研究室や部署・部門の範囲でのご利用に限定させていただきます。
無断転載・シェアは固くお断りいたします。

案内割引について

シーエムシーリサーチからの案内をご希望の方は、割引特典を受けられます。

  • Eメール案内を希望する方 :
    • 冊子版 + PDF版 (CD) セット: 90,000円(税別) / 99,000円(10%税込)
  • Eメール案内を希望しない方 :
    • 冊子版 + PDF版 (CD) セット: 100,000円(税別) / 110,000円(10%税込)