2014年8月5日
機械学習はどの分野に属するのか?
本記事は、原著者の許諾のもとに翻訳・掲載しております。
機械学習は、学際的な分野であり、密接に関連する分野である人工知能やデータマイニングと区別しようと考えると、かなり困惑するかもしれません。
この記事では、機械学習に関連したこうした分野について学びます。特に、機械学習が、どのようにして数学や人工知能の分野の上に成り立っているのか、そして機械学習がデータマイニングやデータサイエンスといった分野の中でどのように使用されているかということを学び、こうした分野の境界について学びます。
基礎
機械学習は、数学とコンピューターサイエンスの分野を基礎として成り立っています。特に、機械学習の手法は、線形代数と行列代数を使用して説明されることが多く、その作用は、確率、統計学というツールを使用して理解されることが多いです。機械学習にとっての基礎科目を代表する統計学、確率、人工知能の分野です。
確率
確率理論の分野では、ランダムな事象の可能性を描写する研究が行われます。確率理論は、数学の1分野であり、統計学の基礎をなすものです。
機械学習の手法は、確率の言語をつかって説明されることが多いです。そして、 ベイズの定理 などの確率理論を直接採用している理論も存在します。
統計学
統計学の分野では、データを収集、分析、説明、提示する手法の研究が行われます。統計学は、数学の1分野です。データがどのような意味を持つのかといった疑問に関連する分野です。
機械学習は統計学の枠組みの中でよく理解することができます。統計学では、トレーニングデータから学習することが、データ内の構造と関係をモデリングすることして扱われます。
このように、統計学のモデリング手法が、機械学習で採用されているわけですが、機械学習には、統計学的なモデリング手法以上のものが含まれます。
人工知能
人工知能の分野では、人間ができることをする、あるいは私たちが知的であると考えることをする、コンピューターシステムの研究または構築を行います。たとえば、人間は環境を渡り歩いたり、見たものを理解したり、読んだり聞いたりする言語を理解したりすることができます。また、ロボット工学、コンピュータービジョン、自然言語処理の対応する下位分野も存在します。チェスのチャンピオンは知的であるとされていますので、チェスをプレイする知的システムが作成されました。人工知能は、コンピューターサイエンスの1分野です。知性とは何か、そして知性を作り出すにはどうすればいいかという疑問に関連する分野です。
学習は、知的システムの機能の1つです。このように、機械学習は、学習することができるシステムの研究または構築と関連する人工知能の1分野と考えられます。
祖先たち
データについて説明したり、まだ見ぬデータの結果を予測するための、データから学習できるアルゴリズムは、複雑な問題を処理するのに有効です。このように、機械学習の手法はデータマイニングやデータサイエンスといった応用コンピューターサイエンス分野で使用されます。さらに、同じようにデータや環境から学習を行う知的手法を研究する人工知能の関連分野が存在します。たとえば、計算知能やメタヒューリスティクスなどです。
計算知能の関連分野である、データマイニング、データサイエンスについて概観し、機械学習の手法がどのように適用されているかを見てみましょう。
計算知能
計算知能 は、規定が容易であるものの複雑な行動が生成されるシステムの研究と構築に関するものです。多くの計算知能システムは、進化、免疫システム、神経系といった自然システムに影響をうけたもので、進化計算、人工免疫システム、人工神経ネットワークといった下位分野が存在します。計算知能は人工知能の1分野です。単純なルールから、どのように複雑な行動が生成されるのか、あるいは、これをもってどのような問題に対処するのに最もふさわしいのかという疑問に関連する分野です。
多くの計算知能システムは、環境との相互作用から学習を行うため、機械学習の手法として採用されてきました。
データマイニング
データマイニングの分野では、大規模なデータセットから、興味深い関係を発見するシステムの研究と構築を行います。このように、データマイニングは、データの保存やメンテナンスと、データの中から発見を行うプロセスの両方にわたります。データマイニングはプロセスであり、 データベースからの知識発見 (KDD) と呼ばれることもあります。データマイニングは、コンピューターサイエンスの一分野に位置づけられます。興味深い関係はどれなのか、そうした関係を最もよく発見する方法はどれかという疑問がテーマの分野です。
機械学習は、発見につながるものをくれるデータについて、その中にある関係性を学習するためにデータマイニングのプロセス中で使われているツールを提供します。
データサイエンス
データサイエンス の分野は、データを活用して、複雑な問題を解く実用的な科学に関するものです。データサイエンスは、コンピューターサイエンスの一分野に位置づけられます。データサイエンスは、データマイニングプロセスの応用であり、機械学習の手法を特定の領域で使用するものです。データサイエンティストは、データサイエンスの専門家です。
データマイニングの場合と同様に、機械学習は、データの関係性を判断する際に、データを描写し、予測を行うためにデータサイエンスで使用されるツール一式を提供します。
機械学習は、その他の数学の分野(決定理論や情報理論など)や、 コンピューターサイエンスの分野(オペレーションズリサーチや凸最適化などの)と関係しています。
リソース
さらに深く知りたい方のために、論文と書籍へのリンクをいくつか紹介しましょう。
- Leo Breiman, 統計学モデリング: 2つの文化 , 2001
- Stuart Russell and Peter Norvig, 人工知能: 近代的アプローチ (第3版) (著者アフィリエイトリンク), 2009
- Andries Engelbrecht, 計算知能: 導入 (著者アフィリエイトリンク), 2007
株式会社リクルート プロダクト統括本部 プロダクト開発統括室 グループマネジャー 株式会社ニジボックス デベロップメント室 室長 Node.js 日本ユーザーグループ代表
- Twitter: @yosuke_furukawa
- Github: yosuke-furukawa