Aller au contenu principal

教師なし学習


教師なし学習


教師なし学習(きょうしなしがくしゅう, 英: Unsupervised Learning)とは、機械学習の手法の一つである。

既知の「問題」xiに対する「解答」yiを「教師」が教えてくれる手法である教師あり学習、と対比して「問題」xiに対する「出力すべきもの(正解=教師)」があらかじめ決まっていないという点で教師なし学習と呼ばれ、データの背後に存在する本質的な構造を抽出するために用いられる。

概要

教師なし学習は教師あり学習と違い、目的変数yに相当するものがそもそも存在しないか、あっても知る事ができない。未知の確率分布 p ( x ) {\displaystyle p(\mathbf {x} )} に従う変数 x 1 , , x n {\displaystyle \mathbf {x} _{1},\ldots ,\mathbf {x} _{n}} が訓練データとしてアルゴリズムに与えられる。アルゴリズムが解くべきタスクは、確率分布 p ( x ) {\displaystyle p(\mathbf {x} )} やその重要な性質を何らかの形で学習し、 p ( x ) {\displaystyle p(\mathbf {x} )} の特性を直接推定する事である。教師あり学習と違い、明確な「正解」yが存在しないので、教師なし学習では出力の妥当性を直接評価する評価尺度は存在せず、妥当か否かの判断は主観的なものになり、ヒューリスティックな議論が必要となる。

教師なし学習の興味の一つは確率密度関数 p ( x ) {\displaystyle p(\mathbf {x} )} それ自身を推定する密度推定のタスクであり、カーネル密度推定など統計学で様々なノンパラメトリック密度推定の手法が知られている。しかしxの次元が高い場合は次元の呪いが原因でこうした推定はうまくいかず、それゆえ多くの教師なし学習では、 p ( x ) {\displaystyle p(\mathbf {x} )} の何らかのパラメトリックなモデルで p ( x ) {\displaystyle p(\mathbf {x} )} を近似することを試みたり、訓練データから p ( x ) {\displaystyle p(\mathbf {x} )} の何らかの重要な性質を抽出するといったアプローチが取られる。


具体的なタスクとして以下のようなものがある。

  • クラスター分析
  • 主成分分析
  • ベクトル量子化
  • 自己組織化マップ
  • K平均法

アルゴリズム

自己教師あり学習

自己教師あり学習(英: self-supervised learning)は学習データのラベルを学習データに基づいて生成する学習手法である。教師ラベルがないという点で教師なし学習の一種とみなせる。

脚注

参考文献


Text submitted to CC-BY-SA license. Source: 教師なし学習 by Wikipedia (Historical)