// // //

初めての機械学習【ライブラリーとデータの登録】

ML_00 Programming
ML_00
この記事は約4分で読めます。

ここでは、初めての機械学習【ライブラリーとデータの登録】まず、Pythonが実装されている必要があるので、まだ実装されていない方は、以下のリンクから別記事に移って、記事を参照しながらPythonをAnacondaを使ってインストールし実装してください。実際のコーディングは「Jupyter Notebook」というツールをブラウザー上で使って行っていきます。このツールはAnacondaを使ってPythonをインストールすると自動的にインストールされます。実際のコーディングは「Jupyter Notebook」というツールをブラウザー上で使って行っていきます。このツールはAnacondaを使ってPythonをインストールすると自動的にインストールされます。

ライブラリーの読み込み

ML_01
ML_01

まず、ライブラリーのインポートを行います。インポートするライブラリーは「scikit-learn」、「NumPy」、「SciPy」、「matplotlib」、「pandas」、「IPython」です。これらのライブラリーを以下のPythonのコマンドによってimportし、そのバージョンを見てみましょう。

ML_03

記述したPythonのコードを実行するには、実行ボタンをクリックしても良いのですが、「Shift」+「Enter」のショートカットが便利です。実行すると以下のようになります。

ML_04
ML_04

データの読み込み

ML_20
ML_20


それでは、ゆりの花のデータセットをscikit-learnのdatasetモジュールから以下のコードによってダウンロードしiris_datasetという変数に代入しましょう。(iris(発音はアイリス)はユリという意味です。)

ML_05
ML_05

このデータセットには、いろいろな情報が含まれています。花の花弁とがく片のサイズ(長さと幅)のデータは「data」としてふくまれています。それではこの情報をよびたしてみましょう。

ML_06
ML_06

上記のコードを実行すると、以下のデータが表示されます。

ML_07
ML_07

実は、上記のデータは150個あります。上のデータはそのうちの始め5つを記述したものです。
それでは、品種のデータを呼び出してみましょう。データは「target」として含まれています。

ML_08
ML_08

このコードを実行すると以下の品種データを示す0から2までの数字が表示されます。

ML_09
ML_09

つぎに上記のtargetの0から2の数字が対応しているユリの品種の名前を呼び出してみましょう。品種の名前は「target_names」として含まれています。

ML_10
ML_10

このコードを実行すると以下の名前が表示されます。これは、「target」の0、1、2がそれぞれ'setosa' 'versicolor' 'virginica'に対応していることを示しています。

ML_11
ML_11

それではこのデータセットにどのような種類のデータが含まれているか、データの種類を呼び出してみましょう。

ML_12
ML_12

上記のコードを実行すると次の結果が表示されます。

ML_13
ML_13

このデータには、data, target, target_name, DESCR, feature_namesとfilenameの6種類のデータが格納されています。それでは最後にDESCR(Descriptionの略)にはそのような情報が格納されているのかみて見ましょう。

ML_14
ML_14

このコードを実行すると、以下のような表示が見られます。

ML_15R
ML_15R
ML_16
ML_16

上記を見ていただけばわかるようにDESCRの情報はこの情報の概要的な説明をする情報です。

まとめ

ML_22
ML_22

それではいかがでしたでしょうか。機械学習の第1歩として、準備段階のPythonのライブラリーの読み込みとデータの呼び込みの方法をお話ししていきました。次は機械学習のK近傍法を使って実際の実装を行なっていきたいと思います。また、本記事はAndreas C. Muller氏とSarah Guido氏による「Introduction to Machine Learning with Python」を参考にしています。

コメント