ここでは、初めての機械学習【ライブラリーとデータの登録】まず、Pythonが実装されている必要があるので、まだ実装されていない方は、以下のリンクから別記事に移って、記事を参照しながらPythonをAnacondaを使ってインストールし実装してください。実際のコーディングは「Jupyter Notebook」というツールをブラウザー上で使って行っていきます。このツールはAnacondaを使ってPythonをインストールすると自動的にインストールされます。実際のコーディングは「Jupyter Notebook」というツールをブラウザー上で使って行っていきます。このツールはAnacondaを使ってPythonをインストールすると自動的にインストールされます。
ライブラリーの読み込み
![ML_01](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_01-1024x682.jpg)
まず、ライブラリーのインポートを行います。インポートするライブラリーは「scikit-learn」、「NumPy」、「SciPy」、「matplotlib」、「pandas」、「IPython」です。これらのライブラリーを以下のPythonのコマンドによってimportし、そのバージョンを見てみましょう。
![](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_03-1024x707.jpg)
記述したPythonのコードを実行するには、実行ボタンをクリックしても良いのですが、「Shift」+「Enter」のショートカットが便利です。実行すると以下のようになります。
![ML_04](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_04-1024x272.jpg)
データの読み込み
![ML_20](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_20-1024x682.jpg)
それでは、ゆりの花のデータセットをscikit-learnのdatasetモジュールから以下のコードによってダウンロードしiris_datasetという変数に代入しましょう。(iris(発音はアイリス)はユリという意味です。)
![ML_05](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_05-1024x106.jpg)
このデータセットには、いろいろな情報が含まれています。花の花弁とがく片のサイズ(長さと幅)のデータは「data」としてふくまれています。それではこの情報をよびたしてみましょう。
![ML_06](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_06-1024x62.jpg)
上記のコードを実行すると、以下のデータが表示されます。
![ML_07](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_07-1024x171.jpg)
実は、上記のデータは150個あります。上のデータはそのうちの始め5つを記述したものです。
それでは、品種のデータを呼び出してみましょう。データは「target」として含まれています。
![ML_08](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_08-1024x81.jpg)
このコードを実行すると以下の品種データを示す0から2までの数字が表示されます。
![ML_09](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_09-1024x157.jpg)
つぎに上記のtargetの0から2の数字が対応しているユリの品種の名前を呼び出してみましょう。品種の名前は「target_names」として含まれています。
![ML_10](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_10-1024x86.jpg)
このコードを実行すると以下の名前が表示されます。これは、「target」の0、1、2がそれぞれ'setosa' 'versicolor' 'virginica'に対応していることを示しています。
![ML_11](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_11-1024x55.jpg)
それではこのデータセットにどのような種類のデータが含まれているか、データの種類を呼び出してみましょう。
![ML_12](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_12-1024x85.jpg)
上記のコードを実行すると次の結果が表示されます。
![ML_13](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_13-1024x49.jpg)
このデータには、data, target, target_name, DESCR, feature_namesとfilenameの6種類のデータが格納されています。それでは最後にDESCR(Descriptionの略)にはそのような情報が格納されているのかみて見ましょう。
![ML_14](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_14-1024x93.jpg)
このコードを実行すると、以下のような表示が見られます。
![ML_15R](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_15R-1024x954.jpg)
![ML_16](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_16-1024x896.jpg)
上記を見ていただけばわかるようにDESCRの情報はこの情報の概要的な説明をする情報です。
まとめ
![ML_22](https://miyukimedaka.com/wp-content/uploads/2019/07/ML_22-1024x684.jpg)
それではいかがでしたでしょうか。機械学習の第1歩として、準備段階のPythonのライブラリーの読み込みとデータの呼び込みの方法をお話ししていきました。次は機械学習のK近傍法を使って実際の実装を行なっていきたいと思います。また、本記事はAndreas C. Muller氏とSarah Guido氏による「Introduction to Machine Learning with Python」を参考にしています。
コメント