Python sklearnのデータセット【datasets】について（その１：トイデータセット）

sklearnの中には、機械学習やデータ解析に使えるデータセットがいくつかロードして使えるように準備されています。今回はその中で、比較的小さなデータセットである「トイデータセット」と説明します。

それより大きく、実データに近い「実世界データセット」と都合の良いデータセットを生成する「データセットの生成」については後日、別記事で説明する予定です。

トイデータセットについて
まとめ

トイデータセットについて

sklearnには、７つのトイデータセットと言われる外部のwebからのファイルのダウンロードを必要とせず入手できるデータセットがあります。これらのデータセットは前述のように比較的小さく、手軽に各種のアルゴリズムの振る舞いを確認するのに便利です。また、

これらのうち、アヤメのデータセットのように、機械学習の入門書には常連のデータセットもあり、みなさんの中にはよくご存知の方も多いのではないでしょうか。また、これらのデータセットは既存のアルゴリズムを自分で修正した場合や、独自のアルゴリズムの検証に有益です。

現実的な事象を対象にした場合のシュミレーション目的での使用にはデータ量が少なすぎて適さない場合があります。その場合は、別途用意されている実世界データセットの使用や、用途に適したデータセットを作られることをお勧めします。

アヤメの品種データセット（Iris plants datasets)
ボストン市の地区別住宅価格データセット (Boston house prices datasets)
糖尿病患者の診療データセット (Diabetes datasets)
数字の手書き文字データセット (Digits datasets)
生理学的特徴と運動能力の関係についてのデータセット (Linnerrud datasets)
ワインの本質データセット (Wine recognition datasets)
乳がんのデータセット (Breast cancer wisconsin datasets)

アヤメの品種データセット（Iris plants dataset）

概要

アヤメのデータセットは、よく機械学習の一番初めに使われるデータセットです。アヤメの３品種（Setosa, Versicolor and Virginica)の花に関する萼片の長さ、萼片の幅、花びらの長さの４つの特徴量を持っています。

データサンプル数：150
特徴量の数：4 + 1
用途：分類

各特徴の構成

萼片の長さ（cm）　sepal length (cm)
萼片の幅（cm）　　sepal width (cm)
花びらの長さ（cm）petal length (cm)
花びらの幅（cm）　petal width (cm)

読み込み方法とデータセットの中身

　　　　　　　　　　（省略）

ボストン市の地区別住宅価格データセット (Boston house prices dataset)

概略

このデータセットはボストン市郊外の特別の住宅価格のデータセットです。特徴量数が13と多いです。

データサンプル数：506
特徴量数：13 ＋ 1
用途：回帰

各特徴の構成

CRIM 人口１人当たりの犯罪発生率
ZN 25,000平方フィート以上の居住区画の占める割合
INDUS 小売業以外の商業が占める面積の割合
CHAS チャールズ川からの距離による変数（１＝周辺、０＝遠い）
NOX NOXの濃度
RM 住居の平均部屋数
AGE 1940年よりも苗に建てられた住居の割合
DIS ５つのボストン市の雇用施設からの距離
RAD 高速道路へのアクセスのしやすさ
TAX $10,000ドル当たりの不動産税率の統計
PTRATIO 地区毎の児童と教師の割合
B 地区毎の黒人の比率
LSTAT 給与の低い職業に従事する人の割合（％）

読み込み方法とデータセットの中身

　　　　　　　　　　（省略）

　　　　　　　　　　（省略）

糖尿病患者の診療データセット (Diabetes datasets)

概略

442人の糖尿病患者の検査結果データとその1年後の糖尿病疾患の進行状況についてのデータセットです。

データサンプル数：442
特徴量数：10 + 1
用途：回帰

各特徴の構成

age 年齢
sex 性別
bmi BMI
map 平均血圧
tc 血清の成分その１
ldl 血清の成分その２
hdl 血清の成分その３
tch 血清の成分その４
ltg 血清の成分その５
glu 血清の成分その６

読み込み方法とデータセットの中身

　　　　　　　　　　（省略）

　　　　　　　　　　（省略）

数字の手書き文字データセット (Digits datasets)

概略

0から9の１０種類の手書きの数字を８x８の画素に分解表示したデータセットです。アヤメのデータセットと並んで有名なデータセットです。

データサンプル数：1797
特徴量数：64
用途：他クラス分類

読み込み方法とデータセットの中身

　　　　　　　　　　（省略）

生理学的特徴と運動能力の関係についてのデータセット (Linnerrud datasets)

概略

20人の成人男性に関するフィットネスクラブで測定した３つの生理学的特徴と３つの運動能力の関係を示したデータセットです。

データサンプル数：20
特徴量数：3 + 3
用途：多変数解析

各特徴の構成

Weight 体重
Wast 胸囲
Pulse 脈拍
Chins 懸垂の回数
Situps 腹筋の回数
Jumps 跳躍

読み込み方法とデータセットの中身

　　　　　　　　　　（省略）

　　　　　　　　　　（省略）

ワインの本質データセット (Wine recognition datasets)

概略

11種類のワインの成分とワインの専門家によるワインの品質評価を含んだデータセットです。

データサンプル数：178
特徴量数：13
用途：分類

各特徴の構成

Alcohol
Malic acid
Ash
Alcalinity of ash
Magnesium
Total phenols
Flavanoids
Nonflavanoid phenols
Proanthocyanins
Color intensity
Hue
OD280/OD315 of diluted wines
Proline

読み込み方法とデータセットの中身（データの列一部省略）

　　　　　　　　　　（省略）

　　　　　　　　　　（省略）

乳がんのデータセット (Breast cancer wisconsin datasets)

概要

乳がんの診断データを含んだデータセットです。各サンプルは30種類の腫瘍の特徴量と腫瘍が良性か悪性かの診断結果を含んでいます。

データサンプル数：569
特徴量数：30 + 2（クラス）
用途：分類

各特徴の構成

radius (mean):
texture (mean):
perimeter (mean):
area (mean):
smoothness (mean):
compactness (mean):
concavity (mean):
concave points (mean):
symmetry (mean):
fractal dimension (mean):
radius (standard error):
texture (standard error):
perimeter (standard error):
area (standard error):
smoothness (standard error):
compactness (standard error):
concavity (standard error):
concave points (standard error):
symmetry (standard error):
fractal dimension (standard error):
radius (worst):
texture (worst):
perimeter (worst):
area (worst):
smoothness (worst):
compactness (worst):
concavity (worst):
concave points (worst):
symmetry (worst):
fractal dimension (worst):

読み込み方法とデータセットの中身（データの列一部省略）

　　　　　　　　　　（省略）

まとめ

どれもいろいろなアルゴリズムの振る舞いを調べる上で有益なデータセットです。インポートの仕方とそれぞれのデータセットの特徴をつかんで、活用して下さい。
それでは、最後までお付き合いありがとうございました。さようなら。

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30