Ccmmutty logo
Commutty IT
1 min read

kaggleコンペティション紐解き1(Tabular Playground Series - May 2022) ①

https://cdn.magicode.io/media/notebox/3ef4d378-2bdf-49b8-84b7-41ecf577764c.jpeg

まずはデータの内容をみてみる

データの説明を見ると、こう書いてあります。
製造管理データが提供され(シミュレートされ)、マシンが状態にある0か状態にあるかを予測する必要があります1。データには、マシンの状態を判断する際に重要になる可能性のあるさまざまな機能の相互作用があります。

早速早速早速Notebookでトレーニングデータの中身を見てみます!

python
import pandas as pd

df_train = pd.read_csv("/kaggle/input/tabular-playground-series-may-2022/train.csv")
print(df_train)

データの中身

説明変数はf_00~f30のようです。
python
print(df_train['target'].unique())
上記の結果は[0 1]だったので、目的変数は0か1に区分できれば良いことがわかります。

Discussion

コメントにはログインが必要です。