31か月前公開・31か月前更新・5 min read

第8章　問題

NLP (自然言語処理)100ノック

https://picsum.photos/seed/f1416b3f67a34afd97a9f3280fec80d8/600/800

第8章: ニューラルネット

第6章で取り組んだニュース記事のカテゴリ分類を題材として，ニューラルネットワークでカテゴリ分類モデルを実装する．なお，この章ではPyTorch, TensorFlow, Chainerなどの機械学習プラットフォームを活用せよ．

70. 単語ベクトルの和による特徴量

問題50で構築した学習データ，検証データ，評価データを行列・ベクトルに変換したい．例えば，学習データについて，すべての事例

x_i

の特徴ベクトル

x_i

を並べた行列

X

と，正解ラベルを並べた行列（ベクトル）

Y

を作成したい．

X=\left(\begin{array}{l} \boldsymbol{x}_{1} \\ \boldsymbol{x}_{2} \\ \cdots \\ \boldsymbol{x}_{n} \end{array}\right) \in \mathbb{R}^{n \times d}, Y=\left(\begin{array}{c} y_{1} \\ y_{2} \\ \cdots \\ y_{n} \end{array}\right) \in \mathbb{N}^{n}

ここで，

n

は学習データの事例数であり，

x_i\in \mathbb{R}_d

と

y_i\in \mathbb{N}

はそれぞれ，

i \in\{1, \ldots, n\}

番目の事例の特徴量ベクトルと正解ラベルを表す．なお，今回は「ビジネス」「科学技術」「エンターテイメント」「健康」の4カテゴリ分類である．

\mathbb{N}<4

で4未満の自然数（0を含む）を表すことにすれば，任意の事例の正解ラベル

y_i

は

y_i∈\mathbb{N}<4

で表現できる．以降では，ラベルの種類数を

L

で表す（今回の分類タスクでは

L=4

である）．

i

番目の事例の特徴ベクトル

x_i

は，次式で求める．

\boldsymbol{x}_{i}=\frac{1}{T_{i}} \sum_{t=1}^{T_{i}} \operatorname{emb}\left(w_{i, t}\right)

ここで，

i

番目の事例は

T_i

個の（記事見出しの）単語列

(w_{i,1},w_{i,2},…,w_{i,Ti})

から構成され，

emb(w)∈ℝd

は単語

w

に対応する単語ベクトル（次元数は

d

）である．すなわち，

i

番目の事例の記事見出しを，その見出しに含まれる単語のベクトルの平均で表現したものが

x_i

である．今回は単語ベクトルとして，問題60でダウンロードしたものを用いればよい．300次元の単語ベクトルを用いたので，

d=300

である．

i

番目の事例のラベル

y_i

は，次のように定義する．

y_{i}= \begin{cases}0 & \text { (記事 } x_{i} \text { が「ビジネス」カテゴリの場合) } \\ 1 & \text { (記事 } x_{i} \text { が「科学技術」カテゴリの場合) } \\ 2 & \text { (記事 } x_{i} \text { が 「エンターテイメント」カテゴリの場合) } \\ 3 & \left(\text { 記事 } x_{i} \text { が「健康」カテゴリの場合 }\right)\end{cases}

なお，カテゴリ名とラベルの番号が一対一で対応付いていれば，上式の通りの対応付けでなくてもよい．

以上の仕様に基づき，以下の行列・ベクトルを作成し，ファイルに保存せよ．

学習データの特徴量行列: $X_{train}∈ℝ^{Nt×d}$
学習データのラベルベクトル: $Y_{train}∈ℕ^{N_t}$
検証データの特徴量行列: $X_{valid}∈ℝ^{N_v×d}$
検証データのラベルベクトル: $Y_{valid}∈ℕ^{N_v}$
評価データの特徴量行列: $X_{test}∈ℝ^{N_e×d}$
評価データのラベルベクトル: $Y_{test}∈ℕ^{N_e}$

なお，

Nt

Nv

Ne

はそれぞれ，学習データの事例数，検証データの事例数，評価データの事例数である

71. 単層ニューラルネットワークによる予測

問題70で保存した行列を読み込み，学習データについて以下の計算を実行せよ．

\begin{aligned} &\hat{\boldsymbol{y}}_{1}=\operatorname{softmax}\left(\boldsymbol{x}_{1} W\right) \\ &\hat{Y}=\operatorname{softmax}\left(X_{[1: 4]} W\right) \end{aligned}

ただし，

softmax

はソフトマックス関数，

X_{[1:4]}∈ℝ^{4×d}

は特徴ベクトル

x_1

x_2

x_3

x_4

を縦に並べた行列である．

X_{[1: 4]}=\left(\begin{array}{l} x_{1} \\ x_{2} \\ x_{3} \\ x_{4} \end{array}\right)

行列

W∈ℝ^{d×L}

は単層ニューラルネットワークの重み行列で，ここではランダムな値で初期化すればよい（問題73以降で学習して求める）．なお，

\hat{\boldsymbol{y}}_{1}∈ℝ^L

は未学習の行列

W

で事例

x_1

を分類したときに，各カテゴリに属する確率を表すベクトルである．同様に，

\hat{\boldsymbol{y}}∈ℝ^{n×L}

は，学習データの事例

x_1

x_2

x_3

x_4

について，各カテゴリに属する確率を行列として表現している．

Ads

Commutty IT ADS

記事を書いた人に広告収入が入る、そんなエンジニア向けブログサービスに広告を掲載しませんか？

Discussion

コメントにはログインが必要です。