PS: 本文默认已学习CS231N相关课程并掌握相关知识。
Softmax的实验部分跟SVM非常相似,所以本文就简单求下 \(loss\) 和 \(grad\)
Softmax的 \(loss function\) 定义为
\[ L = - \frac{1}{m}\sum_{i=1}^{m}\ln{\frac{e^{(X[i]*W)[y[i]]}}{\sum_{i=1}^{C}{e^{(X[i]*W)[j]}}}} \]
接下来我们求 \(grad\)
\[ dW[:, l] = {\begin{cases} -X[i] + {\frac{e^{(X[i]*W)[l]}}{\sum_{i=1}^{C}{e^{(X[i]*W)[j]}}}} * X[i], & l = y[i] \\ {\frac{e^{(X[i]*W)[l]}}{\sum_{i=1}^{C}{e^{(X[i]*W)[j]}}}} * X[i], & l \neq y[i] \\ \end{cases} } \]