O(n,p)=X(n,d)W(d,p)+b(n,p)O_{(n, p)} = X_{(n,d)}W_{(d,p)}+b_{(n,p)}O(n,p)=X(n,d)W(d,p)+b(n,p)
softmax(o)=(exp(o1)∑k=1pexp(ok),...,exp(op)∑k=1pexp(ok))softmax(o) = \left({exp(o_1)\over\sum^p_{k=1}exp(o_k)},...,{exp(o_p)\over\sum^p_{k=1}exp(o_k)}\right)softmax(o)=(∑k=1pexp(ok)exp(o1),...,∑k=1pexp(ok)exp(op))
softmax(o)=softmax(Wx+b)softmax(o) = softmax(Wx+b)softmax(o)=softmax(Wx+b)
H=(σ(z1),...,σ(zn))H = \left(\sigma(z_1),...,\sigma(z_n)\right)H=(σ(z1),...,σ(zn)), σ(z)=σ(Wx+b)\sigma(z) = \sigma(Wx+b)σ(z)=σ(Wx+b)