摘要:
通过让各$\theta_i(i 0)$值尽量小一些, 可以避免overfitting (why?) 在$J(\theta)$上增加$\frac{\lambda}{2m} \sum_{i=1}^n \theta_i^2$ (注意$\theta_0$不需要加) 注意这里分母$2m$不是$2n$ (why 阅读全文
摘要:
some example 当x为binary时 structure 以四层的multi class classification为例(以01向量列表示分类预测。第i个最接近1则预测为第i个) $\theta^{(l)}_{ji}$表示第$l$层第$i$个神经元到下一层第$j$个神经元的转移的系数 记 阅读全文