摘要:
License: CC BY-NC-SA 4.0 seq2seq:输出长度由模型自行决定。例如语音识别,机器翻译。 即使不是 seq2seq 的问题,也可以用 seq2seq model 大力出奇迹。例如文法剖析,将「deep learning is very powerful」拆成「(S (NP 阅读全文
摘要:
License: CC BY-NC-SA 4.0 为什么我用 gradient descent 训了半天 loss 还是不降? local minima & saddle point 有可能是你卡在 local minima(极小值)了,但大部分情况下这只是个 saddle point(某一维是极小 阅读全文