2014 年 6月 11 日随笔档案 - peghoty

2014年6月11日

一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法

摘要： Log-Linear 模型（也叫做最大熵模型）是 NLP 领域中使用最为广泛的模型之一，其训练常采用最大似然准则，且为防止过拟合，往往在目标函数中加入（可以产生稀疏性的） L1 正则。但对于这种带 L1 正则的最大熵模型，直接采用标准的随机梯度下降法（SGD）会出现效率不高和难以真正产生稀疏性... 阅读全文

posted @ 2014-06-11 14:06 peghoty 阅读(537) 评论(0) 推荐(0) 编辑