数据拾光者

2020年5月13日

摘要：摘要：本篇主要介绍了项目中用于商业兴趣建模的DSSM双塔模型。作为推荐领域中大火的双塔模型，因为效果不错并且对工业界十分友好，所以被各大厂广泛应用于推荐系统中。通过构建user和item两个独立的子网络，将训练好的两个“塔”中的user embedding 和item embedding各自缓存到内存数据库中。线上预测的时候只需要在内存中计算相似度运算即可。DSSM双塔模型是推荐领域不中不得不会的重要模型。阅读全文

posted @ 2020-05-13 11:21 数据拾光者阅读(2810) 评论(0) 推荐(1)

2020年4月17日

广告行业中那些趣事系列9：一网打尽Youtube深度学习推荐系统

摘要：摘要：本篇主要分析Youtube深度学习推荐系统，借鉴模型框架以及工程中优秀的解决方案从而应用于实际项目。首先讲了下用户、广告主和抖音这一类视频平台三者之间的关系：就是平台将视频资源作为商品免费卖给用户，同时将用户作为商品有偿卖给广告主，仅此而已。平台想获取更高的收益就必须提升广告的转化效率，而前提是吸引用户增加观看视频的时长，这里就涉及到视频推荐的问题。因为Youtube深度学习推荐系统是基于Embedding做的，所以第二部分讲了下Embedding从出现到大火的经过。最后一网打尽Youtube深度学习推荐系统。该系统主要分成两段式，第一段是生成候选项模型，主要作用是将用户可能感兴趣的视频资源从百万级别初筛到百级别；第二段是精排模型，主要作用是将用户可能感兴趣的视频从百级别精挑到几十级别，然后按照兴趣度得分进行排序形成用户观看列表。希望对推荐系统感兴趣的小伙伴有所帮助。阅读全文

posted @ 2020-04-17 18:47 数据拾光者阅读(530) 评论(0) 推荐(1)

2020年4月7日

书中自有黄金屋系列6：读《浪潮之巅》-上篇

摘要：本篇主要了解苹果、微软和雅虎三家曾经或者依然雄霸于IT行业中处于浪潮之巅的弄潮儿。乔布斯的他的苹果不仅仅在手机领域，而且在个人电脑、动画电影、音乐等等领域都有颠覆性的成就。微软作为PC的王者，凭借Windows操作系统基本垄断了电脑领域，虽然完美错过移动互联网时代，先后在智能终端、搜索引擎、社交媒体和电子商务等领域完败，但是最终在纳德拉的带领下走向转型之路，将微软从一家软件公司转型成为一家云计算公司。雅虎作为过去世界门户网站之王，虽然已经谢幕，但确是互联网航海时代的海贼王。雅虎的杨致远和费罗制定了整个互联网的游戏规则：开放、免费和盈利，并且沿用至今，所以是当之无愧的对互联网时代贡献最大的人。阅读全文

posted @ 2020-04-07 21:07 数据拾光者阅读(214) 评论(0) 推荐(0)

广告行业中那些趣事系列8：详解BERT中分类器源码

摘要：摘要：本篇主要讲解BERT中分类器部分的源码。整体来看主要分成数据处理模块、特征处理模块、模型构建模块和模型运行模块。数据处理模块主要负责数据读入和预处理工作；特征处理模块负责将预处理后的数据转化成特征并持久化到TFRecord格式文件中；模型构建模块主要负责构建BERT模型和模型标准输入数据准备；模型运行模块主要负责模型训练、验证和预测。通过整体到局部的方式我们可以对BERT中的分类器源码有深入的了解。后面可以根据实际的业务需求对分类器进行二次开发。阅读全文

posted @ 2020-04-07 21:05 数据拾光者阅读(574) 评论(0) 推荐(0)

2020年3月24日

书中自有黄金屋系列5：读《正面管教》

摘要：父母对于孩子不仅仅要有爱，更要有科学的教育方式，所以持证上岗非常重要。传统的教育方式中放纵的教育方式会让孩子以自我为中心，完全不顾及他人的感受，最严重的是孩子不知道自己行为的边界在哪里。而严格的惩罚式的教育方式虽然效果立竿见影，但是会造成孩子愤怒、报复、反叛和退缩四种长期不良的情绪。前三种负面情绪会在孩子的叛逆期集中爆发，而第四种不良情绪则会让孩子非常自卑。不同于传统的教育方式，正面管教的教育方式核心理念是在互相尊重的基础上，在和善而坚定的氛围中让孩子学会自立。最核心的五个字：和善而坚定。最后使用正面管教，对孩子既不批评，也不表扬。明确父母和孩子的关系应该是横向关系，邀请孩子一起制定规矩。想要孩子尊重父母，我们应该先尊重孩子。教会孩子自尊而不是他尊，明白我们要赢得孩子而不是赢了孩子。上面仅仅是书中很少一部分内容，只有来回细品才能真正学到亲子教育的真谛。有兴趣的小伙伴可以细细品读。阅读全文

posted @ 2020-03-24 21:47 数据拾光者阅读(486) 评论(0) 推荐(0)

2020年3月22日

广告行业中那些趣事系列7：实战腾讯开源的文本分类项目NeuralClassifier

摘要：摘要：本篇主要分享腾讯开源的文本分类项目NeuralClassifier。虽然实际项目中使用BERT进行文本分类，但是在不同的场景下我们可能还需要使用其他的文本分类算法，比如TextCNN、RCNN等等。通过NeuralClassifier开源项目我们可以方便快捷的使用这些模型。本篇并不会重点剖析某个算法，而是从整体的角度使用NeuralClassifier开源工程，更多的是以算法库的方式根据不同的业务场景为我们灵活的提供文本分类算法。阅读全文

posted @ 2020-03-22 10:56 数据拾光者阅读(1018) 评论(1) 推荐(0)

2020年3月15日

总会用到的系列3：成功的路上你可能需要一个微信公众号

摘要：摘要：如何快速的成长？创建一个微信公众号可能是一个不错的建议。微信公众号可能是一张专属于你的名片，也能帮助我们从一个螺丝钉向中央CPU蜕变，更是我们知识积累沉淀的一个很好的平台。在这里我们还能结交一些志同道合的朋友，充分的利用我们碎片化的时间。终有一天你会发现玩游戏还不如来写一篇文章快乐呢。阅读全文

posted @ 2020-03-15 21:13 数据拾光者阅读(130) 评论(0) 推荐(0)

2020年3月14日

书中自有黄金屋系列4：读《一课经济学》

摘要：摘要：如果一生中只需要读一本经济学著作，可能就是这本《一课经济学》了。想在复杂的社会中做一个“明白人”，人人可能都需要学点经济学。从破窗谬论到机器是否会导致大规模失业，价格、价值和供求关系三者构成的价值体系，再到政府管制租金对于经济和民生的影响，最低工资法是不是真正的帮助了穷人，再到最后是谁偷走了我的钱包？是通货膨胀。相比于那些复杂难懂的经济学公式，这本书通过一个个生动的例子帮助我们更好的理解这些经济学知识，帮助我们逃离无知而不自知的状态。阅读全文

posted @ 2020-03-14 16:52 数据拾光者阅读(237) 评论(0) 推荐(0)

2020年3月8日

广告行业中那些趣事系列6：BERT线上化ALBERT优化原理及项目实践(附github)

摘要：摘要：实际项目中需要将BERT线上化需要使模型又快又好的训练，所以经过调研使用目前BERT最新的派生产品ALBERT。ALBERT通过因式分解和共享层与层之间的参数减少了模型参数量，提升了参数效率；通过SOP替代NOP，增强了网络学习句子的连续性的能力，提升了自监督学习任务的能力；通过去掉dropout可以节省很多临时变量，有效提升模型训练过程中内存的利用率，提升了模型的效率，减少了训练数据的规模。最后将项目中的句子关系判断任务改造成我们实际项目中的文本分类任务用于实际业务需求。可以说是有理论，帮助小伙伴们理解ALBERT为啥训练快了，效果还不错。也有实践，如果需要使用ALBERT做文本分类任务，直接用我改造好的脚本和代码跑起来就行。阅读全文

posted @ 2020-03-08 18:44 数据拾光者阅读(776) 评论(0) 推荐(0)

2020年3月1日

Spark中那些常用的特征处理操作

摘要：摘要：通常在大厂实际项目中会使用Spark来处理大规模数据下的数据挖掘和分析相关工作。本篇从项目实战中总结常用的Spark特征处理实例，方便小伙伴们更好的使用Spark做数据挖掘相关的工作。阅读全文

posted @ 2020-03-01 12:19 数据拾光者阅读(1040) 评论(0) 推荐(0)

公告