术语俗话 --- 什么是深度学习
“深度学习就是电脑自己从海量数据里学会认东西、做决策。”
想象一下教一个小朋友认识什么是“猫”:
-
最初级的方法(规则法):
-
你告诉小朋友:“猫有尖耳朵、长胡子、四条腿、毛茸茸的、会喵喵叫”。
-
小朋友就死记硬背这些规则。
-
问题: 如果看到一只没有胡子的猫(比如被剃了),或者一只趴着只露出两条腿的猫,小朋友就认不出来了。规则太死板,现实太复杂多变。
-
-
传统机器学习(特征法):
-
你给小朋友看很多很多猫的照片,也混着一些狗、兔子等其他动物的照片。
-
你自己决定哪些特征重要(比如耳朵形状、眼睛大小、鼻子类型、毛的长短等),然后教小朋友:“你看,这些特征组合起来就是猫”。
-
小朋友学会根据你指定的这些特征去判断。
-
问题: 如果一开始你选的特征不够好(比如忽略了胡子的重要性),或者现实中有你没考虑到的特征组合,小朋友还是会认错。
-
-
深度学习(让机器自己学特征):
-
你还是给小朋友看海量的猫和其他动物的照片(这就是“大数据”)。
-
但这次,你不告诉小朋友具体要看什么特征了! 你说:“你自己看吧,看多了你就知道什么是猫了”。
-
小朋友的大脑(相当于一个复杂的“神经网络”)开始工作:
-
第一层神经元可能只关注最基础的:有没有边?有没有角?有没有颜色块?
-
第二层神经元组合第一层的信息:哦,这里好像有个圆形(可能是头),那里有条线(可能是尾巴)。
-
第三层神经元再组合:这个圆形连着这个形状,有点像耳朵;这个线条连着身体… 看起来像某种动物。
-
一层一层往上,越来越复杂和抽象:这些耳朵形状、眼睛位置、身体比例的组合… 越来越像“猫”!
-
-
在这个过程中,小朋友会猜错。你告诉他:“这张是猫”,“那张不是猫”。
-
小朋友根据你的反馈,不断调整大脑里神经元之间连接的“强度”(权重)。哪些特征组合更重要?哪些不太重要?它自己摸索出来了!
-
经过海量图片的训练和不断的调整,小朋友大脑里形成了一套自己发现的、极其复杂的“猫特征识别模式”。即使看到一只姿势奇怪、光线不好、甚至部分被遮挡的猫,它也能凭借这套内部形成的、高度抽象的模式,大概率认出是猫。
-
总结深度学习的核心思想:
-
“深度”网络: 使用一个结构像大脑神经元一样、包含很多很多层(“深”)的人工神经网络。
-
自动学习特征: 不需要人类手动告诉它看哪些具体特征。它直接从海量的原始数据(图片、声音、文字等)中,自己一层一层地、由简单到复杂地学习和提炼出最有用的特征和模式。
-
数据驱动: 学得好不好,关键看“喂”给它的数据够不够多、够不够好(“大数据”)。
-
“端到端”学习: 输入原始数据(如像素),输出最终结果(如“这是猫”)。中间的特征提取过程是机器自动完成的黑箱。
简单一句话:
深度学习就是让电脑模仿人脑的层次化学习方式,给它看海量例子,让它自己摸索出一套识别复杂事物的内部规则,从而能处理像图像识别、语音理解、自然语言处理这些非常模糊、规则难以言表的问题。
生活中的例子:
-
人脸识别解锁手机: 手机不是靠你定义的眼睛多大、鼻子多高来认你,而是它自己从你输入的无数张自拍中,学习了一套识别你独特面部特征的模式。
-
手机相册自动分类: 能自动识别“猫”、“狗”、“风景”、“食物”,也是深度学习看了无数照片后自己学会的。
-
语音助手: 能听懂你各种口音和语速的指令,是深度学习听了无数人说话后学会的。
-
机器翻译: 能比较流畅地翻译不同语言,是深度学习读了海量双语对照文本后,自己琢磨出了语言之间的对应模式和上下文关系。
浙公网安备 33010602011771号