百度高效研发实战训练营-Step2

百度高效研发实战训练营Step2

2.1 代码的艺术

2.1.1《代码的艺术》目的解读

这门课程的目的主要有以下四点：
(1) 了解公司与学校写代码的不同
(2) 消除对于程序员这个职业的误解
(3) 建立对软件编程的正确认识
(4) 明确作为软件工程师的修炼方向

1、了解公司与学校写代码的不同

在公司写程序和在学校写程序有很大的不同，在学校写程序时，对代码的质量要求比较低，当进入公司之后，做的是工业级的产品，服务用户量可能会达到亿万级，所以与代码的质量要求比较高，一些伟大产品中的代码，甚至可能被称为是艺术品。

2、消除对于程序员这个职业的误解

很多人都对程序员这个职业有误解，认为程序员就是码农，认为程序员35岁之后会面临失业问题，还有人认为程序员未来的唯一出路是做管理，希望通过接下来的学习，可以对于程序员有一个新的认识，从而消除误解。

3、建立对软件编程的正确认识

在做一件事物时，我们常说要“知”“行”合一，即我们需要对这件事物有一个正确的认识，才会有正确的行动。同理，写出好代码的前提，是对软件编程有正确的认识。

4、明确作为软件工程师的修炼方向

明确作为软件工程师的修炼方向，艺术品是由艺术家创造的，艺术家的修炼是有方式方法的，同样软件工程师的修炼也是有方法的，希望通过接下里的内容，能够对软件工程师这个职业有一个全新的认识。

2.1.2 代码与艺术之间的关系

1、代码是可以被称为艺术的

我们知道，艺术是多种多样的、丰富多彩的。同时，艺术也是有多个层次的。
想象一下我们编写的代码，我们的脑海中也会有类似的感觉，艺术就是人类通过借助特殊的物质材料与工具，运用一定的审美能力和技巧，在精神与物质材料，心灵与审美对象的相互作用下进行的，充满激情与活力的创造性劳动，可以说它是一种精神文化的创造行为，是人的意识形态和生产形态的有机结合体。

同样，写代码也要经历这样的一个过程，在编写代码的过程中，我们借助的物质是计算机系统，借助的工具是设计、编写、编译、调试、测试等，同样编写代码需要激情，而且编写代码是一件非常具有创造性的工作，总之，代码是人类智慧的结晶，代码反映了一个团队或一个人的精神。

代码是可以被称为艺术的！

2、艺术可以从不同的角度进行解读、研究与创造

达芬奇有多幅著名的画作，那著名的《蒙娜丽莎》这幅画来举例，站在观众的角度，可能只是在欣赏画中的人物微笑，但是对于画家来说，可能就会考虑画画的手法、构图、光线明暗、色彩对比等等方面。

同样，在《达芬奇自画像》这幅画作中，光有这个人物还不够，我们还要通过这个人物的个性与背景等等因素来揣摩这幅画作。

综上所述，在艺术方面，我们可以站在很多不同的角度进行解读，但是如果要成为一名创作者，我们需要的不仅仅是欣赏的能力，更重要的是从多角度进行解读、研究与创造的能力。

3、写代码如同艺术创作

写代码就如同艺术创作一般，并不是一件容易的事，写代码的内涵是：

①写代码这个过程，是一个从无序到有序的过程。
②写代码需要把现实问题转化为数学问题。在写代码的过程中，我们需要有很好的模型能力。
③写代码实际上是一个认识的过程。很多时候，编码的过程也是我们认识未知问题的过程。
④在写代码的过程中，我们需要综合的全方位的能力。包括把握问题的能力、建立模型的能力、沟通协助的能力、编码执行的能力等等。
⑤在写好代码之前，首先需要建立编码品味。品味是指我们首先要知道什么是好的代码，什么是不好的代码。这样我们才能去不断地调整自己的行为，然后去学习，去提高我们的编码能力，写出具有艺术感的代码。

2.1.3 软件工程师不等于码农

软件工程师不能只会写代码，更需要具有综合的素质。这个综合的素质包括:
（1）技术
技术能力是基础。包括但不限于编码能力、数据结构和算法能力、系统结构知识、操作系统知识、计算机网络知识、分布式系统知识等等。
（2）产品
要对产品业务有深刻的理解，需要了解产品交互设计、产品数据统计、产品业务运营等。
（3）其他
要了解一些管理知识，需要知识项目是怎么管理的，如何去协调多个人一起去完成一个项目，如何去协调多个人一起去完成一个项目。有一些项目需要具有很强的研究和创新方面的能力。

以上这些能力素质，是一个软件工程师需要具有的综合素质，要成为一个全部掌握这些素质的系统工程师，至少需要8~10年的时间，所以软件工程师绝对不是一个只会简单编写代码就可以的职业。

软件工程师不等于码农。

2.1.4 正确认识代码实践方面的问题

代码实践方面的问题，重点包括以下三个方面：

1、什么是好的代码，好的代码有哪些标准

好代码的标准是：

高效(Fast)
鲁棒(Solid and Robust)
简洁(Maintainable and Simple)
简短(Small)
可共享(Re-usable)
可测试(Testable)
可移植(Portable)
可监控(Monitorable)
可运维(Operational)
可扩展(Scalable & Extensible)

将以上十条标准进行总结精简，可以归纳为

1.代码的正确和性能
2.代码的可读和可维护性
3.代码的可运维和可运营
4.代码的可共享和可重用

了解完好代码的标准，接下来看一下不好的代码主要表现在哪些方面：

不好的函数名
比如在函数名中，加上my等单词，这属于很不专业的用法。
不好的变量名
比如看不出任何含义的a b c j k temp等变量名
没有注释或注释不清晰
没有注释的代码是非常难读懂的，注释不倾斜往往是因为文字功底或者描述能力欠缺，从而导致无法通过注释把代码的执行原理讲解清楚。
一个函数执行多个功能
比如LoadFfomFileAndCalculate()函数，它既执行了文件中去加载数据，还执行了计算功能。一般像这样的函数，我们建议把它切分成两个单独的函数。
不好的代码样式排版
代码样式排版在某种程度上体现了代码的一种逻辑，好的代码排版能增强代码的可读性和逻辑性，我们在写代码时，要规避不好的代码样式排版。
难以测试的代码
代码没法测试，就难以编写测试用例。

以上这些都是一些不好的表现。

2、好的代码从哪里来

代码不只是“写”出来的，实际上，在整个项目中，真正的编码时间约占项目整体时间的10%，好的代码是多个环节工作共同作用的结果。

这些环节包括：

1.在编码前，要进行需求分析和系统设计。
2.在编码过程中，要注意单元测试。
3.在编码后，要做集成测试，要上线，要持续运营/迭代改进。

一个好的系统/产品是以上过程持续循环的结果。

下面着重介绍一下重点环节：

1.认识需求分析和系统设计的重要性
需求分析和系统设计在软件开发中经常被忽略或轻视，但是这两点都是非常重要的环节，人们的直觉就是拿到一个项目就想尽快把它写出来并运行，感觉这样的路径是最快的，但是实际上在前期需求分析和系统设计投入更多的成本，会在后期节省更多的消耗。

也即前期更多的投入，收益往往最大。
原因是，如果我们开始的设计做错的话，那么后期开发、测试、上线、调试这些成本都会被浪费掉。
2.清楚需求分析和系统设计的差别

需求分析和系统设计是有泾渭分明的区别的，为了避免这两者相互混杂，我们需要清楚需求分析和系统设计各自的内涵。

需求分析，主要是定义系统或软件的黑盒行为，即外部行为，比如系统从外部来看能够执行什么功能。
系统设计，主要是设计系统或软件的白盒机制，即内部行为，比如系统从内部来看是怎么做出来的，为什么这么做？

3.需求分析的注意要点

需求分析，主要有两个要点：

要点一：清楚怎么用寥寥数语勾勒出一个系统的功能。
每个系统都有自己的定位，我们可以从简洁的总体描述，展开到具体的需求描述。需求描述的内容，基本包括系统类型描述、系统规模描述、系统定位和系统差异描述、系统对外接口功能描述。

要点二：需求分析需要用精确的数字来描述，需求分析中会涉及到大量的数据分析，这些分析都需要精确的数字来进行支撑。
4.系统设计的注意要点
要点1：清楚什么是系统架构
系统架构(System Architectrue)，在wiki上有一个英文定义，阐述了系统架构是一个概念的模型，它定义了系统的结构、行为、更多的视图，进一步解读系统架构。

它的几个要素是，系统要完成哪些功能，系统如何组成，在这些组成部分之间如何划分。

要点2：注意系统设计的约束

注意系统设计的约束，重点是资源的限制。比如计算的资源限制、存储的资源限制、IO/网络的资源限制等。

要点3：清楚需求是系统设计决策的来源

精确定义需求中的各个细节，以及量的定义，对系统设计的决策起着重要的作用。
要点4：系统设计的风格与哲学
在同样的需求下，可能会出现不同的设计方式，其目的相同，设计不同。
比如复杂指令集和精简指令集的设计差异。
一个好的系统，是在合适假设下的精确平衡；一个通用的系统，在某些方面，不如专业系统的。

每个组件（子系统或模块）的功能都应该足够的专一和单一。(每个组件，是指子系统或模块等。)
功能的单一，是指复用和扩展的基础。
倘若不单一，未来就有很可能很难进行复用和扩展。
子系统或模块之间的关系，应该是简单而清晰的。
软件中最复杂的是耦合。
如果各系统之间的接口定义非常复杂，那么未来便很难控制系统的健康发展.
值得注意的是，使用全局变量就是在增加系统的耦合，从而增加系统的复杂性。所以在系统中，需要减少使用全局变量。
要点5：清楚接口的重要性

接口，英文名Interface，系统对外的接口比系统实现本身还要更加重要。
接口的设计开发不容忽视，接口主要包括：
1.模块对外的函数接口

2.平台对外的API
这些API很多是基于RPC或者是基于Web API来实现的

3.系统间通信的协议

4.系统间存在依赖的数据
比如：给另一个系统提供的词表

以上，这些都是接口，都需要去重视和很好的定义。

接口重要的原因在于：

1 接口定义了功能
如果定义的功能不正确，那么系统的可用性与价值便会大打折扣。

2 接口决定了系统与系统外部之间的关系
相对于内部而言，外部关系确定后非常难以修改。因此接口的修改需要非常慎重且要考虑周全。

后期接口修改时，主要注意以下两点：

1 合理好用
新改的接口，应该是非常合理好用的，不能使调度方感觉我们做的接口非常难以使用。

2 修改时需要向前兼容
新改的接口，应该尽量实现前项的兼容，不能出现当新接口上线时，其他程序无法使用的情况。

3、如何写好代码

关于具体怎么写代码，下面主要从两个维度来进行介绍：

（1）代码也是一种表达方式

在一个项目中，软件的维护成本远远高于开发成本，而且超过50%的项目时间都是用于沟通。常规意义的沟通方式，主要有面对面交流、Email邮件、文档或网络电话会议等。

但其实代码也是一种沟通方式，在计算机早期，我们使用机器语言或汇编语言，更多考虑代码如何更高效率地执行，然而，随着技术的进步，代码编译器逐渐完善，我们写代码时，更多的是要考虑如何让其他人看得懂、看得清楚。
于是编程规范就应运而生了，编程规范主要包含：

如何规范的表达代码
语言使用的相关注意事项

基于编程规范，看代码的理想场景是：

看别人的代码，感觉和看自己的代码一样。
看代码时能够专注逻辑，而不是格式方面。
看代码时不用想太多

（2）代码书写过程中的细节问题
关于代码数学过程中的细节问题，我们将从模块、类和函数、面向对象、模块内部组成、函数、代码注释、代码块、命名、系统的运营等。

（1）关于模块

模块，是程序的基本组成单位。
在一个模块内，会涉及到它的数据，函数或类。
对于Python、Go、C语言这样的程序来说，一个后缀名为.py、.c、.go的文件就是一个模块。每一个模块需要有明确的功能，需要符合紧内聚、松耦合。

关于模块切分的是否合理，对于软件架构的稳定起着至关重要的作用。

切分模块的方法，先区分数据类的模块和过程类的模块。
数据类的模块，主要是要完成对数据的封装，封装往往是通过模块内部变量，或类的内部变量来实现的。
过程类的模块，本身不含数据，可以从文件中去读取一个数据，或执行一些相关的操作。过程类模块，可以调用其他数据类模块或过程类模块。

编写程序时，我们需要注意减少模块间的耦合，从而有利于降低软件复杂性，明确接口关系。

（2）关于类和函数

类和函数，是两种不同的类型，有它们各自适用的范围。
另外，遇见和类的成员变量无关的函数时，可以将该函数抽出来，作为一个独立的函数使用，这样便于未来的复用。

（3）关于面向对象

面向对象是一个优秀的编程方法和范式，但是真正理解的人并不多，面向对象的本质是数据封装，这就要求我们，在写程序的过程中应该从数据的角度开始想问题，而不是从执行过程的角度开始想问题。

同时，我们需要注意一个普遍的错误认知，即C语言是面向过程的，C++是面向对象的，实际上，C语言也是基于对象的，C和C++的区别，主要是没有多态和继承。

C++是一个经常被滥用的语言，因为C++有太强的功能，作为软件工程师，我们最重要的任务是去实现我们所需要的功能，语言只是一种解决问题的工具。

我们应该谨慎地使用多态和继承，如果一个系统中，类的继承超过三层，那么这个系统的复杂度便很难把握。

有这样一个悖论，很好的继承模型是基于对需求的准确把握，而我们的初始设计阶段往往对需求理解的透彻。

系统在初始阶段，可能只是一个很简单的原型，然后通过不断地迭代完善，才逐步发展起来变好的。

（4）关于模块内部的组成

一个模块，比如.py、.c、.go这样的模块，其内部组成主要是：

在文件头中，需要对模块的功能进行简要说明，需要把文件的修改历史写清楚，包括修改时间、修改人和修改内容。
在模块内，内容的顺序尽量保持一致，以方便未来对内容的搜索查询，

（5）关于函数

函数的切分同样十分重要。
对于一个函数来说，要有明确的单一功能。
函数描述三要素，包括功能、传入参数和返回值

功能描述，是指描述这个函数是做什么的，实现了哪些功能。
传入参数描述，是指描述这个函数中，传入参数的含义和限制条件。
返回值描述，是指描述这个函数中，返回值都有哪些可能性。

函数的规模要足够的短小，这是写好程序的秘诀之一。
bug往往出现在那些非常长的函数里。

在函数头中，需要对函数的语义做出清晰和准确的说明。
我们需要注意函数的返回值，在写函数时，要判断函数的语义，确定返回值的类型。
基于函数的语义，函数的返回值有三种类型：

1.“逻辑判断型”函数
“逻辑判断型”函数，返回布尔类型的值，True或False，表示“真”或“假”。
2.“操作型”函数
“操作型”函数，作为一个动作，返回成功或者失败的结果——SUCCESS或ERROR。
3.“获取数据型”函数
在“获取数据型”函数中，返回一个“数据”或者返回“无数据/获取数据失败”。

在这里，推荐一种函数的书写方式：

以“单入口、单出口”的方式书写，这种方式能够比较清晰地反映出函数的逻辑。
尤其是在实现多线程的数据表中，推荐使用一个内部函数来实现，“单入口单出口”的方式。

（6）关于代码注释

要重视注释。
书写注释，要做到清晰明确，在编写程序的过程中，先写注释后写代码。

（7）关于代码块

代码块的讨论范围，是在一个函数类的代码实现。
书写代码块内的思路，是先把代码中的段落分清楚，文章有段落，代码同样有段落，
代码的段落背后表达的是我们对于代码的逻辑理解，包括代码的层次、段落划分、逻辑等。

代码中的空行或空格，是帮助我们表达代码逻辑的符号，并非可有可无。
好的代码，可以使人在观看时，一眼明了。

（8）关于命名

命名，包括系统命名、子系统命名、模块命名、函数命名、变量命名、常量命名等。

我们要清楚命名的重要性，命名重要的主要原因为：
1.“望文生义”是人的自然反应。不准确的命名会使人产生误导，
2.概念是建立模型的出发点。(概念、逻辑推理=>模型体系)

好的命名是系统设计的基础。
命名中普遍存在的问题有：
1.名字中不携带任何信息
2.名字中携带的信息是错误的

命名不是一件容易的事情，关系着代码的可读性，需要仔细思考。
命名的基本要求是：准确、易懂。
提高代码命名可读性的方式之一：在名字的格式中加入下划线、驼峰等。

（9）关于系统的运营

在互联网时代，系统非常依赖运营，并不是我们把代码写完调试通了就可以，在系统运营过程中，代码的可监测性非常重要，很多程序都是通过线上的不断运行、不断监测、不断优化而迭代完善的。

所以，我们在编写代码的过程中，要注意尽可能多地暴露出可监控接口。

对于一个系统来说，数据和功能同等重要。
数据收集很重要，数据量够大才能知道这个项目或这个系统的具体收益。

关于系统的运营，我们在设计和编码阶段就需要考虑系统的运营，也就要求：

提供足够的状态记录
提供方便的对外接口

2.1.5 怎样修炼成为优秀的软件工程师

通常，人们在判断一名软件工程师的水平时，都会用工作时间、代码量、学历、曾就职的公司等等，这类外部因素作为评判标准。

但事实上，修炼成为优秀的软件工程师，重要的因素有三点：

（1）学习-思考-实践

1.多学习

软件编写的历史已经超过半个世纪，有太多的经验可以借鉴。
技术更新进步迅速，要不断的学习进步。

2.多思考

学而不思则罔，思而不学则殆。
对于做过的项目要去深入思考，复盘写心得。

3.多实践

知行合一谓之善，要做到知行合一，我们大部分的心得和成长，其实是来自于实践中的经历。
在学习和思考的基础之上，要多做项目，把学到的理论运用到真正的工作中去。

（2）知识-方法-精神

互联网的发展日新月异，对于软件开发来说，知识永远在增加。
所以在变化快速的知识世界中，最好的方式是找到方法。

方法就是用来分析问题和解决问题的，虽然说起来简单，但是适合每个人的方法都需要自己去寻找和总结。

在大多数人的成长过程中，并不单单只是鲜花和掌声，更多的是和困难荆棘做斗争，而真正能做出成就的人，都有着远大理想和宏伟志向。

所以光有知识和方法往往是不够的，还需要有精神作为支撑。

下面列出几个精神理念：
1 自由精神、独立思想
人一定要有自己的思考，不要人云亦云，不要随波逐流。

2 对完美的不懈追求
不要做到一定程度就满意了，而是要去不断的追求一个更好的结果。

（3）基础知识是根本

唐朝著名宰相魏征曾经对唐太宗说过，“求木之长者，必固其根；欲流之远者，必浚其泉源”，充分表达了基础乃治学之根本。

对于一个软件工程师来说，需要掌握的基础知识是非常繁杂的，包括以下种种：

数据结构、算法、操作系统、系统结构、计算机网络
软件工程、编程思想
逻辑思维能力、归纳总结能力、表达能力
研究能力、分析问题、解决问题的能力等

这些基础的建立，至少也要5~8年的时间。

欲速则不达，希望可以沉下心来，尤其是在自己职业生涯开始的几年，将基础打好。这样，才能在未来有更长远的发展。

2.1.6《代码的艺术》课程总结

通过这部分的学习，我们了解了公司与学校写代码有很大的不同，消除了对程序员这个职业的误解，建立了对软件编程的正确认识，明确了作为软件工程师的修炼方向。

在最后，还需要强调一下几个要点：

软件工程师不等于码农，软件工程师是一个很有深度的职业。

代码，我们可以把它携程艺术品。最终成品完全在于我们自身的修养。

不要忘记我们为什么出发。我们的目的是改变世界，而不是学习编程或炫耀技术。

好代码的来源不是写好代码，好代码是系列工作的结果。

代码是写给别人看的，别人看不懂的代码就是失败的。

写好代码是有方法的。系统工程师至少需要学习8~10年的积累。希望能够沉下心来，把基础打好，提升能力。

2.2 Mini-spider实践

本部分将从两个方面来讲解Mini-Spider框架在实际场景下的使用和注意事项等问题：

2.2.1 多线程编程

2.2.1.1 数据互斥访问

多线程中数据互斥访问的情况非常常见，在真实的生产环境中，经常会有开发人员会将对一张表的“添加”和“判断是否存在”分为两个接口，这是一种非常常见的错误。

以下图中的代码为例，左边的代码是正确的写法，将添加和判断写进一个函数中，右边的代码是典型的错误代码，编写了两个函数，分别是添加和判断函数。事实上，这种将添加和判断写进一个函数，并且运行的实现机制，是同8086的底层指令集支持密不可分的。

2.2.1.2 临界区的注意事项

在代码中，用锁来保护的区域被称为临界区。
以下图代码为例，临界区为self.lock.acquire和self.lock.release两句话之间的区域。在使用临界区的时候要注意，不要把耗费时间的操作放在临界区内执行。

很多开发人员在编写多线程的时候，会将耗费时间很多的逻辑放入临界区内，这样会导致无法发挥多线程对于硬件资源最大化利用的优势。

2.2.1.3 I/O操作的处理

在多线程编程中，还要注意对于IO操作的处理。
首先，在编写代码的时候，要注意不能出现无捕捉的exception，
以下图最左边的代码为例，如果不对异常进行捕捉，那么一旦出现问题，就不会执行self.lock.release()语句，进而导致死锁的发生。

其次，因为异常处理是非常消耗资源的，所以我们也不能像图中中间的代码一样，将异常放在临界区内，要像最右边的代码一样处理。

2.2.2 具体细节处理

下面来讲解一下Mini-Spider过程中的细节处理问题，

2.2.2.1 种子信息的读取

很多开发人员会将种子信息读取的逻辑，和其他逻辑耦合在一起，这样是错误的。

以图中代码为例，虽然通过_get_seeds函数直接读取文件中的信息，并灭有书写错误，但是如果后续的开发中文件的格式发生了变化，那就需要重新回来修改这部分的代码。

通过上述代码可以发现，模块划分和逻辑的复杂程度是没有关系的。
即使是逻辑简单的代码，如果没有做好模块划分，也会变得难以维护。

2.2.2.2 程序优雅退出

在真实的应用中，很多开发人员在实现程序退出功能的时候，使用了非常复杂的机制，导致后期维护难度较高。
在实际应用中，可以使用Python系统库中，关于队列的task_done()和join()的机制，以下图中的代码为例，左边的代码就是使用了task_done()，中间的代码是主程序中的一种常规逻辑使用，右边的是对中间主程序的一种优化，增加了spider.wait()，让整个逻辑可读性更强，更容易被理解。

2.2.2.3 爬虫的主逻辑编码

下面来讲一下爬虫主逻辑代码，编写需要注意的地方：
很多开发人员编写的主逻辑，非常的复杂且难懂，事实上图中的代码就是一个爬虫的主逻辑的所有代码，可以看到，里面包含了六个步骤：
第一步：从队列中拿到任务
第二步：读取内容，如果读取内容失败，则重新读取。如果读取成功，则执行第三步。
第三步：存储数据，
第四步：检查数据深度
第五步：如果数据深度不足，就进一步解析，并且放到队列中
第六步：结束任务

通过对六个步骤的编写和分析，可以看到好的代码是可以很快理解的，可读性是非常好的，这是开发人员在编写代码中需要注意的一个点。

2.3 代码检查规则背景及总体介绍

2.3.1 代码检测的意义

1 提高代码可读性

规范统一
方便他人维护
长远来看，符合公司内部开源战略

2 发现代码缺陷

帮助发现代码缺陷，弥补人工代码评审的疏漏
节省代码评审的时间与成本

3 提前发现问题

有助于提前发现问题，节约时间成本
降低缺陷修复成本

4 规范制定与准入检查

促进公司编码规范的落地
在规范制定后，借助工具进行准入检查

5 提升编码规范可运营

提升编码规范的可运营性
针对反馈较多的不合理规范进行调整更新

2.3.2 代码检查场景及工具

1 代码检查场景

首先是本地研发环节，借助客户端工具，在push发起评审之前进行检查。
若本地代码扫描没有出现问题，就进入第二个环节，代码准入环节，即为Code Review，这一环节进行增量检查，属于公司强制要求。第三个环节，持续集成环节Agile，当代码合入到代码库之后进行全量检查，业务线根据自身需求来配置。

2 代码检查工具与服务

代码检查的产品、客户端、SCM(icode)、CI(Agile)之间具有交互性，共同构成整个代码检查环节。

3 代码检查覆盖范围

在覆盖语言方面，代码检查目前已经覆盖了包括C++、Java/android、PHP、Python、Go、JS、OC、Kotlin等在内的几乎所有主流语言。

在检查维度方面，代码检查包括编码规范、代码缺陷、开源框架引用安全检查、可维护性(MI)。

4 代码检查速度

编码规范
只扫描变更文件，检查代码变更行是否复合规范，速度较快。

缺陷检查
需考虑文件依赖、函数调用关系、代码上下文等环节，因此相对耗时。

针对bugbye侧耗时的策略，默认超时时间10分钟，达到超时时间后，为了不影响代码合入，可选择“重新触发”或“跳过检查”。

2.3.3 代码检查规则分级

1 规则等级梳理

Code Review阶段，所有维度扫描出的问题，可以分为以下三个等级：
（1）Error

Error，属于需要强制解决的类型，影响代码的合入。
应视具体情况不同，采取修复、临时豁免、标记误报等措施及时处理。

（2）Warning

Warning，属于非强制性解决类型，不影响代码的合入。
但很可能存在风险，应尽量修复。

（3）Advice

非强制解决类型，级别相对较低，不影响代码合入。
可以选择性修复。

2 机检任务统一

在旧的模式下，旧的机器检查任务分类过多，缺乏重点，不契合用户需求，针对这一问题进行了调整，新模式下机器检查任务合并，评审页行间标注问题并分类显示。

3 评审页间行提示

评审业行间提示，指出具体的编码规范和缺陷检查。

4 针对豁免、误报、咨询的说明

豁免分为临时豁免与永久豁免。
临时豁免，本次检查临时豁免，下次遇到相同问题会再次报错，每人每月限额豁免10次，特殊需求可申请增加5次。

永久豁免，针对老代码迁移，机器生成文件等不适合按代码规范检查的情况，可申请永久豁免，由CMC审批。

标记误报
行间点击误报并填写理由，也可直接反馈服务号。

问题咨询
对扫出的bug有疑问，或者检查失败等，可通过服务号咨询。

2.4 代码检测规则：Python语言案例详解

这部分的主要内容分为两个部分，Python的代码检查规则与Python的编码惯例，内涵涵盖了共计34条代码检查规则与4个Python编码惯例。这些规则与惯例都将在未来的编码规则中被反复应用。

2.4.2 Python的代码检查规则

一套良好的代码检查规则，可以带来代码质量提高，降低缺陷修复和后期维护成本等一系列收益，这里为大家提供了一套完备的代码检查体系。

规定的Python代码检查规则中，主要分为四个大类，分别是：
1.代码风格规范
2.引用规范
3.定义规范
4.异常处理规范

（1）代码风格规范

这一大类的规范规则较为繁琐，具体有可细分为以下七个小类(共计17条规则)：

1.程序规范规模
(1)每行≤120个字符
每行不得超过120个字符
(2))函数长度≤120行
定义的函数长度不得超过120行，这意味着，在编写代码时，要时刻注意自己编写的程序规模，要避免冗余，确保简洁而高效。

2.语句规范
因为Python语言与其他语言不同，可以不需要明确的标识符标示语句的结尾，所以有以下规定：
(3)禁止以分号结束语句
(4)在任何情况下，一行只能写一条语句

3.括号使用规范
(5)除非用于明确算术表达式优先级、元组或者隐式行连接，否则尽量避免冗余的括号

4.缩进规范
(6)禁止使用Tab进行缩进，而统一使用4个空格进行缩进
在需要将单行内容拆成多行写时，我们规定
(7)与首行保持对齐，或者首行留空，从第二行起统一缩进四个空格

5.空行规范
(8)文件级定义(类或全局函数)之间，相隔两个空行；
类方法之间，相隔一个空行

6.空格规范
(9)括号之间均不添加空格
(10)参数列表、索引或切片的左括号前不应加空格
(11)逗号、分号、冒号前均不添加空格，而是在它们之后添加一个空格
(12)所有二元运算符前后各加一个空格
(13)关键字参数或参数默认值的等号前后不加空格

7.注释规范
(14)每个文件都必须有文件声明
声明必须包括以下三个方面的信息：

(a) 版权声明
(b) 功能和用途介绍
(c) 修改人及联系方式

用文档字符串(docstring)进行注释时，规定
(15)使用docstring描述模块、函数、类和类方法接口时，docstring必须用三个双引号括起来。
(16)对外接口部分，必须使用docstring描述，内部接口视情况自行决定是否写docstring
(17)接口的docstring描述内容，至少包括以下三个方面的信息：

功能简介
参数
返回值

如果可能抛出异常，则特别注明会发生。

（2）引用规范

一个良好的代码风格，是程序员写出优美代码的基础，而当我们想要写出更为间接的代码，我们很难在不导入各种的模块、库与包的情况下完成它。

(1)禁止使用from ...import...句式直接导入类或函数
而应自导入库后再行调用，
(2)每行只导入一个库
(3)按标准库、第三方库、应用程序自有库的的顺序排列import
三个部分之间分别留一个空行。

（3）定义规范

下面我们将分别介绍各种定义的规范，具体可分为三个小类：
(1) 变量定义规范
(2) 函数定义规范
(3) 类定义规范

1.变量定义规范

在变量定义方面，我们有强制的规范规定：
①局部变量使用全小写字母，单词间使用下划线分割；
②定义的全局变量必须写在文件头部
③常量使用全大写字母，单词间使用下划线分隔

2.函数的定义规范
函数的定义规范，主要体现在函数的返回值，以及默认参数的定义上，为提高代码可读性，对于函数的返回值，规范要求为：
①函数返回值必须小于或者等于三个，若返回值大于三个，则必须通过各种具名的形式进行包装。

为了保障函数运行效率，以及降低后期维护和纠错成本，对于函数默认参数的定义有如下要求：
②仅可使用以下基本类型的常量或字面常量作为默认参数（整数、浮点数、bool、浮点数、字符串、None）

3.类定义的规范
类定义的规范，包括了四个方面的内容：
①类的命名，使用首字母大写的驼峰式命名法
②对于类定义的成员，protected成员使用单下划线前缀，private成员使用双下划线前缀。
③如果一个类没有基类，必须继承自ovject类。
④类构造函数应尽量简单，不能包含可能失败或过于复杂的操作

（4）异常处理规范

在代码编写中应该尽量避免代码异常状态的出现，然而错误有时也在所难免，对于这些异常状态的处理，有着明确的规范要求。
①禁止使用双参数形式或字符串形式的语法抛出异常
②如需自定义异常，应在模块内定义名为Error的异常基类，并且该基类必须继承自Exception，其他异常均由该基类派生而来。
③除非重新抛出异常，禁止使用except语句捕获所有异常，一般情况下，应使用except...语句捕获具体的异常
④捕捉异常时，应当使用as语法，禁止使用逗号语法。

2.4.3 Python的编码惯例

下面介绍几个常见的Python编码惯例，便于大家理解日后所见的代码：

它们分别是：

1.让模块即可被导入又可被执行

2.in运算符的使用

3.不适用临时变量交换两个值

4.用序列构建字符串

（1）让模块即可被导入又可被执行

Python不同于编译型语言，而属于脚本语言，是动态的逐行解释运行，没有统一的程序入口。

所以，为了方便模块之间的相互导入，我们通过自定义一个main函数，并使用一个if语句，if内置变量__name__=='__main__'，在这个if条件下，再去执行main函数，这样我们就能够实现，让模块即可被导入又可被执行。

（2） in运算符的使用

in是一种简洁而高效的运算符，很多时候，合理的使用in运算符，可以替代大量的重复判断过程，降低时间复杂度，提高代码的运行效率。

（3）不适用临时变量交换两个值

Python有简洁而高效的语句，可以实现交换两个值的操作，并无必要引入临时变量来交换两个值。

（4）用序列构建字符串

对于一个字符串列表、元组等，可以用序列来构建字符串，利用一个空字符串和join函数，可以避免重复，从而高效完成字符串的构建。

posted @ 2022-06-06 22:01 Xu_Lin 阅读(249) 评论(0) 收藏举报

刷新页面返回顶部

Xu_Lin

Do more; Learn more; Be more