wenmo8 发布的文章

调试器工作流程

作者: wenmo8
时间: 2023-01-31
分类: 调试
评论

转自：https://blog.csdn.net/sinat_35360663/article/details/80176269

软件调试的九个规则

作者: wenmo8
时间: 2023-01-31
分类: 调试
评论

这就个规则来自于书籍《调试九法：软硬件错误的排查之道》，记录下来：

规则1：理解系统

你必须掌握系统的工作原理以及它是如何设计的，在某些情况下还要知道为什么这样设计。如果你没有理解系统中的某个部分，那么这通常是出问题的地方。（这不仅仅是墨菲定律的问题，如果你不能理解你所设计的系统，你的工作可能会变得一团糟）。

如何理解系统呢？

阅读手册
逐字逐句阅读手册，仔细理解每个细节
知道什么是正常的，知道什么是正常的可以帮助你注意到什么是不正常的
知道工作流程，要理解业务，要讲系统的工作过程对应到具体要解决的现实问题
选择合适的工具，选择合适的辅助（监控、插桩）工具可以帮你理解系统
查阅细节，经验有时候会骗人，记忆有时候会出错

规则2：制造失败

这一点比较容易理解，就是问题复现，在日常工作中，你在排查一个问题的过程中，最重要的一步就是复现问题——能复现的问题都能解决。

这里有几个要点需要注意：

引发失败，而不要模拟失败，不要尝试用不同的方式去模拟问题，而要模拟和构建引发bug发生的条件
debug的动作，不要影响错误的发生方式，可以影响错误的发生频率
从头开始，需要有一个正常的状态到不正常的状态的过程，从开始正常的状态开始观察，直到问题发生；
终极方案，控制变量法，将可能引发错误的因素依次排除；排除所有可能的原因后，剩下那个答案，无论多么不可思议，都是事实。

规则3：不要想，而要看

亲眼看到底层的失败是非常重要的，如果你猜测失败是如何发生的，那常常会修复一些根本不是bug的问题。

在软件世界里，观察意味着设置断点、添加调试语句、监视程序值以及检查内存；在医学领域，需要测试血样和进行X光透视。

对细节的观察应该到什么程度合适呢？简单的答案是：一直观察，直到把问题的原因锁定在几种可能之内。

在系统设计的时候，就要考虑到将来调试、排查问题的情况，将日志视为系统设计的一部分—打印一些关键日志，或者设计一些打开日志的开关，以便在生产环境针对某个case进行调试。

日常生活中有很多插桩的case：

体温计测量体温
自行车轮胎漏气时，都是将轮胎打满气，然后放在水里检查哪里漏气
天然气中加入了臭鸡蛋的气味

规则4：分而治之

反复将问题分成好的一半和坏的一半，然后缩小搜索范围，然后进一步研究有问题的那一半链路。

规则5：一次只改一个地方

初中就学过的控制变量法。在修改bug时候，如果某个改动没有修复bug，就应该立即把它改回来。

规则6：保持审计跟踪

记下你的每步操作、顺序和结果；魔鬼藏在细节中；将一些事情关联起来思考；好记性不如烂笔头；

规则7：检查插头

一些显而易见的假设可能是错误的；是不是运行了正确的代码？是不是打了正确的包？插头是不是掉了？从一些最基本的问题开始确认，很多时候问题就出在这里。对自己使用的工具进行测试，因为工具也是一种软件，难保不会出问题。

规则8：获得全新观点

向别人解释问题的过程，会让你对问题进行重新的梳理和理解，这时候可能发现之前没有发现的问题。

bug发生了，以除掉bug为自豪，而不是非得以自己除掉bug才自豪。

不管你是跟什么人求助，或者需要别人什么样的帮助（征求意见、获取专业知识、听取经验），在向别人描述问题的时候，一定要记住一件事——报告症状、而不是讲你的理论；另外，有些症状你可能不是十分确定，也可以描述出来。

规则9：如果你不修复bug，它将依然存在

如果你不修复bug，它不会自动消失。按照前面的规则解决问题后，要进行一次回归验证，确保已经修复问题，并且没有引入新的问题。

《调试九法：软硬件错误的排查之道》

符号文件如何让断点发挥作用的？

作者: wenmo8
时间: 2023-01-31
分类: 调试
评论

调试符号文件（pdb）是一种很复杂的文件，由于这种文件格式微软并不公开，所以至今为止，并没有一篇文章或资料敢说自己对pdb文件进行了深入剖析。更重要的原因是，我们为了研究调试技术，需要知道一些系统（操作系统，编译器，连接器，调试器等）调试支持，仅仅知道即可，没必要深究微软为了实现调试而做出的每一个细节。
首先，我先问几个问题：

我们经常用的调试方法，下断点，是如何实现的呢？
我们可以在程序还没有执行起来的时候就可以下断点，等调试启动的时候，就可以命中这个断点。这个是怎么实现的？
当断点命中时，我们可以观察一个变量的值，这是怎么实现的？

先简单讲解本文中用到的两个概念：

OFFSET，文件中的偏移。
VA，程序加载到内存后的一个虚拟地址。

假设在一个EXE文件中，有一个全局变量a，距离文件起始的偏移为0x10，此时文件的起始位置为0x00000000，那么该全局变量a的OFFSET就是0x00000010。当这个exe执行起来，加载到内存后，这个exe本身所加载到的内存位置称为基地址。假设基地址为0x00400000，那么这个全局变量a的VA便是0x00400010。可见，exe本身所加载到的基地址不一样的话，那么a的VA就不能确定。
依然使用最简单的例子，来阐述原理，代码如下：

可以观察到，此时，笔者并未调试启动程序，而这个断点，就已经打上了。接下来我们调试启动程序，如下图：

此时，我们已经进入断点，并中断下来，我们可以观察到全局变量g_nVar的值。想必这个过程，有过VC++开发经验的开发者，再熟悉不过了。下面，详细分析一下这个过程。
当我们鼠标点击下断点的时候，我们的程序还没有启动，VS是不可能知道这个断点应该打在内存中的哪一条指令的地址处的（此时，VS顶多知道断点所在的OFFSET，但是无法知道断点所在的VA），但是VS可以记录到一条重要的信息，就是当前断点在哪个源文件的哪个行号上。
接下来，我们调试启动程序，exe的镜像加载到内存后，所有代码段的指令的VA便是真实可用的了。但此时调试器是如何根据断点所在源文件和行号，来找到断点所在的VA的呢？现在，你应该想到本文在讲什么，哈哈，就是pdb啦。那么pdb文件中到底存了什么，才让调试器可以根据源文件及行号来找到对应的VA呢？

默认情况下，在pdb文件中，保存了可执行文件中所有的符号（函数名、变量名等）所在源文件、行号、OFFSET等信息。但是这些信息，是在什么时间得到的呢？很明显是编译阶段，编译器在编译每个cpp的过程中，就可以把这些符号的相关信息收集起来，存放在各个cpp所生成的obj文件中，然后在链接的时候，提取每个obj中的这些信息，生成一个单独的pdb文件。这样，以后调试程序的时候，调试器只要找得到这个pdb，就可以知道可执行文件中，所有符号所在的源文件、行号和OFFSET了。反过来说，当给出一个源文件和行号，就可以拿到对应的OFFSET了，所以在还没有启动调试的时候，我们下的断点，实际上调试器是知道这个断点应该在哪个OFFSET上了，等启动调试的时候，用这个OFFSET加上这个模块所加载到的基地址值，就可以得到这个断点所在的VA了，然后在这个VA处强行写上int
3指令，并继续执行，当执行到这里，便中断下来给我们一个调试机会了。想想，如果没有pdb，这个断点还能用么？
当我们鼠标放在某个变量上时，调试器可以拿到这个变量的名称，根据我们前面说的，用这个名称去pdb中查找，自然就可以找到pdb文件中保存的OFFSET了，加上这个模块的基地址，就找到了这个变量所在内存的VA，剩下的就是读一下这个VA内存中的内容了。这样也就实现了观察变量值得功能。
下面证实一下，pdb文件中确实存储了源文件、行号、OFFSET等信息。将上面例子代码放到VC6中编译，然后到debug目录中使用dumpbin来查看CodeTest.obj文件中的符号信息，如图：

可见，add函数和main函数所在行号和起始行号和结束行号都是有记录的，那源文件是哪个呢？哈哈，当然是CodeTest.cpp了，我们查看的是CodeTest.obj文件嘛。。。
但是这里并没有add或者main函数的OFFSET啊，为什么呢？想想，此时只有一堆obj，真正的可执行模块还没有生成出来呢，何来的可执行模块的OFFSET呢。。。由此可以知道，这个OFFSET要在链接过程中，才可以确定。经过了链接之后，这些本来在obj里的调试信息，也就被收集到pdb文件中了，下面我们来找找add函数的OFFSET到底在哪里？使用SymView工具打开CodeTest.pdb文件，如下图：

可见，pdb中存储了add函数相关信息，不仅仅只有offset，而且此处并未直接记载add函数在哪个cpp里，这些关系都是通过索引来查找的，其实pdb文件的内部结构是很复杂的，要想解释清楚，其实很不容易，大家如果想知道pdb内部到底都有什么东西，可以参考一下《软件调试》第25章，但也是讲了个大概。

在我们观察的过程中，我们可以发现两个很主要的特征：

可执行模块中，保存了当前模块的调试符号文件的路径，而且是绝对路径，如下图：
Pdb文件中保存了每个cpp文件的路径，而且也是用的绝对路径。如下图：

这样，我们可以得出一个结论：

在同一台开发者的机器上，如果被调试的exe放在了其他目录里，而pdb依然在原来生成时所在的位置，那么调试exe时，依然可以找到对应的pdb文件。
如果exe和pdb都换了路径，只要调试的时候，我们手动指定了pdb所在的位置，如果源码文件还在原来的路径，那么调试时，依然可以找得到源码文件。

他山之石：InfoQ采访Spinellis---如何有效地调试软件

作者: wenmo8
时间: 2023-01-31
分类: 调试
评论

Diomidis Spinellis是《代码阅读与代码质量》一书的作者。在GOTO阿姆斯特丹2016大会上，他就如何有效地调试软件和预防错误做了演讲。InfoQ采访了Spinellis，内容涉及发现和修复软件中的错误、软件调试的原则、如何提高调试效率、如何编写出不怎么需要调试的代码以及管理人员如何为错误预防和处理提供支持。

InfoQ：是什么让软件错误的发现和修复如此困难？

Diomidis Spinellis：如果你认为编写代码困难，那就尝试下代码调试吧。你编写了一个新的函数或方法，并加上一些语句形成某个只是貌似正确的东西。当你调试一个程序的时候，你要面对数千或数百万行貌似正确的代码，并设法找出其中的错误。这必定要困难许多。然后，你还要应对各种系统和层次之间的复杂交互、每秒执行数十亿次的CPU指令、难以再现的Bug以及来自生产环境系统的压力。

而且，课堂上很少教调试；从一切可能出错的东西辛苦得来的经验很难压缩到一次演讲中。此外，由于系统失败的方式各不相同，你必须不断地改进和调整你所用的工具和方法。你可以从观察开始，继之以数据分析，然后做一些试验，最后推断出Bug的原因。没有什么标准的初学者技能。

InfoQ：软件调试有什么一般原则吗？

Spinellis：很遗憾，由于软件会出现各种难以想象的错误情况，我不认为有什么可以在软件调试过程中遵循的一般原则。退而求其次，我归纳出了三大类方法：

高级策略，比如由故障特征推断出原因，或者确保某些代码满足了其前提条件；

方法和实践，比如确保Bug可以有效地再现，或者着重突出故障的影响；

通用工具，比如Unix命令行工具、跟踪（考虑下strace、dtrace和systemtap）工具和版本控制系统。

InfoQ：程序员做什么能够提高调试效率？

Spinellis：首先要为调试成功做好准备。让自己相信问题将会得到解决，留出足够的时间用于调试，不要分心，要坚持不懈，必要的时候，留待第二天解决。重要的是，要不断地在环境、工具和知识上投入。购买高效工作所需的软件和硬件。例如，如果软件生成大量的调试日志文件，你就应该有足够的磁盘空间、CPU处理能力和带宽，以便可以高效地处理它们。在调试的过程中，你很容易遇到千奇百怪的问题，因此，花些精力管理和优化自己的环境和工具配置。这包括按键绑定、别名、辅助脚本、快捷方式和工具配置；所有这些都可以显著地提高调试生产力。

InfoQ：有什么技术或方法可以编写出不怎么需要调试的代码吗？

Spinellis：当然！编写可维护的代码——可读、稳定、易于分析和修改的代码——带来的Bug也比较少。此外，像单元测试、代码审查这样的方法以及使用断言都有助于最小化进入生产环境的错误。

在设计时使用高级抽象（例如使用一个框架的算法或容器数据结构，而不是选择自己开发一种方案）可以减少代码和错误。另外，让程序易于调试也很重要。这包括为详细地记录日志提供便利，当出现内部错误时报告丰富的上下文信息，并将问题及崩溃的详细信息发送到一个中央存储库。

InfoQ：管理人员如何为组织里的错误预防和处理提供支持？

Spinellis：设定基本的过程有助于确保软件错误不会失控。部署并采用一个问题跟踪系统，用它把要处理的问题分类并排定优先级。将软件变更恰当地记录在进一个运作良好的版本管理系统里，并将它与问题跟踪系统联系起来；我经常仅仅通过仔细研究一个文件的历史和变更就修复了Bug。在软件建设方面，推广单元测试的应用，把软件的构建性能分析、静态分析和动态分析包含进来，并维护一个快速、精益、均衡的构建-测试周期。这有助于帮助开发人员尽早捕获Bug，并迅速修复。最后，在运维方面，逐步部署软件，允许新旧版本对比，努力确保所使用的工具和所部署的环境的多样性，并有组织地升级工具和库。

转自：http://lf.lnu.edu.cn/detail.jsp?id=55243

他山之石：软件调试排错阶段的可靠性评估模型

作者: wenmo8
时间: 2023-01-31
分类: 调试
评论

在硬件可靠性理论中 , 典型的失效率又( t ) 函数是一条形似“ 浴盆” 的曲线。浴盆曲线由三段构成 : 早期故障期、偶然故障期、耗损故障期。这种曲线描述了事物生命期的整个过程 , 而且具有普遍性。对软件来说 , 在调试排错阶段 , 故障易被发现 , 也易于纠正 , 而且在纠正中引人新故障的概率较小 , 因此 , 在此阶段 , 软件失效率是递减的 ; 当软件中存在的残留错误数减少到一定数目后 , 由于故障发现率较低 , 故障机理较复杂 , 再发现的错误一般就难以得到纠正 , 甚至在纠正过程中又引人新的错误 , 从而使得软件在运行阶段失效率基本保持不变 ; 在软件生存的后期 , 由于软件应用范围的扩大 , 或用户对软件功能提出更新的要求 , 从而导致软件故障增多 , 而对其纠正越来越困难 , 很易引入新故障 , 这样使得软件失效率呈递增趋势 , 直到软件寿命期结束。因此 , 人们把浴盆曲线理论运用到软件可靠性领域来 , 结合软件固有特性 , 提出了许多评估软件可靠性的模型 , 并在实践中得到了广泛应用 , 取得了良好效果。
J一M 模型就是其中的一种 , 它对应于浴盆曲线的第一段 , 适用于软件调试排错阶段 , 这类模型统称为软件出生模型 ( Born-In模型)。

1、J一 M 模型简介

J 一M 模型是由 2 . Je lin s ki 和 P . B . M o r a n d a 于 19 7 2 年提出的一种确定性模型 , 简称 J一 M 模型 , 用来描述软件错误的检测过程。根据软件特性 , 在 B o r n 一 n I 模型中规定了四条基本假设：

假设 1 : 错误纠正时间忽略不计 ;
假设 2 : 纠正所发现的错误不会引人新的错误 ;
假设 3 : 两次失效时间间隔相互独立 ;
假设 4 : 两次失效之间的失效率是与时间 t 无关的常数。

J一M 模型除上述四条基本假设外 , 还增加两条假设：

假设 5 : 软件失效率与当前的软件残留错误数成正比 ;
假设 6 : 所有残留错误的错误尺寸视为相同。所谓错误尺寸 , 是指因某一软件错误而导致该软件失效的概率。

由上述假设可得到 J一M 模型的失效率曲线如图所示：

失效率和可靠度函数可表示为：

式中 , N 表示开始时软件存在的错误总数 ; ∮表示错误尺寸 , 由假设 6 知∮是个常数 ; λ表示第( i一 1 ) 次失效至第 i 次失效为止 , 这段时间的失效率 ; R_i ( t )表示第( i 一 l ) 次失效至第 i 次失效为止 , 这段时间的软件可靠性函数。
式中的 N 、 ∮必两参数可由极大似然法估计出来。如果以 X _i ( i=1 , 2 , … , n ) 表示被观察到的一系列失效间隔时间 , 则可求得第 n 次失效后的软件可靠性函数估计 , 以及到第 n + 1 次失效发生的平均间隔时间的估计。

2、 J一 M 模型分析

J一M 模型的准确性主要取决于假设的有效性。在软件的调试排错阶段 , B o r n 一玩模型的四个基本假设是比较合理的 , 而对于 J一M 模型所附加的两条假设 , 在软件工程实践中具有一定的缺陷。首先 , 软件的失效率不仅仅取决于当前残留错误数。例如 , 一个仅含有两个不常碰到的错误 ( 即错误尺寸非常小 , 如 0 5 死锁等 ) 的软件 5 1 , 另一个仅含有一个经常出现的错误 ( 即错误尺寸较大 , 如下标动态超界等 ) 的软件 5 2 。显而易见 S , 比 S : 可靠性高。这样 , 假设 5 就不成立。其次 , 根据定义 , 错误尺寸是某一错误导致软件失效的概率 , 即对软件失效率的贡献率。很明显 , 错误尺寸越大 , 就越容易造成软件运行失效 , 就越容易被发现 ; 反之 , 错误尺寸越小 , 就越难被发现。从另一角度说 , 越先发现的错误 , 其错误尺寸越大 ; 而越是后发现的错误 , 其错误尺寸越小。也就是说 , 不同的软件错误 , 其错误尺寸是不相等的 , 而是随着被发现的顺序呈递减序列。这样 , 假设 6 也不成立。综上所述 , J一 M 模型所附加的两条假设 , 对于某些软件工程不适用 , 不能很好地反映软件的客观状况。此外 , 适用于软件调试阶段的其它出生模型 , 如 B a y e S 模型、 Sh o o m a n 模型、非出错计数模型等 , 也都存在类似的问题 , 为此 , 应予改进。

3、新的评估模型

软件的失效率不仅与其残留错误数有关 , 而且与每个错误的错误尺寸有关。如果软件残设 : 开始时软件的残留错误数为 N , 其相应的错误尺寸为 ∮_j( j= 1, 2 , … , N ) , 则失效率与可靠性函数由下式表示 :

由于错误尺寸随着发现的先后次序呈递减序列 , 因此 : ∮_j>∮_j+1; 。如果直接用 ( 2 ) 式进行分析计算 , 比较困难。为减化计算 , 根据 ( 3 ) 式引人假设 7;

假设 7 : 第 i ( + l ) 个错误与第 i 个错误的错误尺寸之比为常数。即 : ∮_j+1=K*∮j( 0 < K < 1 )。
令笋 ∮j=∮1 ,则，∮_j=k^j-1* ∮这样 ( 2 ) 式变为 :

4、软件故障数据的收集与预处理

软件测试数据是软件可靠性评估的基础 , 在软件调试排错阶段 , 开发人员应详细记录每次软件故障间隔时间 , 保证数据的客观性和准确性。对收集的数据在用于评估前 , 应进行初步处理。对重复出现的故障 , 应将前几次故障数据剔除 , 保留最后一次真正消除软件故障的那个数据 , 即如果第 i 次出现的故障剔除不成功 , 应将 x ` 删除 , 同时将 x 、 ,数据赋予 x 、 , 即 : x 、一` + , 一 t、 , 以此类推。另外 , 如果有多个程序模块 , 则各模块的故障数据应分别记录 , 不要混淆 , 同一程序模块的不同版本的软件故障数据也不要混淆。收集到一定数量的数据后 , 就可以进行数据分析 , 代入评估模型进行评估。
5 结束语
过去由于缺少切合软件开发实际的软件可靠性评估模型 , 在系统工程产品的可靠性分析和评估中 , 只对硬件进行 , 而将软件可靠度视为 1 , 即不考虑软件可靠性问题。事实上随着硬件可靠性的不断提高 , 软件可靠性显得日益突出。而且一个软件模块 , 开发人员调试到什么程度就可结束调试排错 , 也就是如何确定软件调试周期也是个棘手的问题。本文正是基于这种情况 , 结合系统工程实际 , 对软件调试排错阶段的可靠性评估模型进行探索 , 使得软件开发人员在软件调试阶段收集 n 个数据后 , 经过预处理 , 运用本文提供的评估模型计算得到该软件残留错误总数及下一个软件故障出现的平均时间。排除第 n 个软件错误后 , 也可以估计出该软件的平均无故障时间及排除剩余软件错误还需工作的时间。这对于开展软件可靠性增长试验 , 合理确定调试周期 , 调整软件开发计划等有较大作用。