2024年7月

前言

电源供电电路设计很重要,为了更好的给对硬件设计有需求的人,特意将电源设计的基础过程描述出来。
本篇描述设计常用的12V转5V电路3A。


TPS54331(DC-DC稳压器)


概述

TPS54331器件是一款28V、3A非同步降压转换器,集成有一个低 RDS(on) 的高侧MOSFET。为了提高轻负载条件下的效率,将自动激活脉冲跳跃Eco-mode特性。此外,1μA 的关断电源电流使得此器件可用于电池供电类应用。具有内部斜坡补偿的电流模式控制简化了外部补偿计算,并在允许使用陶瓷输出电容器的同时减少了元件数量。一个电阻分压器对输入欠压锁定的迟滞进行编程。过压瞬态保护电路可限制启动期间和瞬态条件下的电压过冲。逐周期电流限制方案、频率折返和热关断特性可在过载条件下对器件和负载施加保护。
TPS54331 器件可采用 8 引脚 SOIC 封装和 8 引脚 SOPowerPAD 集成电路封装,这些封装经过内部优化可改进热性能。


特性

  • 3.5V 至 28V 输入电压范围
  • 可调节输出电压低至 0.8V
  • 集成式 80mΩ 高侧 MOSFET 支持高达 3A 的持续输出电流
  • 使用脉冲跳跃 Eco-mode 在轻负载条件下实现高效率
  • 570kHz 固定开关频率
  • 1μA 关断静态电流(典型值)
  • 可调节慢启动限制浪涌电流
  • 可编程 UVLO 阈值
  • 过压瞬态保护
  • 逐周期电流限制、频率折返和热关断保护
  • 采用易于使用的 SOIC8 封装或热增强型 SOIC8PowerPAD™ 集成电路封装
  • 使用 TPS54331 并借助 WEBENCH® PowerDesigner 创建定制设计方案
  • 使用 TPS62933 实现具有更高频率、更低 IQ 和改
    进 EMI 的 30V 输入电压转换器


应用

  • 消费类应用,诸如机顶盒、 CPE 设备、 LCD 显示屏、外设和电池充电器
  • 工业用和车载音频电源
  • 5V、 12V 和 24V 分布式电源系统


简化版原理图以及典型设计

在这里插入图片描述

在这里插入图片描述

其中电容的材质并没有那么重要,大电容是储能,小电容是滤波作用。
由此可以看出。
对于同系列不同型号的电流输出,查看Io(最大值)如下:
在这里插入图片描述

TPS54331封装:D封装和DDA封装,DDA多了个pin9,来实现
在这里插入图片描述

描述不一样看,实际查看DR就是D封装的:
在这里插入图片描述


12V转5V电路

芯片厂提供了设计模拟软件,但是不想麻烦了。


步骤一:参考简化设计图

有简化设计图就参考简化设计图:
在这里插入图片描述

在这里插入图片描述

看下底板的图:
在这里插入图片描述

分析后:
在这里插入图片描述


步骤二:与应用典型电路对比

以上是相对简单电路,对不上,话有个典型电路,下面是datasheet的应用典型电路:
在这里插入图片描述

目测两个都可以,那么用典型电路:
在这里插入图片描述

就用这个电路,调整电阻、电感和和电容来控制输出电压大小。


步骤三:调整输出电压

TPS54331 器件的输出电压可从外部通过电阻分压器网络进行调节。
在这里插入图片描述

5V = 0.8V x ( R5/R6 + 1)
R5/R6 + 1 = 5/0.8
R5/R6 = 6.25 - 1
R5/R6 = 5.25

由于阻值选择高精度1%的电阻,然后最好是标准的,可查看《
硬件实用技巧:电阻精度和常用阻值表
》,选择阻值R6为20KΩ,R5为105KΩ。
在这里插入图片描述

电容,不调整。


步骤四:调整电感

在这里插入图片描述

Lmin = (5V x (12V – 5V) / (12V x 0.3 x 3A x 570kHz)
Lmin = (5V x 7V) / (3.6V x 3A x 570kHz)
Lmin = 35 / (10.8 x 570000)
Lmin = 35 / 6156000
Lmin = 0.00000568551(H)
Lmin = 5.68551(uH)

选个大一点的6.8uH即可。
下面使用0.2计算一次:

Lmin = (5V x (12V – 5V) / (12V x 0.2 x 3A x 570kHz)
Lmin = (5V x 7V) / (2.4V x 3A x 570kHz)
Lmin = 35 / (7.2 x 570000)
Lmin = 35 / 3384000
Lmin = 0.00001034278(H)
Lmin = 10.34278(uH)

选用0.2得到的就是10.3uH,选大一点的就是12uH。(注意,我们跟其他原理图一样使用6.8uH)。


步骤五:控制电源芯片使能

加一个自锁控制开关控制EN使能
在这里插入图片描述


1 KL 散度

对于离散概率分布
\(P\)

\(Q\)
,KL 散度定义为:

\[\text{KL}(P \| Q) = -E_{x\sim P}\log P(x)-\log Q(x)
\\
=\sum_{\mathbf{x}} P(\mathbf{x}) \log \frac{P(\mathbf{x})}{Q(\mathbf{x})}
\]

对于连续概率分布,定义为:

\[\text{KL}(P \| Q) = \int p(\mathbf{x}) \log \frac{p(\mathbf{x})}{q(\mathbf{x})} d\mathbf{x}
\]

其中,
\(p(\mathbf{x})\)

\(P\)
的概率密度函数,
\(q(\mathbf{x})\)

\(Q\)
的概率密度函数。

KL 散度的性质:

  1. 非负性
    :KL 散度总是非负的,
    \(\text{KL}(P \| Q) \geq 0\)
  2. 不对称性
    :KL 散度不是对称的,即
    \(\text{KL}(P \| Q) \neq \text{KL}(Q \| P)\)
  3. 零点
    :当
    \(P\)

    \(Q\)
    完全相同时,
    \(\text{KL}(P \| Q) = 0\)
  4. 不满足三角不等式
    :KL 散度不满足传统意义上的三角不等式。

2 交叉熵

交叉熵(cross-entropy)和 KL 散度联系密切,也可以用来衡量两个分布的差异。

对于离散概率分布
\(P\)

\(Q\)
,交叉熵定义为:

\[H(P,Q)=-E_{x\sim P}\log Q(x)=-\sum P(x_i)\log Q(x_i)
\]

对于连续概率分布,定义为:

\[H(P,Q) = -\int p(\mathbf{x}) \log q(\mathbf{x}) d\mathbf{x}
\]

可以看出,
\(H(P,Q)=H(P)+D_\text{KL}(P \| Q)\)
,其中
\(H(P)\)
是 P 的熵。

性质:

  1. 非负性;
  2. 和 KL 散度相同,交叉熵也不具备对称性,即
    \(H(P,Q)\neq H(Q,P)\)
    ;
  3. 对同一个分布求交叉熵,等于对其求熵。



引言

蛋白质语言模型 (Protein Language Models, PLM) 已成为蛋白质结构与功能预测及设计的有力工具。在 2023 年国际机器学习会议 (ICML) 上,MILA 和英特尔实验室联合发布了
ProtST
模型,该模型是个可基于文本提示设计蛋白质的多模态模型。此后,ProtST 在研究界广受好评,不到一年的时间就积累了 40 多次引用,彰显了该工作的影响力。

PLM 最常见的任务之一是预测氨基酸序列的亚细胞位置。此时,用户输入一个氨基酸序列给模型,模型会输出一个标签,以指示该序列所处的亚细胞位置。论文表明,ProtST-ESM-1b 的零样本亚细胞定位性能优于最先进的少样本分类器 (如下图)。

为了使 ProtST 更民主化,英特尔和 MILA 对模型进行了重写,以使大家可以通过 Hugging Face Hub 来使用模型。大家可于
此处
下载模型及数据集。

本文将展示如何使用英特尔 Gaudi 2 加速卡及
optimum-habana
开源库高效运行 ProtST 推理和微调。
英特尔 Gaudi 2
是英特尔设计的第二代 AI 加速卡。感兴趣的读者可参阅我们
之前的博文
,以深入了解该加速卡以及如何通过
英特尔开发者云
使用它。得益于
optimum-habana
,仅需少量的代码更改,用户即可将基于 transformers 的代码移植至 Gaudi 2。

对 ProtST 进行推理

常见的亚细胞位置包括细胞核、细胞膜、细胞质、线粒体等,你可从
此数据集
中获取全面详细的位置介绍。

我们使用
ProtST-SubcellularLocalization
数据集的测试子集来比较 ProtST 在英伟达
A100 80GB PCIe

Gaudi 2
两种加速卡上的推理性能。该测试集包含 2772 个氨基酸序列,序列长度范围为 79 至 1999。

你可以使用
此脚本
重现我们的实验,我们以
bfloat16
精度和 batch size 1 运行模型。在英伟达 A100 和英特尔 Gaudi 2 上,我们获得了相同的准确率 (0.44),但 Gaudi 2 的推理速度比 A100 快 1.76 倍。单张 A100 和单张 Gaudi 2 的运行时间如下图所示。

微调 ProtST

针对下游任务对 ProtST 模型进行微调是提高模型准确性的简单且公认的方法。在本实验中,我们专门研究了针对二元定位任务的微调,其是亚细胞定位的简单版,任务用二元标签指示蛋白质是膜结合的还是可溶的。

你可使用
此脚本
重现我们的实验。其中,我们在
ProtST-BinaryLocalization
数据集上以
bfloat16
精度微调
ProtST-ESM1b-for-sequential-classification
。下表展示了不同硬件配置下测试子集的模型准确率,可以发现它们均与论文中发布的准确率 (~92.5%) 相当。

下图显示了微调所用的时间。可以看到,单张 Gaudi 2 比单张 A100 快 2.92 倍。该图还表明,在 4 张或 8 张 Gaudi 2 加速卡上使用分布式训练可以实现近线性扩展。

总结

本文,我们展示了如何基于
optimum-habana
轻松在 Gaudi 2 上部署 ProtST 推理和微调。此外,我们的结果还表明,与 A100 相比,Gaudi 2 在这些任务上的性能颇具竞争力: 推理速度提高了 1.76 倍,微调速度提高了 2.92 倍。

如你你想在英特尔 Gaudi 2 加速卡上开始一段模型之旅,以下资源可助你一臂之力:

感谢垂阅!我们期待看到英特尔 Gaudi 2 加速的 ProtST 能助你创新。


英文原文:
https://hf.co/blog/intel-protein-language-model-protst

原文作者: Julien Simon,Jiqing Feng,Santiago Miret,Xinyu Yuan,Yi Wang,Matrix Yao,Minghao Xu,Ke Ding

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

全网最适合入门的面向对象编程教程:24 类和对象的 Python 实现-异常的捕获与处理:try/except 语句、文件读写示例、Exception 引用

image

摘要:

本文主要介绍了在使用 Python 面向对象编程时,如何使用 try/except 语句捕获并处理异常,并辅以 CSV 文件读写为例进行讲解,同时说明了如何对 Exception 对象进行引用。

原文链接:

FreakStudio的博客

往期推荐:

学嵌入式的你,还不会面向对象??!

全网最适合入门的面向对象编程教程:00 面向对象设计方法导论

全网最适合入门的面向对象编程教程:01 面向对象编程的基本概念

全网最适合入门的面向对象编程教程:02 类和对象的 Python 实现-使用 Python 创建类

全网最适合入门的面向对象编程教程:03 类和对象的 Python 实现-为自定义类添加属性

全网最适合入门的面向对象编程教程:04 类和对象的Python实现-为自定义类添加方法

全网最适合入门的面向对象编程教程:05 类和对象的Python实现-PyCharm代码标签

全网最适合入门的面向对象编程教程:06 类和对象的Python实现-自定义类的数据封装

全网最适合入门的面向对象编程教程:07 类和对象的Python实现-类型注解

全网最适合入门的面向对象编程教程:08 类和对象的Python实现-@property装饰器

全网最适合入门的面向对象编程教程:09 类和对象的Python实现-类之间的关系

全网最适合入门的面向对象编程教程:10 类和对象的Python实现-类的继承和里氏替换原则

全网最适合入门的面向对象编程教程:11 类和对象的Python实现-子类调用父类方法

全网最适合入门的面向对象编程教程:12 类和对象的Python实现-Python使用logging模块输出程序运行日志

全网最适合入门的面向对象编程教程:13 类和对象的Python实现-可视化阅读代码神器Sourcetrail的安装使用

全网最适合入门的面向对象编程教程:全网最适合入门的面向对象编程教程:14 类和对象的Python实现-类的静态方法和类方法

全网最适合入门的面向对象编程教程:15 类和对象的 Python 实现-__slots__魔法方法

全网最适合入门的面向对象编程教程:16 类和对象的Python实现-多态、方法重写与开闭原则

全网最适合入门的面向对象编程教程:17 类和对象的Python实现-鸭子类型与“file-like object“

全网最适合入门的面向对象编程教程:18 类和对象的Python实现-多重继承与PyQtGraph串口数据绘制曲线图

全网最适合入门的面向对象编程教程:19 类和对象的 Python 实现-使用 PyCharm 自动生成文件注释和函数注释

全网最适合入门的面向对象编程教程:20 类和对象的Python实现-组合关系的实现与CSV文件保存

全网最适合入门的面向对象编程教程:21 类和对象的Python实现-多文件的组织:模块module和包package

全网最适合入门的面向对象编程教程:22 类和对象的Python实现-异常和语法错误

全网最适合入门的面向对象编程教程:23 类和对象的Python实现-抛出异常

更多精彩内容可看:

给你的 Python 加加速:一文速通 Python 并行计算

一文搞懂 CM3 单片机调试原理

肝了半个月,嵌入式技术栈大汇总出炉

电子计算机类比赛的“武林秘籍”

一个MicroPython的开源项目集锦:awesome-micropython,包含各个方面的Micropython工具库

文档和代码获取:

可访问如下链接进行对文档下载:

https://github.com/leezisheng/Doc

image

本文档主要介绍如何使用 Python 进行面向对象编程,需要读者对 Python 语法和单片机开发具有基本了解。相比其他讲解 Python 面向对象编程的博客或书籍而言,本文档更加详细、侧重于嵌入式上位机应用,以上位机和下位机的常见串口数据收发、数据处理、动态图绘制等为应用实例,同时使用 Sourcetrail 代码软件对代码进行可视化阅读便于读者理解。

相关示例代码获取链接如下:
https://github.com/leezisheng/Python-OOP-Demo

正文

当 Python 脚本发生异常时我们需要捕获处理它,否则程序会终止执行。捕捉异常可以使用 try/except 语句。try/except 语句用来检测 try 语句块中的错误,从而让 except 语句捕获异常信息并处理。

如果你不想在异常发生时结束你的程序,只需在 try 里捕获它。以下为简单的 try....except...else 的语法:

try:
<语句>       
except <名字>:
<语句>

try 语句的工作原理如下:

  • (1)首先,执行 try 子句(try 和 except 关键字之间的(多行)语句)。

  • (2)如果没有触发异常,则跳过 except 子句,try 语句执行完毕。

  • (3)如果在执行 try 子句时发生了异常,则跳过该子句中剩下的部分。如果异常的类型与 except 关键字后指定的异常相匹配,则会执行 except 子句,然后跳到 try/except 代码块之后继续执行。

  • (4)如果发生的异常与 except 子句中指定的异常不匹配,则它会被传递到外层的 try 语句中;如果没有找到处理句柄,则它是一个未处理异常且执行将停止并输出一条错误消息。

示例代码如下:

class SensorClass(SerialClass):  
    ...
    _# 类的初始化_
    def __init__(self,port:str = "COM11",id:int = 0,state:int = RESPOND_MODE):
        try:
            if id <= 0 or id >= 99:
                _# 触发异常后,后面的代码就不会再执行_
                raise Exception("InvalidIDError:", id)
            _# 调用父类的初始化方法,super() 函数将父类和子类连接_
            super().__init__(port)
            self.sensorvalue = 0
            self.sensorid    = id
            self.sensorstate = state
            print("Sensor Init")
            logging.info("Sensor Init")
        except:
            _# 当发生异常时,输出如下语句,提醒用户重新输入ID号_
            print("Input error ID, Please try id : 0~99") 
         ...
if __name__ == "__main__":
    _# 创建传感器类,ID号为100_
    s = SensorClass(port  = "COM11",id = 100,state = SensorClass.RESPOND_MODE)

如下为运行结果:

image

以上方式 try-except 语句捕获所有发生的异常。但这不是一个很好的方式,我们不能通过该程序识别出具体的异常信息。因为它捕获所有的异常。

你也可以使用相同的 except 语句来处理多个异常信息,如下所示:

try:
    正常的操作
   ......................
except(Exception1[, Exception2[,...ExceptionN]]):
   发生以上多个异常中的一个,执行这块代码
   ......................
else:
    如果没有异常执行这块代码

try 语句可以有多个 except 子句来为不同的异常指定处理程序。
但最多只有一个处理程序会被执行。处理程序只处理对应的 try 子句中发生的异常,而不处理同一 try 语句内其他处理程序中的异常。
except 子句可以用带圆括号的元组来指定多个异常,例如:

... except (RuntimeError, TypeError, NameError):
...     pass

示例代码如下所示,我们在 SensorClass 传感器类的初始化方法中,加入对输入 port 端口号数据类型的检查,如果不是 str 类型,则抛出 TypeError 异常:

def __init__(self,port:str = "COM11",id:int = 0,state:int = RESPOND_MODE):
        try:
            _# 判断输入端口号是否为str类型_
            if type(port) is not str:
                raise TypeError("InvalidPortError:",port)
            _# 判断ID号是否在0~99之间_
            if id <= 0 or id >= 99:
                _# 触发异常后,后面的代码就不会再执行_
                _# 当传递给函数或方法的参数类型不正确或者参数的值不合法时,会引发此异常。_
                raise ValueError("InvalidIDError:",id)

            _# 调用父类的初始化方法,super() 函数将父类和子类连接_
            super().__init__(port)
            self.sensorvalue = 0
            self.sensorid    = id
            self.sensorstate = state
            print("Sensor Init")
            logging.info("Sensor Init")
        except TypeError:
            _# 当发生异常时,输出如下语句,提醒用户重新输入端口号_
            print("Input error com, Please try new com number")
        except ValueError:
            _# 当发生异常时,输出如下语句,提醒用户重新输入ID号_
            print("Input error ID, Please try id : 0~99")

如下为运行结果,可以看到仅捕获和处理了输入错误 port 类型的异常,而没有捕获和处理输入错误范围的 ID 号的异常:

image

除了使用 except 块来处理异常,我们还可以使用 finally 块来执行一些必要的清理操作。无论是否出现异常,finally 块中的代码都会被执行。如果我们需要在代码执行完成之后执行特定的任务(即便是遇到了异常),这将非常有用。一些常见的例子包括:清除打开的数据库连接;关闭打开的文件;向网络发送一次关闭握手。
finally 语句对于我们在 try 中执行 return 语句也非常重要。finally 中的代码仍然会在返回值之前执行。

例如在 FileIOClass 类中,需要读写 csc 文件,基本流程就是打开了一个 csc 文件,然后读取,写入,最后关闭文件对象。这是一套常规流程,如果我想捕捉代码过程中的异常,又要保证无论是否有异常,最后都必须要关闭文件。这时候就用到 finally,示例代码如下:

class FileIOClass:
    def __init__(self,path:str="G:\\Python面向对象编程\\Demo\\file.csv"):
        '''
        初始化csv文件和列标题
        :param path: 文件路径和文件名
        '''
        self.path   = path
        try:
            _# path为输出路径和文件名,newline=''是为了不出现空行_
            self.csvFile = open(path, "w+", newline='')
            _# rowname为列名,index-索引,data-数据_
            self.rowname = ['index', 'data']
            _# 返回一个writer对象,将用户的数据在给定的文件型对象上转换为带分隔符的字符串_
            self.writer = csv.writer(self.csvFile)
            _# 写入csv文件的列标题_
            self.writer.writerow(self.rowname)
        except (FileNotFoundError, IOError):
            print("Could not open file")
            logging.info("Could not open file")
        except KeyboardInterrupt:
            print("Cancell the file operation")
            logging.info("Cancell the file operation")
        finally:
                self.CloseFile()

我们将文件路径改到一个根本不存在的路径下,初始化 FileIOClass 实例对象,

代码如下:

f = FileIOClass(path = "H:\\Python面向对象编程\\Demo\\file.csv")

可以看到运行结果中,在发生 IOError 时,运行了 except 中的语句:

image

在第 16 行中:

16        except (FileNotFoundError, IOError):

表示只要发生 FileNotFoundError 或 IOError 中任意一个就会执行这块代码。

实际上,我们可以用同样的代码一次处理两个或更多不同的异常。具体格式如下:

except(Exception1[, Exception2[,...ExceptionN]]):
   _# 发生以上多个异常中的一个,执行这块代码_

当多种异常同时发生时,我们可以使用如下方式打印出相应异常的类名:

except (FileNotFoundError, IOError) as e:
            print("Could not open file",e.__class__.__name__)
            logging.info("Could not open file")

我们再次运行代码:

image

有时,当我们捕获一个异常时,需要用到对 Exception 对象的引用。这通常发生在我们自己定义的有特定参数的异常,此时我们可以使用 as 语句带上参数,作为输出的异常信息参数。示例代码如下:

except (FileNotFoundError, IOError) as e:
            print("Could not open file",e.__class__.__name__)
            print("The exception arguments were", e.args)
            logging.info("Could not open file")

运行结果如下,可以看到,在示例中输出参数为错误代码(为 2),表示没有这个文件或者目录。

image

实际上变量接收的异常值通常包含在异常的语句中。在元组的表单中变量可以接收一个或者多个值。元组通常包含错误字符串,错误数字,错误位置。

image

0 前言

感谢 DataWhale 的开源学习课程 intro-mathmodel,项目仓库
在这

现在开始,跟着Task01 进入数据类的学习,实现每一个代码,包括数据预处理、回归分析与分类分析、假设检验、随机过程与随机模拟、数据可视化图表、三种插值模型。

本篇是知识的梳理和总结,用以更好地食用教材,亦或作为后期复盘的资料。
学习重点在于各种常见的统计分析模型的区别总结。

1 数据与大数据

Drew Conway在2010年阐释“
数据科学
”的时候称:
“数据科学是
统计学

计算机科学

领域知识
的交叉学科”

2 数据的预处理

2.1 为什么需要数据预处理

在这里插入图片描述

在采集完数据后,
我们得到的原始数据往往非常混乱、不全面,模型往往无法从中有效识别并提取信息,
于是建模的首要步骤以及主要步骤便是数据预处理。

现在,我们先学习一个概念——稀疏。
对数据有一定的理解后再正式进行数据预处理操作。

2.2 使用 pandas 处理数据

在这里插入图片描述

数据预处理

重复数据
:直接将其删除即可

缺失数据
:主要是观察缺失率

  • 缺失的数据项占比 较少(大概5%以内):这个时候如果问题允许可以把行删掉
  • 缺失率稍微高一点(5%-20%)左右:就可以使用填充、插值的方法去处理
  • 缺失率还高一些(20%-40%):就需要用预测方法例如机器学习去填充缺失数据了
  • 如果一列数据有50%以上都是缺失的:可以把这一列都删掉(需要条件允许的情况下)
基础demo

pandas dataframe的基础语法

# (1)Python创建一个数据框DataFrame:
import pandas as pd
import numpy as np
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}
​
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
​
df = pd.DataFrame(data)
df


#(2)显示该 DataFrame 及其数据相关的基本信息:
df.describe()


(3)返回DataFrame df 的前5列数据:
df.head(5)


#(4)从 DataFrame df 选择标签列为 animal 和 age 的列
df[['animal', 'age']]


#(5)在 [3, 4, 8] 行中,列为 ['animal', 'age'] 的数据
df.loc[[3, 4, 8], ['animal', 'age']]


#(6)选择列为visits中等于3的行 (: 在这里表示选取所有列。)
df.loc[df['visits']==3, :]


#(7)选择 age 为缺失值的行
df.loc[df['age'].isna(), :]


#(8)选择 animal 是cat且age 小于 3 的行
df.loc[(df['animal'] == 'cat') & (df['age'] < 3), :]


#(9)选择 age 在 2 到 4 之间的数据(包含边界值)
df.loc[(df['age']>=2)&(df['age']<=4), :]      # 不能写联不等式,得拆开写


#(10)将 'f' 行的 age 改为 1.5
df.index = labels             # 若要对DataFrame行索引操作,需要自行创建行索引。(DataFrame默认是没有激活行索引功能)
df.loc[['f'], ['age']] = 1.5
print(df)


#(11)对 visits 列的数据求和
df['visits'].sum()


#(12)计算每种 animal age 的平均值
df.groupby(['animal'])['age'].mean()


进阶demo

pandas处理数学建模中常见的任务
(数据去重、填补缺失值等等)

#(1)创建pandas dataframe
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm',
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )',
                               '12. Air France', '"Swiss Air"']})
df


#(2)FlightNumber列中有某些缺失值,缺失值常用nan表示,请在该列中添加10055与10075填充该缺失值。
df['FlightNumber'] = df['FlightNumber'].interpolate().astype(int)
df


#(3)由于列From_To 代表从地点A到地点B,因此可以将这列拆分成两列,并赋予为列From与To。
temp = df['From_To'].str.split("_", expand=True)      # expand=True 参数被设置时,意味着可以将这列拆分成两列
temp.columns = ['From', 'To']


#(4)将列From和To转化成只有首字母大写的形式。
temp['From'] = temp['From'].str.capitalize()
temp['To'] = temp['To'].str.capitalize()


#(5)将列From_To从df中去除,并把列From和To添加到df中
df.drop('From_To', axis=1, inplace=True)
df[['From', 'To']] = temp
df
​

#(6)清除列中的特殊字符,只留下航空公司的名字。
# str.extract 是一个用于从字符串中抽取匹配正则表达式的部分的方法。
# 这里的正则表达式 r'([a-zA-Z\s]+)' 匹配一个或多个字母 (a-z, A-Z) 或空白字符(\s)。+表示字母和空格的模式可以重复一次或多次。
# expand=False 参数被设置时,意味着返回的将是 Series,
# expand=True 参数为默认值,意味着返回的将是 DataFrame。

df['Airline'] = df['Airline'].str.extract(r'([a-zA-Z\s]+)', expand=False).str.strip()
df
​

#(7)在 RecentDelays 列中,值已作为列表输入到 DataFrame 中。
# 我们希望每个第一个值在它自己的列中,
# 每个第二个值在它自己的列中,
# 依此类推。如果没有第 N 个值,则该值应为 NaN。
# 将 Series 列表展开成名为 delays 的 DataFrame,
# 重命名列delay_1,delay_2等等,
# 并将不需要的 RecentDelays 列替换df为delays。

delays = df['RecentDelays'].apply(pd.Series)
delays.columns = ['delay_%s' % i for i in range(1, len(delays.columns)+1)]
df = df.drop('RecentDelays', axis=1).join(delays, how='left')                   # 左连接:确保其结果会包含左侧DataFrame(即df)的所有行
df


#(8)将delay_i列的控制nan都填为自身的平均值。
for i in range(1, 4):
    df[f'delay_{i}'] = df[f'delay_{i}'].fillna(np.mean(df[f'delay_{i}']))      # f 是为了创建 格式化字符串字面量
df


#(9)在df中增加一行,值与FlightNumber=10085的行保持一致。
df = df._append(df.loc[df['FlightNumber'] == 10085, :], ignore_index=True)
df


#(10)对df进行去重,由于df添加了一行的值与FlightNumber=10085的行一样的行,因此去重时需要去掉。
df = df.drop_duplicates()
df


2.3 数据的规约

2.3  数据的规约

规约是为了形成对数据的更高效表示,学习到更好的模型。
它会保留数据的原始特征,但对极端值、异常值等会比较敏感。

3 常见的统计分析模型

3.1 回归分析与分类分析

回归分析与分类分析都是一种基于统计模型的统计分析方法。
它们都研究因变量(被解释变量)与自变量(解释变量)之间存在的潜在关系,
并通过统计模型的形式将这些潜在关系进行显式的表达。

在这里插入图片描述

回归分析

回归分析
:其中因变量是连续变量,如工资、销售额;

使用 statsmodels.api 的 OLS 拟合、输出
—— pvalue 数值来检验

  • pvalue < 0.05,说明 x 能显著影响 y
  • pvalue > 0.05,不能说明 x 能显著影响 y
分类分析

分类分析
:其中因变量是属性变量,如判断邮件“是or否”为垃圾邮件;

使用 statsmodels.api 的 formula.logit 拟合、输出
—— pvalue 数值来检验

  • pvalue < 0.05,说明 x 能显著影响 y
  • pvalue > 0.05,不能说明 x 能显著影响 y

3.2 假设检验

假设检验

对编程输出的 pVals 检验数值的解释:
pvalue < 0.05,拒绝原假设,
pvalue > 0.05,没有足够的证据拒绝原假设,

正态性检验

QQ图(可视化判断-正态分布概率图)

  • 使用 scipy.stats 的 norm.rvs 随机生成服从正态分布的数据,
    画 QQ 图,若数据接近红色直线,则初步判断数据服从正态分布。
  • 使用 scipy.stats 的 chi2.rvs 随机生成服从卡方分布的数据,
    画 QQ 图,若数据偏离红色直线,则初步判断数据不服从正态分布。

Shapiro-Wilk检验
尤其适用于小样本数据

  • 使用 scipy.stats 的 shapiro 输出—— pVals 数值来检验

D'Agostino's K-squared检验(Omnibus检验)

  • 使用 scipy.stats 的 normaltest 输出—— pVals 数值来检验
单组样本的均值假定的检验

正态性数据检验-
单样本t检验

  • 使用 scipy.stats 的 ttest_1samp 输出—— pVals 数值来检验

非正态性数据检验-
wilcoxon检验

  • 使用 scipy.stats 的 wilcoxon 输出—— pVals 数值来检验
两组样本的均值相等性检验

双独立样本的均值检验-正态性数据检验-
双样本t检验

  • 先使用 scipy.stats 的 levene 输出—— pVals 数值来检验
  • 再使用 scipy.stats 的 ttest_ind 输出—— pVals 数值来检验

双独立样本的均值检验-非正态性数据检验-
Mannwhitneyu秩和检验
是一种非参数检验

  • 使用 scipy.stats 的 mannwhitneyu 输出—— pVals 数值来检验

这里的独立指的是抽样意义上的独立,
(即我们只需要保证这两个样本在选取的时候是“现实上”的互不影响就可以了)
而不是统计意义的独立,
(至于两者在数值上是否独立,通过独立性检验判断的独立性,我们并不关心)
教材说法:两个样本中,一个样本中的受试不能影响另一个样本中的受试。

不独立样本的均值检验(成对检验)-正态性数据检验-
成对t检验

  • 使用 scipy.stats 的 ttest_1samp 输出—— pVals 数值来检验

不独立样本的均值检验(成对检验)-非正态性数据检验-
成对wilcoxon秩和检验

  • 使用 scipy.stats 的 wilcoxon 输出—— pVals 数值来检验

不独立样本:这种情况多出现两个样本分别为同一个受试个体不同时间的受试结果

多组样本的均值相等性检验

正态性数据检验-
单因素方差分析(One-way ANOVA)

  • 先使用 scipy.stats 的 levene 输出—— pVals 数值来检验
  • 再使用 scipy.stats 的 f_oneway 输出—— pVals 数值来检验

非正态性数据检验-
Kruskal-Wallis H 检验
是一种非参数检验

  • 先使用 scipy.stats 的 levene 输出—— pVals 数值来检验
  • 再使用 scipy.stats 的 mstats.kruskalwallis 输出—— pVals 数值来检验

3.3 随机过程与随机模拟

案例1

为了改善道路的路面情况(道路经常维修,坑坑洼洼),
因此想统计一天中有多少车辆经过,因为每天的车辆数都是随机的

# 模拟仿真研究该道路口一天平均有多少车经过
import numpy as np
import simpy

class Road_Crossing:
    def __init__(self, env):
        self.road_crossing_container = simpy.Container(env, capacity = 1e8, init = 0)
    
def come_across(env, road_crossing, lmd):
    while True:
        body_time = np.random.exponential(1.0/(lmd/60))  # 经过指数分布的时间后,泊松过程记录数+1
        yield env.timeout(body_time)  # 经过body_time个时间
        yield road_crossing.road_crossing_container.put(1)

hours = 24  # 一天24h
minutes = 60  # 一个小时60min
days = 3   # 模拟3天
lmd_ls = [30, 20, 10, 6, 8, 20, 40, 100, 250, 200, 100, 65, 100, 120, 100, 120, 200, 220, 240, 180, 150, 100, 50, 40]   # 每隔小时平均通过车辆数
car_sum = []  # 存储每一天的通过路口的车辆数之和
print('仿真开始:')
for day in range(days):
    day_car_sum = 0   # 记录每天的通过车辆数之和
    for hour, lmd in enumerate(lmd_ls):
        env = simpy.Environment()
        road_crossing = Road_Crossing(env)
        come_across_process = env.process(come_across(env, road_crossing, lmd))
        env.run(until = 60)  # 每次仿真60min
        if hour % 4 == 0:
            print("第"+str(day+1)+"天,第"+str(hour+1)+"时的车辆数:", road_crossing.road_crossing_container.level)
        day_car_sum += road_crossing.road_crossing_container.level
    car_sum.append(day_car_sum)
print("每天通过交通路口的的车辆数之和为:", car_sum)

案例2

现在,我们来仿真“每天的商店营业额”这个复合泊松过程吧。
首先,我们假设
每个小时进入商店的平均人数为:[10, 5, 3, 6, 8, 10, 20, 40, 100, 80, 40, 50, 100, 120, 30, 30, 60, 80, 100, 150, 70, 20, 20, 10],
每位顾客的平均花费为:10元(大约一份早餐吧),
请问每天商店的营业额是多少?

# 模拟仿真研究该商店一天的营业额
import numpy as np
import simpy

class Store_Money:
    def __init__(self, env):
        self.store_money_container = simpy.Container(env, capacity = 1e8, init = 0)
    
def buy(env, store_money, lmd, avg_money):
    while True:
        body_time = np.random.exponential(1.0/(lmd/60))  # 经过指数分布的时间后,泊松过程记录数+1
        yield env.timeout(body_time) 
        money = np.random.poisson(lam=avg_money)
        yield store_money.store_money_container.put(money)

hours = 24  # 一天24h
minutes = 60  # 一个小时60min
days = 3   # 模拟3天
avg_money = 10
lmd_ls = [10, 5, 3, 6, 8, 10, 20, 40, 100, 80, 40, 50, 100, 120, 30, 30, 60, 80, 100, 150, 70, 20, 20, 10]   # 每个小时平均进入商店的人数
money_sum = []  # 存储每一天的商店营业额总和
print('仿真开始:')
for day in range(days):
    day_money_sum = 0   # 记录每天的营业额之和
    for hour, lmd in enumerate(lmd_ls):
        env = simpy.Environment()
        store_money = Store_Money(env)
        store_money_process = env.process(buy(env, store_money, lmd, avg_money))
        env.run(until = 60)  # 每次仿真60min
        if hour % 4 == 0:
            print("第"+str(day+1)+"天,第"+str(hour+1)+"时的营业额:", store_money.store_money_container.level)
        day_money_sum += store_money.store_money_container.level
    money_sum.append(day_money_sum)
print("每天商店的的营业额之和为:", money_sum)

案例3

艾滋病发展过程分为四个阶段(状态),
急性感染期(状态 1)、无症状期(状态 2), 艾滋病前期(状态 3), 典型艾滋病期(状态 4)。
艾滋病发展过程基本上是一个不可逆的过程,即:状态1 -> 状态2 -> 状态3 -> 状态4。现在收集某地600例艾滋病防控数据,得到以下表格
在这里插入图片描述

现在,我们希望计算若一个人此时是无症状期(状态2)在10次转移之后,这个人的各状态的概率是多少?

import numpy as np

# 研究无症状期病人在10期转移后的状态分布
def get_years_dist(p0, P, N):
    P1 = P
    for i in range(N):
        P1 = np.matmul(P1, P)
    return np.matmul(p0, P1)

p0 = np.array([0, 1, 0, 0])
P = np.array([
    [10.0/80, 62.0/80, 5.0/80, 3.0/80],
    [0, 140.0/290, 93.0/290, 57.0/290],
    [0, 0, 180.0/220, 40.0/220],
    [0, 0, 0, 1]
])
N = 10
print(str(N)+"期转移后,状态分布为:", np.round(get_years_dist(p0, P, N), 4))

4 数据可视化

4.1 Python 三大数据可视化工具库的简介

4.1  Python三大数据可视化工具库的简介

Matplotlib
的绘图逻辑是:一句话一个特征。

Seaborn
把数据拟合等统计属性高度集成在绘图函数中,绘图功能还是构筑在Matplotlib之上。

Plotnine
的绘图逻辑是:一句话一个图层。

4.2 基本图表 Quick Start

4.2  基本图表Quick Start

5 插值模型

5.1 线性插值法

$$
{L_1}(x) = {y_k} + \frac{{{y_{k + 1}} - {y_k}}}{{{x_{k + 1}} - {x_k}}}(x - {x_k}) \tag{5.1}
$$

5.2 三次样条插值

$$
{a_i}x_i^3 + {b_i}x_i^2 + {c_i}{x_i} + {d_i} = {a_{i + 1}}x_{i + 1}^3 + {b_{i + 1}}x_{i + 1}^2 + {c_{i + 1}}{x_{i + 1}} + {d_{i + 1}} \tag{5.2}
$$$$
3{a_i}x_i^2 + 2{b_i}{x_i} + {c_i} = 3{a_{i + 1}}x_{i + 1}^2 + 2{b_{i + 1}}{x_{i + 1}} + {c_{i + 1}} \tag{5.3}
$$$$
6{a_i}{x_i} + 2{b_i} = 6{a_{i + 1}}{x_{i + 1}} + 2{b_{i + 1}} \tag{5.4}
$$

5.3 拉格朗日插值

对于一组数据{y}和下标{x},定义n个拉格朗日插值基函数:
$$
{l_k}(x) = \prod\limits_{i = 0,i \ne k}^n {\frac{{x - {x_i}}}{{{x_k} - {x_i}}}} \tag{5.5}
$$
这本质上是一个分式,当 x=xk 时 lk(x)=1,这一操作实现了离散数据的连续化。
按照对应下标的函数值加权求和可以得到整体的拉格朗日插值函数:
$$
L(x) = \sum\limits_{k = 0}^n {{y_k}{l_k}(x)} \tag{5.6}
$$

Read more