模型评估
在统计学和机器学习中具有至关重要，它帮助我们主要目标是量化模型预测新数据的能力。

本篇主要介绍
模型评估
时，如何利用
scikit-learn
帮助我们快速进行各种
偏差
的分析。

1. R² 分数

R² 分数
（也叫
决定系数
），用于衡量模型预测的拟合优度，它表示模型中
因变量
的变异中，可由
自变量
解释的部分所占的比例。
R²
值
接近1
的话，表示模型能够很好地解释因变量的变异，
接近0
的话，则表示模型解释能力较差。

需要注意的是，虽然
R² 分数
是一个很有用的指标，但它也有一些局限性。
例如，当模型中自变量数量增加时，
R² 分数
可能会增加，即使这些自变量对因变量没有真正的解释力。
因此，在使用
R² 分数
评估模型时，还需要结合其他诊断指标和领域知识进行综合判断。

1.1. 计算公式

\(R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}\)
且
\(\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i\)
其中，
\(n\)
是样本数量，
\(y_i\)
是真实值，
\(\hat{y_i}\)
是预测值。

1.2. 使用示例

from sklearn.metrics import r2_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]
r2_score(y_true, y_pred)
# 结果： 0.4

y_pred = [0, 2, 3, 4]
r2_score(y_true, y_pred)
# 结果： 0.8

r2_score
就是
scikit-learn
中用来计算 **R² 分数 **的函数。

2. 解释方差分数

解释方差分数
（
Explained Variance Score
，简称
EVS
），它用于量化模型对目标变量的解释程度。
解释方差分数
比较高则表示模型能够较好地解释数据中的方差，即模型的预测与实际观测值较为接近。

需要注意的是，
解释方差分数
仅关注模型对方差的解释程度，并不直接反映预测的准确度。

2.1. 计算公式

\(explained\_{}variance(y, \hat{y}) = 1 - \frac{Var\{ y - \hat{y}\}}{Var\{y\}}\)
其中，
\(y\)
是真实值，
\(\hat{y}\)
是预测值。
\(Var\)
表示计算方差，比如：
\(Var{\{y\}} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \bar{y})^2\)

2.2. 使用示例

from sklearn.metrics import explained_variance_score

y_true = [1, 2, 3, 4]

y_pred = [0, 1, 3, 5]
explained_variance_score(y_true, y_pred)
# 结果： 0.45

y_pred = [0, 2, 3, 4]
explained_variance_score(y_true, y_pred)
# 结果： 0.85

explained_variance_score
就是
scikit-learn
中用来计算 **解释方差分数 **的函数。

3. Tweedie 偏差

Tweedie 偏差
是一种用于评估广义线性模型的指标，它衡量了预测值与实际观测值之间的差异，并考虑了模型的方差结构和分布假设。

Tweedie 偏差
根据
Tweedie分布
的定义而来，参数不同，表示不同的分布。
Tweedie 偏差
较小，表示模型的预测与实际观测值之间的差异较小，即模型能够更好地拟合数据。

需要注意的是，在使用
Tweedie 偏差
时，需要确保所选的
Tweedie 分布
适合数据的特性，否则可能会导致不准确的评估结果。

3.1. 计算公式

\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1}
2\left(\frac{\max(y_i,0)^{2-p}}{(1-p)(2-p)}-
\frac{y_i\,\hat{y}_i^{1-p}}{1-p}+\frac{\hat{y}_i^{2-p}}{2-p}\right)\)
其中，
\(n\)
是样本数量，
\(y_i\)
是真实值，
\(\hat{y_i}\)
是预测值。

上面的公式中，
\(p=0\)
时，
Tweedie 偏差
相当于
均方误差
：
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} (y_i-\hat{y}_i)^2\)

当
\(p=1\)
时，
Tweedie 偏差
相当于
平均泊松偏差
：
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} 2(y_i \log(y_i/\hat{y}_i) + \hat{y}_i - y_i)\)

当
\(p=2\)
时，
Tweedie 偏差
相当于
平均Gamma偏差
：
\(\text{D}(y, \hat{y}) = \frac{1}{n}
\sum_{i=0}^{n - 1} 2(\log(\hat{y}_i/y_i) + y_i/\hat{y}_i - 1)\)

3.2. 使用示例

from sklearn.metrics import mean_tweedie_deviance

mean_tweedie_deviance([1], [2], power=0)
# 运行结果： 1.0
mean_tweedie_deviance([100], [200], power=0)
# 运行结果： 10000.0

mean_tweedie_deviance([1], [2], power=1)
# 运行结果： 0.6137056388801092
mean_tweedie_deviance([100], [200], power=1)
# 运行结果： 61.370563888010906

mean_tweedie_deviance([1], [2], power=2)
# 运行结果： 0.3862943666666698908
mean_tweedie_deviance([100], [200], power=2)
# 运行结果： 0.3862943666666698908

power
参数不同，同样是预测值和实际值
差两倍
的情况下，不同分布，
Tweedie 偏差
的结果差别很大。

4. 总结

总之，
scikit-learn
中提供的回归模型偏差的计算方式，能够帮助我们了解模型的性能、选择适合的模型、优化模型以及辅助决策。
对于回归问题的建模和预测具有重要的实际意义。

【scikit-learn基础】--『回归模型评估』之偏差分析

1. R² 分数

1.1. 计算公式

1.2. 使用示例

2. 解释方差分数

2.1. 计算公式

2.2. 使用示例

3. Tweedie 偏差

3.1. 计算公式

3.2. 使用示例

4. 总结

添加新评论

最新文章

最近回复

分类

归档

其它

【scikit-learn基础】--『回归模型评估』之偏差分析

1. **R² ** 分数

1.1. 计算公式

1.2. 使用示例

2. 解释方差分数

2.1. 计算公式

2.2. 使用示例

3. Tweedie 偏差

3.1. 计算公式

3.2. 使用示例

4. 总结

添加新评论

最新文章

最近回复

分类

归档

其它

1. R² 分数