3.2 试证明,对于参数w,对率回归的目标函数(3.18)是非凸的,但其对数似然函数(3.27)是凸的.最小化ell(beta)=sum_(i=1)^m(-y_(i)beta^Tx_(i)+ln(1+e^beta^(Tx_{i)})). (3.27)
题目解答
答案
为了证明对率回归的目标函数(3.18)是非凸的,但其对数似然函数(3.27)是凸的,我们首先需要明确这两个函数的具体形式。这里,我们假设(3.27)是对数似然函数,而(3.18)是其负值,即最小化的目标函数。根据题目,我们有:
对数似然函数(3.27):
$\ell(\beta) = \sum_{i=1}^{m} \left( -y_i \beta^T x_i + \ln(1 + e^{\beta^T x_i}) \right)$
目标函数(3.18):
$J(\beta) = -\ell(\beta) = \sum_{i=1}^{m} \left( y_i \beta^T x_i - \ln(1 + e^{\beta^T x_i}) \right)$
1. 证明对数似然函数(3.27)是凸的
为了证明一个函数是凸的,我们需要证明其二阶导数(Hessian矩阵)是半正定的。对于对数似然函数 $\ell(\beta)$,我们首先计算其一阶导数和二阶导数。
一阶导数
$\nabla \ell(\beta) = \sum_{i=1}^{m} \left( -y_i x_i + \frac{e^{\beta^T x_i}}{1 + e^{\beta^T x_i}} x_i \right)$
$\nabla \ell(\beta) = \sum_{i=1}^{m} \left( -y_i x_i + \sigma(\beta^T x_i) x_i \right)$
其中,$\sigma(z) = \frac{1}{1 + e^{-z}}$ 是sigmoid函数。
二阶导数(Hessian矩阵)
$\nabla^2 \ell(\beta) = \sum_{i=1}^{m} \left( \frac{e^{\beta^T x_i}}{(1 + e^{\beta^T x_i})^2} x_i x_i^T \right)$
$\nabla^2 \ell(\beta) = \sum_{i=1}^{m} \left( \sigma(\beta^T x_i) (1 - \sigma(\beta^T x_i)) x_i x_i^T \right)$
由于 $\sigma(z) (1 - \sigma(z))$ 在 $(0, 1)$ 之间,因此 $\sigma(\beta^T x_i) (1 - \sigma(\beta^T x_i))$ 是非负的。因此,Hessian矩阵 $\nabla^2 \ell(\beta)$ 是一个半正定矩阵,这表明 $\ell(\beta)$ 是凸的。
2. 证明目标函数(3.18)是非凸的
目标函数 $J(\beta) = -\ell(\beta)$ 是对数似然函数的负值。如果 $\ell(\beta)$ 是凸的,那么 $J(\beta)$ 是凹的。为了证明 $J(\beta)$ 是非凸的,我们可以通过以下步骤进行:
一阶导数
$\nabla J(\beta) = -\nabla \ell(\beta) = \sum_{i=1}^{m} \left( y_i x_i - \sigma(\beta^T x_i) x_i \right)$
二阶导数(Hessian矩阵)
$\nabla^2 J(\beta) = -\nabla^2 \ell(\beta) = -\sum_{i=1}^{m} \left( \sigma(\beta^T x_i) (1 - \sigma(\beta^T x_i)) x_i x_i^T \right)$
由于 $\nabla^2 \ell(\beta)$ 是半正定的,$-\nabla^2 \ell(\beta)$ 是半负定的。因此,$\nabla^2 J(\beta)$ 是半负定的,这表明 $J(\beta)$ 是凹的,而不是凸的。
结论
- 对数似然函数 $\ell(\beta)$ 是凸的,因为其Hessian矩阵是半正定的。
- 目标函数 $J(\beta) = -\ell(\beta)$ 是凹的,因为其Hessian矩阵是半负定的。
因此,我们证明了对率回归的目标函数(3.18)是非凸的,但其对数似然函数(3.27)是凸的。