python代码实现逻辑回归logistic原理

Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程，为最大化方程，利用牛顿梯度上升求解方程参数。

优点：计算代价不高，易于理解和实现。
缺点：容易欠拟合，分类精度可能不高。
使用数据类型：数值型和标称型数据。

介绍逻辑回归之前，我们先看一问题，有个黑箱，里面有白球和黑球，如何判断它们的比例。

我们从里面抓3个球，2个黑球，1个白球。这时候，有人就直接得出了黑球67%，白球占比33%。这个时候，其实这个人使用了最大似然概率的思想，通俗来讲，当黑球是67%的占比的时候，我们抓3个球，出现2黑1白的概率最大。我们直接用公式来说明。

假设黑球占比为P，白球为1-P。于是我们要求解MAX(PP(1-P))，显而易见P=67%（求解方法：对方程求导，使导数为0的P值即为最优解）

我们看逻辑回归，解决的是二分类问题，是不是和上面黑球白球问题很像，是的，逻辑回归也是最大似然概率来求解。

假设我们有n个独立的训练样本{(x1, y1) ,(x2, y2),…, (xn, yn)}，y={0, 1}。那每一个观察到的样本(xi, yi)出现的概率是：

这里我们稍微变换下L(θ)：取自然对数，然后化简（不要看到一堆公式就害怕哦，很简单的哦，只需要耐心一点点，自己动手推推就知道了。注：有xi的时候，表示它是第i个样本，下面没有做区分了，相信你的眼睛是雪亮的），得到：

其中第三步到第四步使用了下面替换。

这时候为求最大值，对L(θ)对θ求导，得到：

然后我们令该导数为0，即可求出最优解。但是这个方程是无法解析求解（这里就不证明了）。
最后问题变成了，求解参数使方程L最大化，求解参数的方法梯度上升法（原理这里不解释了，看详细的代码的计算方式应该更容易理解些）本文来源gao@daima#com搞(%代@#码网。

根据这个转换公式

我们代入参数和特征，求P，也就是发生1的概率。

上面这个也就是常提及的sigmoid函数，俗称激活函数，最后用于分类（若P(y=1|x;Θ\ThetaΘ )大于0.5，则判定为1）。

搞代码网（gaodaima.com）提供的所有资源部分来自互联网，如果有侵犯您的版权或其他权益，请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected]‍，我们会在看到邮件的第一时间内为您处理，或直接联系QQ：872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接：python代码实现逻辑回归logistic原理

Hi，您需要填写昵称和邮箱！