数据归一化问题是数据挖掘中特征向量表达时的重要问题,当不同的特征成列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,这个时候我们需要做的就是对抽取出来的features vector进行归一化处理,以保证每个特征被分类器平等对待。下面我描述几种常见的Normalization Method,并提供相应的python实现(其实很简单):
1、(0,1)标准化:
这是最简单也是最容易想到的方法,通过遍历feature vector里的每一个数据,将Max和Min的记录下来,并通过Max-Min作为基数(即Min=0,Max=1)进行数据的归一化处理:
LaTex:{x}_{normalization}=\frac{1}{1+{e}^{-x}}
Python实现:
def sigmoi<em>本文来源[email protected]搞@^&代*@码2网</em>d(X,useStatus): if useStatus: return 1.0 / (1 + np.exp(-float(X))); else: return float(X);
这里useStatus管理是否使用sigmoid的状态,方便调试使用。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持搞代码。