1.特征重要性的意义
LR模型也就是逻辑回归模型,作为一个简单的常用的模型,其有非常多的有点,除了模型简单,容易实现分布式,还有一个重要的优点就是模型的可解释性非常好。因为每个特征都对应一个模型参数w_{i}wi,该参数越大,那么该特征对模型预测结果的影响就会越大,我们就说该特征就越重要,因此LR模型的特征重要性评估方式就是w_{i}wi的大小。
2.逻辑回归模型特征重要性及排序
Talk is cheap,Show me the code,直接亮代码
from sklearn import linear_model import pandas as pd data_dir = 'dir_name/' train_data_file = 'train_data_file_name' test_data_dile = 'test_data_dile_name' df_train = pd.read_csv(data_dir+train_data_file) df_test = pd.read_csv(data_dir+test_data_dile) tr_data = df_train_train.as_matrix() va_data = df_train_validation.as_matrix() # 训练数据,每一行的第一列为样本label tr_x_data = tr_data[:, 1:] # 训练样本特征 tr_y_data = tr_data[:, 0] # 训练样本真实label mod = linear_model.LinearRegression() mod.fit(tr_x_data, tr_y_data) col_name = list(df_train.columns)[1:] m = {} for i in range(len(col_name)): m.setdefault(col_name[i], 0) m[col_name[i]] = mod.coef_[i] sorted(m.items(), key=lambda x: x[1], reverse=True)