分类: 第十一章:特征工程

6 篇文章

thumbnail
第一节:特征预处理
特征预处理   之前说到构建机器学习系统的步骤中的第二步说到需要进行数据预处理,但是并没有说如何对数据进行预处理,这一章将会展开来说说将来建模时会碰到的各种脏数据的形式,以及对这种形式数据的处理方式,而对数据处理即对数据的特征进行处理。 特征预处理学习目标 缺失值处理 离群值处理 数据类型转换 归一化数据 二值化数据 特征预处理…
第二节:特征选择
特征选择   特征工程在工业上有这么一句广为流传的话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。接下来将给你介绍特征工程的第一个分支,特征选择。   对于一个学习任务来说,如果某一个特征和我们的学习任务没有太大关系,我们把它称之为无关特征(irrelevant feature),如个人…
thumbnail
第三节:主成分分析(PCA)
主成分分析(PCA) 维数灾难和降维   在KNN算法中曾讲到,对于高维数据,会出现数据样本稀疏、距离计算困难等问题。但是这种问题并不是仅仅针对KNN算法,只是在KNN算法中这种问题会被放大,而其他的机器学习算法也会因为高维数据对训练模型造成极大的障碍,这种问题一般被称为维数灾难(curse of dimensionality)…
thumbnail
第六节:模型选择
模型选择   机器学习是在某种假设上对数据的分析,基于该假设即可构造多个模型获得预测值,通过比较多个模型间真实值与预测值之间的误差即可获得一个较优的模型。   由于机器学习不是预言而是预测。因此机器学习可能会出现欠拟合和过拟合的现象,即如果模型拟合效果不好,则是欠拟合,对于欠拟合问题通常增大训练数据量即可;但…

You cannot copy content of this page