在机器学习和统计学习中, Ensemble Learning(集成学习)是一种将多种学习算法组合在一起以取得更好表现的一种方法。与 Statistical Ensemble(统计总体,通常是无限的)不同,机器学习下的Ensemble 主要是指有限的模型相互组合,而且可以有很多不同的结构。相关的概念有多模型系统、Committee Learning、Modular systems、多分类器系统等等。这些概念相互之间相互联系,又有区别,而对这些概念的界定,业界目前还没有达成共识。

本文主要参考Tiny Data, Approximate Bayesian Computation and the Socks of Karl Broman。原作者使用R语言做分析,本文使用Python,且部分参数选择和测试不同。 Approximate Bayesian computation(ABC, 近似贝叶斯计算)是贝叶斯统计的基本方法。

本文简单的介绍了贝叶斯估计方法,以及如何使用贝叶斯估计来解决一些实际问题。

在机器学习中,Feature hasing 也称之为hashing trick,是一种快速的且很节省空间的特征向量化的方法。

本文主要是个人对如何学习数据科学的一些个人认知,附录部分参考了网上资源。

some free data science books!

chrispher guan
不知所措,才是人生。