目录 第一节 期待已久的宴会 第二节 过往黯影 第三节 三人成行 第四节 蘑菇田的近路 第十二节 渡口大逃亡 第十三节 多次会议 第十四节 爱隆召开的会议 第十五节 魔戒南行 第十六节 黑暗中的旅程 第十八节 罗斯洛立安 第十九节 凯兰崔尔之镜 第二节 洛汗国的骑士 第四节 树胡 第十...

本篇主要是神经网络相关知识。笔记分两部分,这是第一部分:基础入门为主。

本文主要是简单的构建了一个分类器。首先是针对iris数据集,构建了一个只用阈值来分类的情况。之后简介了下交叉验证。然后考虑了更实际的数据集,使用了UCI的数据集,并考虑特征处理,使用logistics回归分类。最后,简单的说了一下分析的思路和一些待思考的问题。这里数据集和问题是参考了书籍《building machine learning system with python》,建模过程和分析属于个人见解,请批判阅读。

在分类预测中,我们一般比较关注准确率,但是,混淆矩阵也是非常重要的。尤其是当我们都其中的某一类别特别感兴趣的时候,通常要单独的看这个类别的召回率和精度,比如在癌症诊断过程中,我们宁愿错误的认为一个人是癌症,也不愿意把一个癌症错误的认为是正常人。本文以二元分类为例,分析ROC曲线及相关知识。

数据挖掘通用流程CRISP-DM的缔造者之一Tom Khabaza曾总结了在数据挖掘上的九大定律,分布是Business Goals Law (目标律)、Business Knowledge Law (知识律)、Data Preparation Law (准备律)、NFL Law (没有免费午餐,No Free Lunch)、Watkins’ Law (大卫律,沃特金斯定律)、Insight Law(洞察律)、Prediction Law (预测律)、Value Law (价值律)、Law of Change (变化律)。

本篇主要是概述一下线性分类相关的一些知识。分类的目标是在给到一个D维的输入数据X,预测它的类别c(假设共K个类别,一般而言,各个类别是互斥的)。输入空间可以被分割为不同的决策区域(decision regions),这些区域的平面称之为决策边界(decision boundaries或decision surfaces,本文使用决策平面)。这一章,主要考虑线性分类器,即决策平面是输入x的线性模型。如果数据可以完全被线性决策平面分割,称之为线性可分(linearly separable)。笔记分三部分,这是第三部分:以贝叶斯logistic回归为主部分。

chrispher guan
不知所措,才是人生。