chrispher.github.com

2015年课外阅读——魔戒三部曲

目录第一节期待已久的宴会第二节过往黯影第三节三人成行第四节蘑菇田的近路第十二节渡口大逃亡第十三节多次会议第十四节爱隆召开的会议第十五节魔戒南行第十六节黑暗中的旅程第十八节罗斯洛立安第十九节凯兰崔尔之镜第二节洛汗国的骑士第四节树胡第十...

2015年02月28日阅读全文评论

ch5-神经网络基础

本篇主要是神经网络相关知识。笔记分两部分，这是第一部分：基础入门为主。

2015年02月17日阅读全文评论

Classify with Real-world Examples

本文主要是简单的构建了一个分类器。首先是针对iris数据集，构建了一个只用阈值来分类的情况。之后简介了下交叉验证。然后考虑了更实际的数据集，使用了UCI的数据集，并考虑特征处理，使用logistics回归分类。最后，简单的说了一下分析的思路和一些待思考的问题。这里数据集和问题是参考了书籍《building machine learning system with python》，建模过程和分析属于个人见解，请批判阅读。

2015年02月04日阅读全文评论

ROC曲线

在分类预测中，我们一般比较关注准确率，但是，混淆矩阵也是非常重要的。尤其是当我们都其中的某一类别特别感兴趣的时候，通常要单独的看这个类别的召回率和精度，比如在癌症诊断过程中，我们宁愿错误的认为一个人是癌症，也不愿意把一个癌症错误的认为是正常人。本文以二元分类为例，分析ROC曲线及相关知识。

2015年02月03日阅读全文评论

数据挖掘9大定律

数据挖掘通用流程CRISP-DM的缔造者之一Tom Khabaza曾总结了在数据挖掘上的九大定律，分布是Business Goals Law （目标律）、Business Knowledge Law （知识律）、Data Preparation Law （准备律）、NFL Law （没有免费午餐，No Free Lunch）、Watkins’ Law （大卫律，沃特金斯定律）、Insight Law（洞察律）、Prediction Law （预测律）、Value Law （价值律）、Law of Change （变化律）。

2015年02月02日阅读全文评论

ch4-线性分类之贝叶斯logistic回归

本篇主要是概述一下线性分类相关的一些知识。分类的目标是在给到一个D维的输入数据X，预测它的类别c（假设共K个类别，一般而言，各个类别是互斥的）。输入空间可以被分割为不同的决策区域(decision regions),这些区域的平面称之为决策边界(decision boundaries或decision surfaces，本文使用决策平面)。这一章，主要考虑线性分类器，即决策平面是输入x的线性模型。如果数据可以完全被线性决策平面分割，称之为线性可分（linearly separable）。笔记分三部分，这是第三部分：以贝叶斯logistic回归为主部分。

2015年01月29日阅读全文评论