关于数据科学不易触及的真相,英文原文参考: The Inconvenient Truth About Data Science。本文针对这些真相,结合自己的一些实践经历做了一些个人解读。我个人是搞过数据分析(甲方乙方都呆过),写过一些报告,也负责一些工程上的实现和建模,包括深度学习。但经验和专业能力有限,所以很多都是自己的一时之见,可以批判的看看。

本章主要是介绍了核方法和高斯过程的一些知识。笔记分两部分,这是第一部分:核方法。

关于个人知识管理与最近博客说明。1、个人知识管理最开始写博客,是为了更好的管理知识,尽可能的体系化和结构化自己的知识。但是,不知不觉又把这种知识管理做成了一篇篇文章的堆砌。换句话说,这种做法无异于用印象笔记在网上收藏一堆堆文章,成了一种摆设。主要问题如下: 分类太粗,主题不明显 标签太乱,与类别有很大的重叠 ...

The Analytics Edge系列的四节笔记。这是第一节:基础数据分析入门,主要是介绍数据分析和R语言。第二节:线性回归分析入门,本节课简单的介绍了线性回归,但不涉及复杂的假设检验和推导公式等。第三节:线性回归分析入门,本节主要简述了logistic回归,同时涉及了混淆矩阵、ROC曲线以及决策边界调整(threshold)的内容。第四节:文本分析入门。本节课主要讲述了介绍了文本分类的问题,涉及一些自然语言处理的基本概念。

本节主要是介绍了文本聚类,使用基础的bag of words来获取特征,在过程中提到了一些处理文本的基本方法,包括特征提取的tfidf等等。其他高级的主题在后面的章节会提到。这里我们考虑中文的使用,在分词上选用jieba分词包。。这里数据集和问题是参考了书籍《building machine learning system with python》,建模过程和分析属于个人见解,请批判阅读。

本篇主要是神经网络相关知识。笔记分两部分,这是第二部分:简单的概述不同的神经网络模型。

chrispher guan
不知所措,才是人生。