Anomoly Dectection 顾名思义“异常识别”,给定一个 dataset(with features),训练出一种模型,当出现新数据时,判断该数据是否正常。 首先我们先来简单聊下高斯分布 Gaussian Distribution(正态分布 Normal Distribution),我们认为中间状态是事物的常态,过高和过低都属于少数。高斯分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。高斯分布的概率密度函数为: 所以识别异常值的过程就变为求解概率的数学问题,当概率值低于某个阈值 ϵ ,即 p(x) < ϵ 时,我们把它认为是异常值。
Unsupervised Learning:Dimensionality Reduction
上周我们谈到了无监督学习中的 Clustring 话题,今天我们来聊聊无监督学习另一个话题: Dimensionality Reduction(维度约减/降维)。
Unsupervised Learning:Clustering
之前介绍的都是 Supervised Learning(监督学习算法),今天,终于开始学习 Unsupervised Learning 了。unsupervised learning 与 supervised learning 最大的区别在于,它学习所用的数据是 unlabeled training set(未经过标记的数据),即只有一系列 features,而没有 y 向量做为预期输出。 今天我们先来学习非监督学习中的第一种情况:Clustering(聚类)。所谓聚类,即将一组 input data 分成 n 簇。
推荐系统常用算法:协同过滤之 Neighborhood-Based CF 算法
上次简单聊了下推荐系统的基本概念和用户行为的一些知识,今天来聊下推荐系统中常用的算法及应用场景。 如图所示,推荐系统算法分为两大类:Content-based Filtering(基于内容的过滤) & Collaborative Filtering(协同过滤)。其中,协同过滤算是使用非常广泛的推荐系统算法,它通过收集 & 分析大量的用户行为数据来预测用户对某个内容的喜好程度。它基于这样的假设:用户将会喜欢与过去喜欢过的 items 相似的 items。
推荐系统简介
随着科技的发展,互联网信息逐渐从匮乏转变为泛滥的阶段。当系统中存在海量数据时,指望用户手动从分类目录页找数据是不现实也是不友好的,这也解释了 Yahoo 从早期巨无霸般的存在沦落到今天没有 Google 一个手指头大的现象。为了解决信息过载这个问题,衍生出两种有效方案:搜索 & 推荐。不同的场景使用不同的方案:
Support Vector Machine
之前我们已经介绍了逻辑回归、神经网络等机器学习算法,今天来聊聊另一种非常常用的算法:Support Vector Machine(支持向量机)。 首先我们来回顾下逻辑回归问题。对于逻辑回归,预测函数如下,当z » 0时,h(x)≈1,当 z « 0时,h(x) ≈ 0. 对于单个 example 的 cost function 如下:
Advice for Applying Machine Learning
在我们初步实现了机器学习算法后,可能会发现结果不尽如人意。训练集上运行很好的算法参数(cost function 很低),却在预测新数据(new examples)时误差很大(cost function 很高)。本篇博客主要关于评估学习算法的质量以及找出可能存在的原因。
Neural Network Back Propagation 入门
上期从总体上聊了下 neural network,本篇 post 将深化学习 neural network。重点聊聊神经网络的 cost function 以及一种高效的算法:back propagation。
Machine Learning Neural Network 简介
今天我们来聊聊 Logistic Nonlinear Classification,以及一种全新的算法 Neural Network。相信大家已经被 AlphaGo 的新闻狂轰乱炸了,没错,AlphaGo 正是运用了强化学习以及深度神经网络的知识来血洗各路高手的。。。
Machine Learning Classification Problem 总结
最近在学习 Machine Learning 的知识,一些听 Andrew Ng 的 coursera 课,一边做习题,即使这样,仍感觉听完就糊涂,学完就忘,so,重新捡起中断了一年多的 blog。前期的关于 Linear Problem 的内容我争取尽早补上吧。本周主要介绍 Classification Problem 以及 Logistic Regression(逻辑回归)的知识。