机器学习教程-无监督学习

无监督学习Unsupervised Learning

我们已经讲过了监督学习回想起上次的数据集每个样本都已经被标明为正样本或者负样本即良性或恶性肿瘤。因此对于监督学习中的每一个样本我们已经被清楚地告知了什么是所谓的正确答案即它们是良性还是恶性在无监督学习中我们用的数据会和监督学习里的看起来有些不一样在无监督学习中没有属性或标签这一概念也就是说所有的数据都是一样的没有区别。

所以在无监督学习中我们只有一个数据集没人告诉我们该怎么做我们也不知道每个数据点究竟是什么意思相反它只告诉我们现在有一个数据集你能在其中找到某种结构吗？对于给定的数据集无监督学习算法可能判定该数据集包含两个不同的聚类你看这是第一个聚类

这里另外个聚类

你猜对了无监督学习算法会把这些数据分成两个不同的聚类

我们来举一个聚类算法的栗子 Google 新闻的例子如果你还没见过这个页面的话你可以到这个URL news.google.com 去看看谷歌新闻每天都在干什么呢？他们每天会去收集成千上万的网络上的新闻然后将他们分组组成一个个新闻专题。

每个新闻专题里面都是一些相似的新闻报道来自不同的媒体。谷歌新闻所做的就是去搜索成千上万条新闻然后自动的将他们聚合在一起因此有关同一主题的新闻被显示在一起实际上聚类算法和无监督学习算法也可以被用于许多其他的问题。

下面是一个关于基因芯片的例子基本的思想是给定一组不同的个体对于每个个体检测它们是否拥有某个特定的基因也就是说，你要去分析有多少基因显现出来了因此这些颜色红绿灰等等它们展示了这些不同的个体是否拥有一个特定基因的不同程度。然后你能做的就是运行一个聚类算法把不同的个体归入不同的类或归为不同类型的人。

这就是无监督学习我们没有提前告知这个算法这些是第一类的人这些是第二类的人这些是第三类的人等等相反我们只是告诉算法你看这儿有一堆数据我不知道这个数据是什么东东我不知道里面都有些什么类型叫什么名字我甚至不知道都有哪些类型但是请问你可以自动的找到这些数据中的类型吗？然后自动的按得到的类型把这些个体分类虽然事先我并不知道哪些类型因为对于这些数据样本来说我们没有给算法一个正确答案所以这就是无监督学习。

无监督学习或聚类算法在其他领域也有着大量的应用。

用来组织大型的计算机集群：我有一些朋友在管理大型数据中心也就是大型计算机集群并试图找出哪些机器趋向于协同工作如果你把这些机器放在一起你就可以让你的数据中心更高效地工作

用于社交网络的分析：如果可以得知哪些朋友你用email联系的最多或者知道你的Facebook好友或者你Google+里的朋友知道了这些之后我们是否可以自动识别哪些是很要好的朋友组哪些仅仅是互相认识的朋友组

市场分割中的应用：许多公司拥有庞大的客户信息数据库那么给你一个客户数据集你能否自动找出不同的市场分割。并自动将你的客户分到不同的细分市场中从而有助于我在不同的细分市场中进行更有效的销售。这也是无监督学习我们现在有这些客户数据但我们预先并不知道有哪些细分市场而且对于我们数据集的某个客户我们也不能预先知道谁属于细分市场一谁又属于细分市场二等等但我们必须让这个算法自己去从数据中发现这一切

鸡尾酒宴问题：

在教授机器学习将近10年后我得出的一个经验就是如果你使用Octave的话会学的更快并且如果你用 Octave作为你的学习工具和开发原型的工具你的学习和开发过程会变得更快。

而事实上在硅谷很多人会这样做他们会先用Octave 来实现这样一个学习算法原型只有在确定这个算法可以工作后才开始迁移到 C++ Java或其它编译环境事实证明这样做实现的算法比你一开始就用C++ 实现的算法要快多了。

Octave是一个免费的开放源码的软件使用Octave或Matlab这类的工具许多学习算法都可以用几行代码就可以实现在后续课程中我会教你如何使用Octave 你会学到如何在Octave中实现这些算法或者如果你有Matlab 你可以用它。

Unsupervised Learning

Unsupervised learning allows us to approach problems with little or no idea what our results should look like. We can derive structure from data where we don’t necessarily know the effect of the variables.

We can derive this structure by clustering the data based on relationships among the variables in the data.

With unsupervised learning there is no feedback based on the prediction results.

Example:

Clustering: Take a collection of 1,000,000 different genes, and find a way to automatically group these genes into groups that are somehow similar or related by different variables, such as lifespan, location, roles, and so on.

Non-clustering: The “Cocktail Party Algorithm”, allows you to find structure in a chaotic environment. (i.e. identifying individual voices and music from a mesh of sounds at a cocktail party).

一	二	三	四	五	六	日
« 6月
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

股市自如行

机器学习教程-无监督学习

Unsupervised Learning

发表评论取消回复

Unsupervised Learning

发表评论 取消回复

发表评论取消回复