深度学习

Word2Vec

介绍

2013年末,Google发布的word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习

在自然语言领域的一项了不起的应用,各种欢呼“深度学习在自然语言领域开始发力了”。

互联网界很多公司也开始跟进,使用word2vec产出了不少成果。

原理

在文本挖掘上的应用

采用 Google 的 Word2Vec 工具,从海量的文本(本文)中,使用神经网络学习得到词典中每个词的向量表示(即词向量)。

然后根据向量,对词典中的每个词进行聚类,例如聚类成 500 类(新的“词典”)。

而后,使用工具对每个文档提取代表性的关键词。每个关键词都在前面的聚类中找到自己的类别。

这样类似向量空间模型(VSM),每个文档都可以用过关键词词频表示成一个 500 维的向量,这个向量就是这个文档的“特征向量”。

自动编码器AutoEncoder