Word2Vec
介绍
2013年末,Google发布的word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习
在自然语言领域的一项了不起的应用,各种欢呼“深度学习在自然语言领域开始发力了”。
互联网界很多公司也开始跟进,使用word2vec产出了不少成果。
原理
在文本挖掘上的应用
采用 Google 的 Word2Vec 工具,从海量的文本(本文)中,使用神经网络学习得到词典中每个词的向量表示(即词向量)。
然后根据向量,对词典中的每个词进行聚类,例如聚类成 500 类(新的“词典”)。
而后,使用工具对每个文档提取代表性的关键词。每个关键词都在前面的聚类中找到自己的类别。
这样类似向量空间模型(VSM),每个文档都可以用过关键词词频表示成一个 500 维的向量,这个向量就是这个文档的“特征向量”。
典型相关分析
#问题由来
典型相关分析,又称之为典型关联分析,英文叫做Canonical Correlation Analysis(CCA)。
假设有两組变量时,一组为p个变量,另一组为q个变量,欲研究这两组变量之间的相关性。
1 若这两组分别只有一个变量时,则其相关称为简单(线性)相关(又称做皮尔森相关,Pearson Correlation)。
2 若其中一组只有一个变量,另一组有很多变量,则此两组的相关称为复相关(multiple Correlation), 可以利用复回归分析来计算这个系数。
3 如果这两组变量都是一个变量以上的,那量测这两组变量间的相关称为典型相关(Canonical Correlation)例如:
教育研究者想了解 3 个学术能力指标与 5 个在校成绩表现之间的相关性。
社会学家想研究2个先前访问而得的个人社会地位指标与后继测量的4个不同社会地位指标之前的关系。
上述这两种情形,研究者所感兴趣的都是两组变数之间的关系。
皮尔逊相关系数
要理解Pearson相关系数,首先要理解协方差(Covariance)。
协方差
协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下:
另外一种计算协方差的公式就是利用随便变量X和Y的期望,即:
从直观上来看,协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;
如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。
但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
协方差为0的两个随机变量称为是不相关的。
皮尔逊相关系数
下面回归正题,皮尔森相关系数,也叫做简单相关系数。是用来反映两个变量线性相关程度的统计量, 公式如下:
虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),
但是协方差值的大小并不能很好地度量两个随机变量的关联程度。为此引入皮尔逊相关系数,一般用r表示,r的取值在-1与+1之间,
若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;
若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。
r的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式).
下面来看皮尔逊系数的另外一种计算公式:
可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数
Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差.
标准差则等于变量减掉平均数的平方和,再除以样本数,最后再开方.
皮尔逊相关的约束条件
1 两个变量间有线性关系
2 变量是连续变量
3 变量均符合正态分布,且二元分布也符合正态分布
4 两变量独立
Hello World
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Quick Start
Create a new post
|
|
More info: Writing
Run server
|
|
More info: Server
Generate static files
|
|
More info: Generating
Deploy to remote sites
|
|
More info: Deployment