Labfans是一个针对大学生、工程师和科研工作者的技术社区。 论坛首页 | 联系我们(Contact Us)
MATLAB爱好者论坛-LabFans.com
返回   MATLAB爱好者论坛-LabFans.com > 工程数学软件 > MATLAB论坛
MATLAB论坛 一切MATLAB相关问题在此讨论。
回复
 
主题工具 显示模式
旧 2009-03-22, 00:25   #1
walterhj
初级会员
 
注册日期: 2009-03-11
年龄: 47
帖子: 2
声望力: 0
walterhj 正向着好的方向发展
默认 [讨论]向量相似性比较

目前正在用matlab做中文文本话题发现的实验,现在已经将152篇文章处理成tfidf向量,导入到matlab后是个4014X152的矩阵(x)(4014是词语数量),再用svd函数对这个矩阵进行奇异值分解:
[u,s,v]=svd(x,0),其中:
u为词语相关性矩阵,4014X152;
s为奇异值矩阵,152x152;
v为文章相关性矩阵,152x152;
所以,要找出这152篇文章中关注度最高的文章,需要对v矩阵的152个向量两两比较相似度,平均值最高的就是最受关注的话题。现在的问题是:要求出这个最高相似度,需要对v矩阵进行152X152=23104次dot计算(用for循环实现),效率太低!大家讨论下有没有其它高效的办法对矩阵进行两两向量相似度计算。(不知道我说清楚了没撒)
walterhj 当前离线   回复时引用此帖
旧 2009-03-24, 16:23   #2
云龙九现
初级会员
 
注册日期: 2009-03-20
年龄: 42
帖子: 26
声望力: 17
云龙九现 正向着好的方向发展
默认 回复: [讨论]向量相似性比较

思路一、这个有些类似于排序算法中的问题
可以尝试一下多路排序,也就是多路比较
分别随机选择m篇文章,这m篇文章同时和另外m篇文章进行相似度比较
思路二、先聚类,再计算相似度,采用聚类算法
__________________
不到马里亚纳,不知道大海的深度
不到珠穆朗玛,不知道大山的高度
不到Labfans,不知道自己的无知
云龙九现 当前离线   回复时引用此帖
回复


发帖规则
不可以发表新主题
不可以发表回复
不可以上传附件
不可以编辑自己的帖子

启用 BB 代码
论坛启用 表情符号
论坛启用 [IMG] 代码
论坛禁用 HTML 代码



所有时间均为北京时间。现在的时间是 13:10


Powered by vBulletin
版权所有 ©2000 - 2025,Jelsoft Enterprises Ltd.