最近用php+mysql实现了word2vec的效果，找近义词

用数据库统计了词语前后出现的词语和出现次数。用这个数据就可以了。
下面上图

需要的原料就是普通小说或者文章，经过字与字的统计可以实现分词，经过词与词的统计可以实现找近义词

嗯哪，我也在干类似的事情，到小说网站爬了20多个G文本下来。不过我想的是一次性把字频，词频，句频全部统计出来，为每个字词句编个号，比如说“我吃过饭了”的id为15683，“我不饿了”id为789564，这样的话表示他们的因果关系就是在内存地址为基址+15683的地方写入789564这个数字的值即可，同理上下文关系也以此类推即可，我没用数据库直接上hash表+操作文件，速度非常慢，程序连续跑了一个多星期了还没完呢，你的统计速度怎么样

你说的词语和词语关联我还是没太明白，大意是不是这样，比如有个句子”王老头与蓝老四分别都带着一千人驻守于恒山与太行山“，先利用之前统计出的字和字关联对句子分词：王老头，与，蓝老四，分别，都，带着，一千人，驻守，于，恒山，与，太行山。然后怎么关联呢？王老头是只与蓝老四相关呢，还是和本句分词结果每个词相关呢，还是说任意取出一个词都与本句分词结果的其他每个词相关呢，比如取最后一个词“太行山”，和第一个词”王老头“有关联吗？

我回来啦，咱来写个攻略，怎么通过词与词的统计，查询词语的近义词。过程有点复杂，我会慢慢写，有不清楚的地方请回复，我会解答~
ps:这个算法不是基于神经网络的，是基于统计学的，原理是非常明了的，不存在不确定性。

要实现找近义词，我们需要2部分的统计数据。首先是词语频率统计，这个很简单，就是一个词总共出现的次数，我们以“千反田”为例，统计次数为1243次：

好了，每个词语都这样统计，这就是所有的数据，怎么从中提取出“千反田”的近义词呢？
下面是比较难的一个部分，我先写出过程吧，原理其实我也不是很清楚：
首先我们将（词语+权重）作为集合来处理，我们要查询的词语为“千反田”，那么初始词语集合为：

然后我们将（词语【千反田】+权重【1】）集合的每一个词语进行下述变换：
遍历【千反田】后方词语统计的每一个词作为新的词语【杂】，【学】，【王】，【里志】……
新的词语的权重这样计算：【杂】的权重为：（映射来源【千反田】的权重1）乘以 (词语【杂】的被关联次数2) 除以 (词语【杂】在小说中总出现次数56)
处理完毕后，得到的新的集合：

总计3637个元素的新的（词语+权重）集合

上述（词语+权重）集合按照权重排序：

……

厉害

是不是有点关联了？对吧
那么问题来了，为什么要使用（词语+权重）集合的方式来处理数据？
因为这样可以使得变换前后，输入和输出的格式一致，可以进行多次变换。
所以还可以进一步。
刚才是向后映射变换，现在可以向前变换：
不过刚才只有一个词语“千反田”，现在有3637个元素，全部计算一次权重，相同的词语权重累加，要花很多时间。
我们可以简单一点，取重要的数据进行变换，也就是取权重的前10个元素进行变换就好了。
算法也是一样：【新的词语】的权重为：（映射来源【来源词语】的权重）乘以 (词语【新的词语】的被关联次数) 除以 (词语【新的词语】在小说中总出现次数)
如果10个元素当中，向前映射的词语有重复的，则将他们的数据合并，权重相加
映射完成后的到新的词语（词语+权重）集合：

是不是有点眼熟，是的，这就是帖子开头的“千反田”的相关词数据。最后将权重画出柱状图就得到了这个数据：

完结撒花~

赞！思路清晰，一看就懂。幸好不是贴一堆代码，即使懂php，我想也没多少人能看懂和有那耐心去看代码。

不错。我也想做个

最后说明一下原理:原理大概是这样，先找出目标词语后面最可能出现的词语集合，再找出这些词语前面最可能同时出现的词语。
举个栗子:1我是帅哥，2咱是帅哥
我后面最常出现的词语有是，帅哥
是，帅哥两个词语前面最常出现的词语有我，咱
所以我，咱是同义词

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1 2 下一页尾页
46回复贴，共2页
，跳到页

<<返回人工智能吧

分享到:

日	一	二	三	四	五	六