是不是有点关联了?对吧
那么问题来了,为什么要使用(词语+权重)集合的方式来处理数据?
因为这样可以使得变换前后,输入和输出的格式一致,可以进行多次变换。
所以还可以进一步。
刚才是向后映射变换,现在可以向前变换:
不过刚才只有一个词语“千反田”,现在有3637个元素,全部计算一次权重,相同的词语权重累加,要花很多时间。
我们可以简单一点,取重要的数据进行变换,也就是取权重的前10个元素进行变换就好了。
算法也是一样:【新的词语】的权重为:(映射来源【来源词语】的权重) 乘以 (词语【新的词语】的被关联次数) 除以 (词语【新的词语】在小说中总出现次数)
如果10个元素当中,向前映射的词语有重复的,则将他们的数据合并,权重相加
映射完成后的到新的词语(词语+权重)集合:
是不是有点眼熟,是的,这就是帖子开头的“千反田”的相关词数据。最后将权重画出柱状图就得到了这个数据: