在线精品99_中国九九盗摄偷拍偷看_91免费版在线观看_91.app_91高清视频在线_99热最新网站

如何解析hanlp源码中文分词算法

101次阅读
没有评论

共计 895 个字符,预计需要花费 3 分钟才能阅读完成。

如何解析 hanlp 源码中文分词算法,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面丸趣 TV 小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

解析 hanlp 源码中文分词算法。词图指的是句子中所有词可能构成的图。如果一个词 A 的下一个词可能是 B 的话,那么 A 和 B 之间具有一条路径 E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图我称作词图。

需要稀疏
2 维矩阵模型,以一个词的起始位置作为行,终止位置作为列,可以得到一个二维矩阵。例如:“他说的确实在理”这句话

图词的存储方法:
一种是的
DynamicArray 法,一种是快速 offset 法。Hanlp 代码中采用的是第二种方法。

1、DynamicArray(二维数组) 法

在词图中,行和列的关系:
col 为 n 的列中所有词可以与 row 为 n 的所有行中的词进行组合。例如“的确”这个词,它的 col =5,需要和它计算平滑值的有两个,分别是 row = 5 的两个词:“实”和“实在”。但是在遍历和插入的时候,需要一个个比较 col 和 row 的关系,复杂度是 O(N)。

2、快速 offset

一个一维数组,每个元素是一个单链表

“的确”的行号是 4, 长度是 2,4+2=6,于是第六行的两个词“实 / 实在”就是“的确”的后续。

同时这种方法速度非??欤迦牒筒檠氖奔涠际?
O(1)。

Hanlp 核心词典:

最短路径算法
—viterbi(动态规划路径)

Frequency: 核心词典中的词频

nTwoWordsFreq: 共现词频

intMAX_FREQUENCY= 25146057

double dTemp =(double) 1 / MAX_FREQUENCY +0.00001

dSmoothingPara =0.1

Viterbi 最短路径有向图

1、计算过程从上至下,根据计算出的权重值变更前驱结点,保证前驱结点唯一 (动态规划路径)

2、计算结束后,从最后一个结点开始取出 term, 依次取出该结点的前驱结点即可分词结果:理,在,确实,的,说,他

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注丸趣 TV 行业资讯频道,感谢您对丸趣 TV 的支持。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-07-17发表,共计895字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)
主站蜘蛛池模板: 尤物在线观看精品国产福利片 | gav视频| 欧美同志xxxx| 又粗又硬整进去好爽视频 | 玖玖天堂| 国产福利写真视频在线观看 | 国产一级爱片在线播放 | 久久国产精品无码一区二区三区 | 久久综合伊人中文字幕 | 尤物综合| 成人在线网站 | 欧美成人网在线综合视频 | 一级毛片免费播放视频 | 可以看毛片的网址 | 尤物视频在线看 | 99热这里只有精品在线观看 | 无码手机线免费观看 | 国产精品乱子乱xxxx | 日韩中文字幕一在线 | 狠狠综合欧美综合欧美色 | 欧美激情啪啪 | 又大又紧又粉嫩18p少妇 | 精品久久久久久综合日本 | 精品国产福利一区二区在线 | a级毛片免费 | 中文字幕在线播放 | 成人性毛片 | 亚洲码在线中文在线观看 | 成 人 黄 色 大 片 | 亚洲精品一区henhen色 | 亚洲国产成人精品一区二区三区 | 性饥渴艳妇性色生活片在线播放 | 婷婷射图| 第一毛片 | 天天做天天添婷婷我也去 | 国产精品无码一区二区三区免费 | 日韩在线播放一区 | 自拍视频啪| 精品一区二区三区五区六区 | 久草手机在线 | 美女脱了内裤张开腿让男人桶网站 |