在线精品99_中国九九盗摄偷拍偷看_91免费版在线观看_91.app_91高清视频在线_99热最新网站

pyhanlp拼音转换与字符正则化

135次阅读
没有评论

共计 4560 个字符,预计需要花费 12 分钟才能阅读完成。

本篇内容主要讲解“pyhanlp 拼音转换与字符正则化”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让丸趣 TV 小编来带大家学习“pyhanlp 拼音转换与字符正则化”吧!

《汉字转拼音与简繁转换的 Java 实现》

from pyhanlp import *

# 繁简转化

print(HanLP.convertToTraditionalChinese(“以后等你当上皇后,就能买草莓庆祝了”。发现一根白头发))

print(HanLP.convertToSimplifiedChinese( 憑藉筆記簿型電腦寫程式 HanLP))

# 简体转台湾繁体

print(HanLP.s2tw( hankcs 在台湾写代码))

# 台湾繁体转简体

print(HanLP.tw2s( hankcs 在臺灣寫程式碼))

# 简体转香港繁体

print(HanLP.s2hk( hankcs 在香港写代码))

# 香港繁体转简体

print(HanLP.hk2s( hankcs 在香港寫代碼))

# 香港繁体转台湾繁体

print(HanLP.hk2tw( hankcs 在臺灣寫代碼))

# 台湾繁体转香港繁体

print(HanLP.tw2hk( hankcs 在香港寫程式碼))

# 香港 / 台湾繁体和 HanLP 标准繁体的互转

print(HanLP.t2tw( hankcs 在臺灣寫代碼))

print(HanLP.t2hk( hankcs 在臺灣寫代碼))

print(HanLP.tw2t( hankcs 在臺灣寫程式碼))

print(HanLP.hk2t( hankcs 在台灣寫代碼))

「以後等你當上皇后,就能買草莓慶祝了」。發現一根白頭髮

凭借笔记本电脑写程序 HanLP

hankcs 在臺灣寫程式碼

hankcs 在台湾写代码

hankcs 在香港寫代碼

hankcs 在香港写代码

hankcs 在臺灣寫程式碼

hankcs 在香港寫代碼

hankcs 在臺灣寫程式碼

hankcs 在台灣寫代碼

hankcs 在臺灣寫代碼

hankcs 在臺灣寫代碼

汉字转拼音

HanLP 中的汉字转拼音功能也十分的强大。

说明

HanLP 不仅支持基础的汉字转拼音,还支持声母、韵母、音调、音标和输入法首字母首声母功能。

HanLP 能够识别多音字,也能给繁体中文注拼音。

最重要的是,HanLP 采用的模式匹配升级到 AhoCorasickDoubleArrayTrie,性能大幅提升,能够提供毫秒级的响应速度!

算法详解

《汉字转拼音与简繁转换的 Java 实现》

# 汉字转拼音

Pinyin = JClass(com.hankcs.hanlp.dictionary.py.Pinyin)

text = 重载不是重任!

pinyin_list = HanLP.convertToPinyinList(text)

print(原文,, end=)

print(text)

print(拼音(数字音调),, end=)

print(pinyin_list)

print(拼音(符号音调),, end=)

for pinyin in pinyin_list:

    print(%s, % pinyin.getPinyinWithToneMark(), end= )

print(\n 拼音(无音调),, end=)

for pinyin in pinyin_list:

    print(%s, % pinyin.getPinyinWithoutTone(), end= )

print(\n 声调,, end=)

for pinyin in pinyin_list:

    print(%s, % pinyin.getTone(), end= )

print(\n 声母,, end=)

for pinyin in pinyin_list:

    print(%s, % pinyin.getShengmu(), end= )

print(\n 韵母,, end=)

for pinyin in pinyin_list:

    print(%s, % pinyin.getYunmu(), end= )

print(\n 输入法头,, end=)

for pinyin in pinyin_list:

    print(%s, % pinyin.getHead(), end= )

print()

# 拼音转换可选保留无拼音的原字符

print(HanLP.convertToPinyinString( 截至 2012 年,, , True))

print(HanLP.convertToPinyinString( 截至 2012 年,, , False))

原文,重载不是重任!

拼音(数字音调),[chong2, zai3, bu2, shi4, zhong4, ren4, none5]

拼音(符号音调),chóng, zǎi, bú, shì, zhòng, rèn, none, 

拼音(无音调),chong, zai, bu, shi, zhong, ren, none, 

声调,2, 3, 2, 4, 4, 4, 5, 

声母,ch, z, b, sh, zh, r, none, 

韵母,ong, ai, u, i, ong, en, none, 

输入法头,ch, z, b, sh, zh, r, none, 

jie zhi none none none none nian none

jie zhi 2 0 1 2 nian,

拼音转中文

HanLP 中的数据结构和接口是灵活的,组合这些接口,可以自己创造新功能,我们可以使用 AhoCorasickDoubleArrayTrie 实现的最长分词器,需要用户调用 setTrie() 提供一个 AhoCorasickDoubleArrayTrie

StringDictionary = JClass(

    com.hankcs.hanlp.corpus.dictionary.StringDictionary )

CommonAhoCorasickDoubleArrayTrieSegment = JClass(

    com.hankcs.hanlp.seg.Other.CommonAhoCorasickDoubleArrayTrieSegment )

Config = JClass(com.hankcs.hanlp.HanLP$Config)

TreeMap = JClass(java.util.TreeMap)

TreeSet = JClass(java.util.TreeSet)

dictionary = StringDictionary()

dictionary.load(Config.PinyinDictionaryPath)

entry = {}

m_map = TreeMap()

for entry in dictionary.entrySet():

    pinyins = entry.getValue().replace( [\\d,] , )

    words = m_map.get(pinyins)

    if words is None:

        words = TreeSet()

        m_map.put(pinyins, words)

    words.add(entry.getKey())

words = TreeSet()

words.add(绿色)

words.add(滤色)

m_map.put(lvse , words)

segment = CommonAhoCorasickDoubleArrayTrieSegment(m_map)

print(segment.segment( renmenrenweiyalujiangbujianlvse))

print(segment.segment( lvsehaihaodajiadongxidayinji))

[renmenrenweiyalujiangbujian/null, lvse/[ 滤色, 绿色]][lvse/[ 滤色, 绿色], haihaodajiadongxidayinji/null]

字符正则化

演示正规化字符配置项的效果(繁体 - 简体,全角 - 半角,大写 - 小写)。

该配置项位于 hanlp.properties 中,通过 Normalization=true 来开启(现在直接通过 HanLP.Config.Normalization 开启即可)。

切换配置后必须删除 CustomDictionary.txt.bin 缓存,否则只影响动态插入的新词。

在我动笔前一个星期,已经有同学添加了,添加自定义词典之后,自动删除缓存的功能。地址请点击 https://github.com/hankcs/HanLP/pull/954,现在只需要开启正则化即可

CustomDictionary =JClass(com.hankcs.hanlp.dictionary.CustomDictionary)

print(HanLP.Config.Normalization = False\n)

HanLP.Config.Normalization = False

CustomDictionary.insert(爱听 4G , nz 1000)

print(HanLP.segment( 爱听 4g))

print(HanLP.segment( 爱听 4G))

print(HanLP.segment( 爱听4G))

print(HanLP.segment( 爱听4G))

print(HanLP.segment( 愛聽4G))

print(HanLP.segment( 喜欢4G))

print(HanLP.segment( hankcs 在臺灣寫代碼))

print(\nHanLP.Config.Normalization = True\n)

HanLP.Config.Normalization = True

print(HanLP.segment( 爱听 4g))

print(HanLP.segment( 爱听 4G))

print(HanLP.segment( 爱听4G))

print(HanLP.segment( 爱听4G))

print(HanLP.segment( 愛聽4G))

print(HanLP.segment( 喜欢4G))

print(HanLP.segment( hankcs 在臺灣寫代碼))

HanLP.Config.ShowTermNature = False

text = HanLP.s2tw(现在的 HanLP 已经添加了添加自定义词典之后,自动删除缓存的功能, 现在只需要开启正则化即可)

print(text)

print(HanLP.segment(text))

HanLP.Config.ShowTermNature = False

HanLP.Config.Normalization = False

[爱听 4g][爱听 4G][爱, 听, 4, G][爱, 听, 4, G][愛, 聽, 4, G][喜欢, 4, G][hankcs, 在, 臺, 灣寫, 代, 碼]

HanLP.Config.Normalization = True

[爱听 4g][爱听 4g][爱听 4g][爱听 4g][爱听 4g][喜欢, 4, g][hankcs, 在, 台湾, 写, 代码]

現在的 HanLP 已經新增了新增自定義詞典之後,自動刪除快取的功能, 現在只需要開啟正則化即可

[现在, 的, hanlp, 已经, 新增, 了, 新增, 自定义, 词典, 之后, ,, 自动, 删除, 快, 取, 的, 功能, ,, 现在, 只, 需要, 开启, 正, 则, 化, 即可]

到此,相信大家对“pyhanlp 拼音转换与字符正则化”有了更深的了解,不妨来实际操作一番吧!这里是丸趣 TV 网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-07-28发表,共计4560字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)
主站蜘蛛池模板: 欧美一级毛片免费大片 | 男人的天堂在线免费视频 | 欧美成人在线视频 | 久久精品国产久精国产爱 | 四虎官网| 99秒拍福利大尺度视频 | 国产精品一区亚洲一区天堂 | 亚洲天堂久久久 | 精品福利在线观看 | 亚洲国产一区二区a毛片日本 | 亚洲无吗视频 | 国产精品久久有声小说 | 日本精品人妻无码77777 | 午夜免费福利网站 | 亚洲三区在线观看无套内射 | 中文字幕日韩欧美一区二区三区 | 国产精品嫩草影院免费看 | 日韩在线播放中文字幕 | 99久久婷婷免费国产综合精品 | 天天综合天天综合 | a级日本乱理伦片免费入口 a级特黄毛片免费观看 | 最新亚洲人成无码网站 | 三级视频网站在线观看视频 | 国产99在线 | 欧美 | 亚洲精品综合五月久久小说 | 免费黑人真实处破女系列 | 青青青青青手机视频在线观看视频 | 国产精品美脚玉足脚交欧美 | 熟女俱乐部五十路二区av | 国产1区2区在线观看 | 日韩在线精品视频 | 日本欧美韩国一区二区三区 | 欧美成人网在线综合视频 | 日韩欧美精品在线 | 国产igao激情在线观看 | 日韩丰满少妇无码内射 | 国产精品无码素人福利 | 一边吃奶一边摸做爽视频 | 国模思思 | 国产好爽…又高潮了毛片 | 国产成人av综合亚洲色欲 |