基于深度学习的中文分词尝试

最近折腾deeplearning和NLP比较多，其实就是在看Stanford的cs224d课程啦。抽空尝试了一下使用词向量和神经网络做中文分词。

使用的数据是参考资料中的中文分词资源，即Bakeoff中微软研究院的中文语料库，它的训练文本带有每个字的标注（BEMS），同时带有测试文本和测试脚本。此外使用了补充的语料库，即sogou新闻语料库，不带字标注，但可用来学习字向量。

使用的工具是python中的gensim库和keras库，gensim可用于学习词向量，keras是基于theano的深度学习库。在本例中只使用了普通的MLP方法。

整体工作的步骤如下：
- 步骤1：使用sogou的语料库建立初始的字向量，向量维度为100，迭代50次。
- 步骤2：读入有标注的训练语料库，处理成keras需要的数据格式。
- 步骤3：根据训练数据建模，使用左右各3个字做为上下文，7*100个神经元为输入层，隐藏层为100，输出层为4，神经网络结构为[700->100->4]，总共进行了约50次迭代。
- 步骤4：读入无标注的测试语料库，用训练得到的神经网络进行分词标注
- 步骤5：使用自动脚本检查最终的效果

最终测试脚本输出的summary如下，F值为0.913。
=== SUMMARY:
=== TOTAL INSERTIONS:2872
=== TOTAL DELETIONS:2896
=== TOTAL SUBSTITUTIONS:6444
=== TOTAL NCHANGE:12212
=== TOTAL TRUE WORD COUNT:106873
=== TOTAL TEST WORD COUNT:106849
=== TOTAL TRUE WORDS RECALL:0.913
=== TOTAL TEST WORDS PRECISION:0.913
=== F MEASURE:0.913
=== OOV Rate:0.026
=== OOV Recall Rate:0.673
=== IV Recall Rate:0.919

具体代码可以参见github

后续折腾畅想：
- 本例中带标注的语料库相当大，可以直接在这个上面先训练字向量试试。
- 有空时还可以测试下jieba分词的效果评估。
- 用RNN等其它的方法试试效果。

参考资料:
[中文分词资源]
[中文分词标注法]
[word2vec原理]
[基于word2vec的中文分词]

基于深度学习的中文分词尝试

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本