[前言]
词性标注器 (POS Tagger) 是一种软件,可以读取某种语言的文本并将词性分配给每个单词(和其他标记),例如名词、动词、形容词等,来源于斯坦福大学预言研究组,且研究多年
[语言]
PHP/JAVA/Python/C#等
[环境]
该系统需要安装 Java 8+。根据您运行的是 32 位还是 64 位 Java 以及标记器模型的复杂性,您将需要 60 到 200 MB 的内存来运行经过训练的标记器(即,您可能需要为 Java 提供一个选项,例如java -mx200m) . 训练标注器需要大量内存。这又取决于模型的复杂性,但通常至少需要 1GB,通常更多。
[官网]
https://nlp.stanford.edu/software/tagger.shtml#Download
[示例]
这里以PHP版本为例:
输出结果:
[仓库]
官方仓库
https://github.com/patrickschur/stanford-nlp-tagger
个人demo-PHP版本
https://github.com/huyouqiang/stanford-nlp-tagger-php