正文

斯坦福大学多语言词性标注器


1680884629128510.png

[前言]

词性标注器 (POS Tagger) 是一种软件,可以读取某种语言的文本并将词性分配给每个单词(和其他标记),例如名词、动词、形容词等,来源于斯坦福大学预言研究组,且研究多年

[语言]

PHP/JAVA/Python/C#等

截屏2023-04-08 00.03.34-tuya.png

[环境]

该系统需要安装 Java 8+。根据您运行的是 32 位还是 64 位 Java 以及标记器模型的复杂性,您将需要 60 到 200 MB 的内存来运行经过训练的标记器(即,您可能需要为 Java 提供一个选项,例如java -mx200m) . 训练标注器需要大量内存。这又取决于模型的复杂性,但通常至少需要 1GB,通常更多。

[官网]

https://nlp.stanford.edu/software/tagger.shtml#Download

[示例]

这里以PHP版本为例:

截屏2023-04-08 00.12.53.png

输出结果:

截屏2023-04-08 00.13.57.png

[仓库]

官方仓库

https://github.com/patrickschur/stanford-nlp-tagger

个人demo-PHP版本

https://github.com/huyouqiang/stanford-nlp-tagger-php

评论
还没有评论
留言