小胡博客-斯坦福大学多语言词性标注器

正文

斯坦福大学多语言词性标注器

xiaohu
23/04/08
0
1.2k

php java stanford postagger

[前言]

词性标注器 (POS Tagger) 是一种软件，可以读取某种语言的文本并将词性分配给每个单词（和其他标记），例如名词、动词、形容词等，来源于斯坦福大学预言研究组，且研究多年

[语言]

PHP/JAVA/Python/C#等

截屏2023-04-08 00.03.34-tuya.png

[环境]

该系统需要安装 Java 8+。根据您运行的是 32 位还是 64 位 Java 以及标记器模型的复杂性，您将需要 60 到 200 MB 的内存来运行经过训练的标记器（即，您可能需要为 Java 提供一个选项，例如java -mx200m） . 训练标注器需要大量内存。这又取决于模型的复杂性，但通常至少需要 1GB，通常更多。

[官网]

https://nlp.stanford.edu/software/tagger.shtml#Download

[示例]

这里以PHP版本为例：

截屏2023-04-08 00.12.53.png