时间:2021-05-23
1. 前言
中文分词≠自然语言处理!
Hanlp
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁
中文分词只是第一步;HanLP从中文分词开始,覆盖词性标注、命名实体识别、句法分析、文本分类等常用任务,提供了丰富的API。
不同于一些简陋的分词类库,HanLP精心优化了内部数据结构和IO接口,做到了毫秒级的冷启动、千万字符每秒的处理速度,而内存最低仅需120MB。无论是移动设备还是大型集群,都能获得良好的体验。
不同于市面上的商业工具,HanLP提供训练模块,可以在用户的语料上训练模型并替换默认模型,以适应不同的领域。项目主页上提供了详细的文档,以及在一些开源语料上训练的模型。
HanLP希望兼顾学术界的精准与工业界的效率,在两者之间取一个平衡,真正将自然语言处理普及到生产环境中去。
我们使用的pyhanlp是用python包装了HanLp的java接口。
2. pyhanlp的安装和使用
2.1 python下安装pyhanlp
pip安装
sudo pip3 install pyhanlp第一次import pyhanlp会下载一个比较大的数据集,需要耐心等待下,后面再import就不会有了。
from pyhanlp import *详情请见pyhanlp官方文档
2.2 pyhanlp简单使用方法
分词使用
from pyhanlp import *print(HanLP.segment("今天开心了吗?"))>>> [今天/t, 开心/a, 了/ule, 吗/y, ?/w]依存分析使用
from pyhanlp import *print(HanLP.parseDependency("今天开心了吗?"))>>> 1 今天 今天 nt t _ 2 状中结构 _ _>>> 2 开心 开心 a a _ 0 核心关系 _ _>>> 3 了 了 e y _ 2 右附加关系 _ _>>> 4 吗 吗 e y _ 2 右附加关系 _ _>>> 5 ? ? wp w _ 2 标点符号 _ _2.3 pyhanlp可视化
如果大家看不太清楚上面的输出,pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务
hanlp serve登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果,是不是很直观。这个网页上还有安装说明、源码链接、文档链接、常见的问题(FAQ)。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
上文简单介绍了有关SharePoint的安装,配置等内容的介绍。此文我们继续SharePoint之旅,通过SharePoint创建网站。创建网站来到熟悉的应用程
今天小编给大家介绍3种win8快捷方式创建方法,非常的简单,有图为证!1、找到安装应用程序的安装路径,然后直接将应用程序的图标右击选择发送桌面快捷方式。2、桌面
一、摘要该文主要介绍了如何在虚拟机上安装ubuntu,和安装VMWareTools设置共享文件夹,最后对ubuntu做了简单的介绍。二、实验平台1、VMware
简单基础的定制android系统,使第一次开机就安装系统应用和预装应用,加载服务工具和其它文件,开机启动画面,设置默认输入法、屏幕亮度等等。如何简单的定制and
硬盘安装Windows7的方法,简单介绍如下:BIOS中选择光驱启动,进入Vista安装界面bootmgr和boot目录(其实只要里面的boot.sdi和bcd