时间:2021-05-18
一、SCWS简介
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。
这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点。
SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK、UTF-8 等。此外还提供了 PHP 扩展模块, 可在 PHP 中快速而方便地使用分词功能。
分词算法上并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名, 数字年代等规则识别来达到基本分词,经小范围测试准确率在 90% ~ 95% 之间, 基本上能满足一些小型搜索引擎、关键字提取等场合运用。首次雏形版本发布于 2005 年底。
SCWS 由 hightman 开发, 并以 BSD 许可协议开源发布,源码托管在 github。
二、scws安装
复制代码 代码如下:
# wget -c http:///scws/api.php,详细说明也在地址中。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
本文实例讲述了php利用scws实现mysql全文搜索功能的方法。分享给大家供大家参考。具体方法如下:scws这样的中文分词插件比较不错,简单的学习了一下,它包
本文实例讲述了php实现scws中文分词搜索的方法。分享给大家供大家参考,具体如下:1、4个文件(本站下载地址。)解压后,放到一个地方eg:E:/wamp/sc
本文实例讲述了php实现的中文分词类。分享给大家供大家参考,具体如下:该中文分词类源码使用http://tools.jb51.net/code/jb51_php
本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用
当然,本文不是要对中文搜索引擎做研究,而是分享如果用PHP做一个站内搜索引擎。本文是这个系统中的一篇。我使用的分词工具是中科院计算所的开源版本的ICTCLAS。