学无先后达者为师!
不忘初心,砥砺前行。

路遥工具箱新增自然语言处理功能

路遥工具箱今天迎来农历虎年(壬寅年)中第一次版本更新。本次更新除了对应用程序包进行常规升级之外,新增了“自然语言处理”频道。自然语言处理频道目前包含两个功能:中文分词和关键字提取。

中文分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。

路遥工具箱作为一款为离线场景打造的工具,绝大部分功能在客户端完成。路遥工具箱使用 jieba.NET 作为分词组件,整合了:精确分词、全量分词和搜索分词三个功能。

  1. 精确分词:试图将句子最精确地切开,适合文本分析
  2. 全量分词:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义。具体来说,分词过程不会借助于词频查找最大概率路径,亦不会使用HMM;
  3. 搜索分词:搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词

关键字提取

关键字提取是从文本文档中检索关键字或关键短语。 这些关键词从文本文档的短语中选择出来的并且表征了文档的主题。

路遥工具箱提供的关键字提取功能同样基于 jieba.NET 实现,底层采用了 TF-IDF 算法。在输入文本内容并点击“提取关键词”按钮后,工具箱会将提取到的关键词按权重从高到低展示出来。

路遥工具箱下载

路遥工具箱下载地址:https://www.coderbusy.com/luyao-toolkit

赞(1) 打赏
未经允许不得转载:码农很忙 » 路遥工具箱新增自然语言处理功能

评论 抢沙发

给作者买杯咖啡

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册