Skip to content

Releases: hankcs/HanLP

v1.7.6 最后的武士 The Last Samurai

01 Jan 00:19
Compare
Choose a tag to compare

接下来是一个全新的时代,我们的征途是星辰大海。此后1.x分支将继续提供稳定性维护,两个版本面向的场景不同,2.0基于深度学习,面向对精度要求极其高的场景,例如端到端的问答系统解决方案;而1.x基于传统机器学习和特征工程,面向搜索引擎等对速度要求较高的场景。2.0需要时间打磨,1.x将会持续维护,保证稳定性。

HanLP

  • 新增 DocVectorModel.nearest(java.lang.String, int) 方法 fix #1332
  • 词法分析器新增空格处理 fix #797
  • 修订现代汉语补充词库 fix #1330
  • NGramDictionaryMaker等默认UTF-8编码 fix #1320
  • WordVectorModel支持自定义Map类型:#1304
  • 修复信息熵计算中的除零错误 fix #1366
  • 修复Nature的线程安全性
  • tfidf,idf的数据可以通过加载idf文件得到
  • 开放 CoreStopWordDictionary.dictionary #1356
  • 修复加载自定义停用词文件无效
  • 兼容数据包data-for-1.7.5.zip分流网盘md5=1d9e1be4378b2dbc635858d9c3517aaa
  • Portable版同步升级到v1.7.6
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.6</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.7.5《自然语言处理入门》随书代码

17 Oct 02:20
Compare
Choose a tag to compare

img

一本零起点NLP入门书,基础理论与生产代码并重,Python与Java双实现。从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解,比较了它们的优缺点和适用场景,同时详细演示生产级成熟代码,助你真正将自然语言处理应用在生产环境中。《自然语言处理入门》由南方科技大学数学系创系主任夏志宏、微软亚洲研究院副院长周明、字节跳动人工智能实验室总监李航、华为诺亚方舟实验室语音语义首席科学家刘群、小米人工智能实验室主任兼NLP首席科学家王斌、中国科学院自动化研究所研究员宗成庆、清华大学副教授刘知远、北京理工大学副教授张华平和52nlp作序推荐。感谢各位前辈老师,希望这个项目和这本书能成为大家工程和学习上的“蝴蝶效应”,帮助大家在NLP之路上蜕变成蝶。

  • 论坛蝴蝶效应上线!限时开放注册,用于交流讨论HanLP使用方法和读者反馈,格式比GitHub自由
  • DocVectorModel支持自定义分词器、开/关停用词过滤器 fix #1253 (comment)
  • 将换行空格等视作CT_OTHER fix #1283
  • 修复repeated bisection聚类算法 fix #1260 (comment)
  • 让CoreStopWordDictionary.apply返回结果
  • 修复Analyzer的enableCustomDictionaryForcing方法 fix #1221
  • 新数据包data-for-1.7.5.zip分流 md5=1d9e1be4378b2dbc635858d9c3517aaa
  • Portable版同步升级到v1.7.5
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.5</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.7.4 与OpenCC完全一致的简繁转换

28 Jun 17:24
Compare
Choose a tag to compare
  • 无损转换OpenCC词典,结果一致 https://github.com/hankcs/OpenCC-to-HanLP fix #1184
  • 停用词典支持热更新:fix #1158
  • 修正URLTokenizer中的正则表达式 fix #1188
  • 修复自定义词性 fix #1172
  • 修正 CollectionUtility.sortMapByValue(java.util.Map<K,V>, boolean) fix #1159
  • 修订人名词典
  • 修正角色标注时“始##始”的A标签 fix #434
  • Add unit tests for com.hankcs.hanlp.utility.MathUtilityTest and com.hankcs.hanlp.algorithm.EditDistance
  • 微调bigram fix #1015
  • 新数据包data-for-1.7.4.zip海外网盘md5=0e2e1bfc4da6d9305909ce815cbe5a44
  • Portable版同步升级到v1.7.4
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.7.3常规维护

20 Apr 05:46
Compare
Choose a tag to compare
  • 感知机词法分析器默认使用98年人民日报6个月的大模型
  • 优化DoubleArrayTrie fix #1136
  • CRFNERecognizer支持在构造时传入自定义命名实体标签,新增addNERLabels方法 @zhangruinan
  • 防止ViterbiSegment.dat不必要的初始化
  • 修复词法分析器对动态插入的词条的处理 fix #271 (comment)
  • 词法分析器seg接口支持自定义词性覆盖统计词性 fix #1156
  • 修订拼音
  • 新数据包data-for-1.7.3.zip网盘md5=4e4f3695565a75b56427ba4a40731949
  • Portable版同步升级到v1.7.3
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.3</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.7.2新的句法分析模块、多项改进

22 Feb 00:54
Compare
Choose a tag to compare
  • 新增基于ArcEager转移系统的柱搜索依存句法分析器,废弃MaxEntDependencyParser
  • 调整繁體分詞策略 fix #1059
  • 修正卡方检验整型溢出的问题,准确率提升(95.47->96.08) fix #1075
  • 使LexicalAnalyzer支持TranslatedPersonRecognition和JapanesePersonRecognition fix #1080
  • 提示在线学习不可能学习新的标签
  • tokenizer的seg2sentence修改为static
  • 词法分析器默认关闭规则系统
  • 修正CustomDictionary.reload(); fix #1100
  • unigram、bigram微调
  • 新数据包data-for-1.7.2.zip网盘md5=2228732bae47b8dc8e410678af72847f
  • Portable版同步升级到v1.7.2
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.2</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.7.1高速缓存、动态词典

23 Dec 04:27
Compare
Choose a tag to compare
  • 新增可自定义用户词典的维特比分词器 @AnyListen
  • 利用BufferedOutputStream加速缓存生成,快37倍
  • 自定义词典兼容含有空格的路径 fix #1025
  • 增加isCustomNature方法
  • 使热更新产生的缓存文件包含用户词性 fix #1028
  • 修复可变DAT的entrySet方法 fix #1038
  • 微调ngram,简繁等
  • 新数据包data-for-1.7.1.zip MD5 = 9b8faa7fc7fddb24e27da27bd404126d
  • Portable版同步升级到v1.7.1
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.1</version>
        </dependency>

感谢所有在issue中提出宝贵建议的用户!

v1.7.0新增文本聚类、流水线分词

11 Nov 04:29
Compare
Choose a tag to compare
  • 🚩新增文本聚类模块(k-means和repeated bisection)
  • 🚩词法分析器新增流水线模式
  • 词法分析器加入规则 enableRuleBasedSegment #991
  • 支持通过JVM的启动参数指定data路径:java -DHANLP_ROOT=/opt/hanlp 则加载/opt/hanlp/data #983
  • 分词断句支持指定断句颗粒 #1018
  • CustomDictionary.insert("新词语", "词性标签") 支持省略频次
  • NeuralNetworkDependencyParser构造函数接受Segment
  • TextRankKeyword支持构造自任意分词器
  • 优化双数组trie树,构建后自动shrink到最低内存 #984
  • 修订简繁词典
  • 微调ngram和nr模型
  • 新数据包data-for-1.7.0.zip MD5 = 4c396f3039230ddfcef20865264512b1
  • Portable版同步升级到v1.7.0
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.0</version>
        </dependency>

🎉节日快乐!感谢所有在issue中提出宝贵建议的用户!

v1.6.8全世界最大的中文语料库

25 Aug 22:38
Compare
Choose a tag to compare
  • 新模型训练自一亿字的大型综合语料库,是目前全世界最大的中文分词语料库。语料规模决定实际效果,希望如此大规模的语料库能够引起大家对语料库建设工作的重视。欢迎使用NLPTokenizer.analyze接口或PerceptronLexicalAnalyzer体验这一改进。
  • 修复“改进人名UV拆分”造成的问题 fix #932
  • 文本分类的卡方检测失败时不过滤特征 fix #920
  • 废弃HMMSegment
  • 修订简繁词典
  • 新数据包data-for-1.6.8.zip md5=0eae09571f080bd99b81f79bee6c6b62
  • Portable版同步升级到v1.6.8
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.8</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.6.7模型默认训练自微软研究院语料库修订版

13 Aug 17:14
Compare
Choose a tag to compare
  • 默认感知机分词模型训练自 MSRA Named Entity Corpus
  • 词法分析器在低优先级用户词典模式下合并统计分词结果,高优先级模式则最长匹配
  • 词法分析器用户词典覆盖词性标注器的结果:#525
  • 改进人名UV拆分 fix #880
  • 修复 MaxEntDependencyParser fix #914
  • 新增TF和TF-IDF统计与关键词提取工具
  • word2vec适配IOAdapter与集群 fix #903
  • HanLP.extractWords增加更多参数
  • 新增NERTrainer.tagSet成员,方便Python用户
  • Sentence新增更多语料操作接口
  • LinearModel显示压缩进度
  • 微调人名、bigram等模型
  • 修订简繁词典,根据国家统计局2016行政区划数据校订地名词典
  • 新数据包data-for-1.6.7.zip md5=4da338b7bcf3939a70b8cc16ed338c45
  • Portable版同步升级到v1.6.7
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.7</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!

v1.6.6解码快10倍的CRF词法分析器

02 Jul 09:45
Compare
Choose a tag to compare
  • CRF模型重构为对数线性模型,复用感知机框架的维特比解码算法,速度提高10倍
    speed
  • 正式废弃CRFSegment,删除CRFSegmentModel.txt.bin
  • 句法分析器默认使用NLPTokenizer
  • 修复新Nature框架下角色标注机构名识别问题:#870
  • 新旧模型不兼容,请下载新数据包data-for-1.6.6.zip md5=aea7194670d89f920d59a592568c88ad
  • Portable版同步升级到v1.6.6
        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.6</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户!