Releases · hankcs/HanLP

01 Jan 00:19

hankcs

v1.7.6

78769d8

接下来是一个全新的时代，我们的征途是星辰大海。此后1.x分支将继续提供稳定性维护，两个版本面向的场景不同，2.0基于深度学习，面向对精度要求极其高的场景，例如端到端的问答系统解决方案；而1.x基于传统机器学习和特征工程，面向搜索引擎等对速度要求较高的场景。2.0需要时间打磨，1.x将会持续维护，保证稳定性。

新增 DocVectorModel.nearest(java.lang.String, int) 方法 fix #1332
词法分析器新增空格处理 fix #797
修订现代汉语补充词库 fix #1330
NGramDictionaryMaker等默认UTF-8编码 fix #1320
WordVectorModel支持自定义Map类型：#1304
修复信息熵计算中的除零错误 fix #1366
修复Nature的线程安全性
tfidf，idf的数据可以通过加载idf文件得到
开放 CoreStopWordDictionary.dictionary #1356
修复加载自定义停用词文件无效
兼容数据包data-for-1.7.5.zip 或分流或网盘md5=1d9e1be4378b2dbc635858d9c3517aaa
Portable版同步升级到v1.7.6

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.6</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

17 Oct 02:20

hankcs

v1.7.5

422077b

v1.7.5《自然语言处理入门》随书代码

《自然语言处理入门》新书发布，欢迎查阅随书代码

一本零起点NLP入门书，基础理论与生产代码并重，Python与Java双实现。从基本概念出发，逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解，比较了它们的优缺点和适用场景，同时详细演示生产级成熟代码，助你真正将自然语言处理应用在生产环境中。《自然语言处理入门》由南方科技大学数学系创系主任夏志宏、微软亚洲研究院副院长周明、字节跳动人工智能实验室总监李航、华为诺亚方舟实验室语音语义首席科学家刘群、小米人工智能实验室主任兼NLP首席科学家王斌、中国科学院自动化研究所研究员宗成庆、清华大学副教授刘知远、北京理工大学副教授张华平和52nlp作序推荐。感谢各位前辈老师，希望这个项目和这本书能成为大家工程和学习上的“蝴蝶效应”，帮助大家在NLP之路上蜕变成蝶。

论坛蝴蝶效应上线！限时开放注册，用于交流讨论HanLP使用方法和读者反馈，格式比GitHub自由
DocVectorModel支持自定义分词器、开/关停用词过滤器 fix #1253 (comment)
将换行空格等视作CT_OTHER fix #1283
修复repeated bisection聚类算法 fix #1260 (comment)
让CoreStopWordDictionary.apply返回结果
修复Analyzer的enableCustomDictionaryForcing方法 fix #1221
新数据包data-for-1.7.5.zip 或分流 md5=1d9e1be4378b2dbc635858d9c3517aaa
Portable版同步升级到v1.7.5

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.5</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 4

28 Jun 17:24

hankcs

v1.7.4

590af00

v1.7.4 与OpenCC完全一致的简繁转换

无损转换OpenCC词典，结果一致 https://github.com/hankcs/OpenCC-to-HanLP fix #1184
停用词典支持热更新：fix #1158
修正URLTokenizer中的正则表达式 fix #1188
修复自定义词性 fix #1172
修正 CollectionUtility.sortMapByValue(java.util.Map<K,V>, boolean) fix #1159
修订人名词典
修正角色标注时“始##始”的A标签 fix #434
Add unit tests for com.hankcs.hanlp.utility.MathUtilityTest and com.hankcs.hanlp.algorithm.EditDistance
微调bigram fix #1015
新数据包data-for-1.7.4.zip 或海外或网盘md5=0e2e1bfc4da6d9305909ce815cbe5a44
Portable版同步升级到v1.7.4

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.4</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 4

20 Apr 05:46

hankcs

v1.7.3

b6e19fe

v1.7.3常规维护

感知机词法分析器默认使用98年人民日报6个月的大模型
优化DoubleArrayTrie fix #1136
CRFNERecognizer支持在构造时传入自定义命名实体标签，新增addNERLabels方法 @zhangruinan
防止ViterbiSegment.dat不必要的初始化
修复词法分析器对动态插入的词条的处理 fix #271 (comment)
词法分析器seg接口支持自定义词性覆盖统计词性 fix #1156
修订拼音
新数据包data-for-1.7.3.zip 或网盘md5=4e4f3695565a75b56427ba4a40731949
Portable版同步升级到v1.7.3

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.3</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

22 Feb 00:54

hankcs

v1.7.2

e601bc6

v1.7.2新的句法分析模块、多项改进

新增基于ArcEager转移系统的柱搜索依存句法分析器，废弃MaxEntDependencyParser
调整繁體分詞策略 fix #1059
修正卡方检验整型溢出的问题，准确率提升（95.47->96.08） fix #1075
使LexicalAnalyzer支持TranslatedPersonRecognition和JapanesePersonRecognition fix #1080
提示在线学习不可能学习新的标签
tokenizer的seg2sentence修改为static
词法分析器默认关闭规则系统
修正CustomDictionary.reload(); fix #1100
unigram、bigram微调
新数据包data-for-1.7.2.zip 或网盘md5=2228732bae47b8dc8e410678af72847f
Portable版同步升级到v1.7.2

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.2</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

23 Dec 04:27

hankcs

v1.7.1

3da7c41

v1.7.1高速缓存、动态词典

新增可自定义用户词典的维特比分词器 @AnyListen
利用BufferedOutputStream加速缓存生成，快37倍
自定义词典兼容含有空格的路径 fix #1025
增加isCustomNature方法
使热更新产生的缓存文件包含用户词性 fix #1028
修复可变DAT的entrySet方法 fix #1038
微调ngram，简繁等
新数据包data-for-1.7.1.zip MD5 = 9b8faa7fc7fddb24e27da27bd404126d
Portable版同步升级到v1.7.1

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.1</version>
        </dependency>

感谢所有在issue中提出宝贵建议的用户！

Assets 3

11 Nov 04:29

hankcs

v1.7.0

49ffc9d

v1.7.0新增文本聚类、流水线分词

🚩新增文本聚类模块（k-means和repeated bisection）
🚩词法分析器新增流水线模式
词法分析器加入规则 enableRuleBasedSegment #991
支持通过JVM的启动参数指定data路径：java -DHANLP_ROOT=/opt/hanlp 则加载/opt/hanlp/data #983
分词断句支持指定断句颗粒 #1018
CustomDictionary.insert("新词语", "词性标签") 支持省略频次
NeuralNetworkDependencyParser构造函数接受Segment
TextRankKeyword支持构造自任意分词器
优化双数组trie树，构建后自动shrink到最低内存 #984
修订简繁词典
微调ngram和nr模型
新数据包data-for-1.7.0.zip MD5 = 4c396f3039230ddfcef20865264512b1
Portable版同步升级到v1.7.0

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.7.0</version>
        </dependency>

🎉节日快乐！感谢所有在issue中提出宝贵建议的用户！

Assets 3

25 Aug 22:38

hankcs

v1.6.8

2a071ec

v1.6.8全世界最大的中文语料库

新模型训练自一亿字的大型综合语料库，是目前全世界最大的中文分词语料库。语料规模决定实际效果，希望如此大规模的语料库能够引起大家对语料库建设工作的重视。欢迎使用NLPTokenizer.analyze接口或PerceptronLexicalAnalyzer体验这一改进。
修复“改进人名UV拆分”造成的问题 fix #932
文本分类的卡方检测失败时不过滤特征 fix #920
废弃HMMSegment
修订简繁词典
新数据包data-for-1.6.8.zip md5=0eae09571f080bd99b81f79bee6c6b62
Portable版同步升级到v1.6.8

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.8</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

13 Aug 17:14

hankcs

v1.6.7

6937571

v1.6.7模型默认训练自微软研究院语料库修订版

默认感知机分词模型训练自 MSRA Named Entity Corpus
词法分析器在低优先级用户词典模式下合并统计分词结果，高优先级模式则最长匹配
词法分析器用户词典覆盖词性标注器的结果:#525
改进人名UV拆分 fix #880
修复 MaxEntDependencyParser fix #914
新增TF和TF-IDF统计与关键词提取工具
word2vec适配IOAdapter与集群 fix #903
HanLP.extractWords增加更多参数
新增NERTrainer.tagSet成员，方便Python用户
Sentence新增更多语料操作接口
LinearModel显示压缩进度
微调人名、bigram等模型
修订简繁词典，根据国家统计局2016行政区划数据校订地名词典
新数据包data-for-1.6.7.zip md5=4da338b7bcf3939a70b8cc16ed338c45
Portable版同步升级到v1.6.7

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.7</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

02 Jul 09:45

hankcs

v1.6.6

7c11c72

v1.6.6解码快10倍的CRF词法分析器

CRF模型重构为对数线性模型，复用感知机框架的维特比解码算法，速度提高10倍
正式废弃CRFSegment，删除CRFSegmentModel.txt.bin
句法分析器默认使用NLPTokenizer
修复新Nature框架下角色标注机构名识别问题：#870
新旧模型不兼容，请下载新数据包data-for-1.6.6.zip md5=aea7194670d89f920d59a592568c88ad
Portable版同步升级到v1.6.6

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.6.6</version>
        </dependency>

🎉感谢所有在issue中提出宝贵建议的用户！

Assets 3

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: hankcs/HanLP

v1.7.6 最后的武士 The Last Samurai

v1.7.5《自然语言处理入门》随书代码

v1.7.4 与OpenCC完全一致的简繁转换

v1.7.3常规维护

v1.7.2新的句法分析模块、多项改进

v1.7.1高速缓存、动态词典

v1.7.0新增文本聚类、流水线分词

v1.6.8全世界最大的中文语料库

v1.6.7模型默认训练自微软研究院语料库修订版

v1.6.6解码快10倍的CRF词法分析器