Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

繁转简错误比较多 #1184

Closed
1 task done
tiandiweizun opened this issue May 27, 2019 · 3 comments
Closed
1 task done

繁转简错误比较多 #1184

tiandiweizun opened this issue May 27, 2019 · 3 comments

Comments

@tiandiweizun
Copy link

tiandiweizun commented May 27, 2019

注意事项

请确认下列注意事项:

  • 我已仔细阅读下列文档,都没有找到答案:
  • 我已经通过Googleissue区检索功能搜索了我的问题,也没有找到答案。
  • 我明白开源社区是出于兴趣爱好聚集起来的自由社区,不承担任何责任或义务。我会礼貌发言,向每一个帮助我的人表示感谢。
  • 我在此括号内输入x打钩,代表上述事项确认完毕。

版本号

当前最新版本号是:1.7.3
我使用的版本是:1.7.3

我的问题

对于国际化业务,query里面会有简体、繁体、英文、日语等情况,繁转简错误比较多。

测试方法

拿了约2g的百科语料,对比了opencc和hanlp的繁转简结果,第一列为语料,由于语料比较长,窃取了以diff为中心的前后10个字,第二列为opencc结果,第三列为hanlp结果。

原始句子(【】内部为diff内容) opencc hanlp
,斟酒的人翻过大金斗【猛】击代君,一下就砸死
校及科研单位挂钩,并【建】立了长期的协作关系
寇夫人 他自拣一搭金【堦】死。”亦省作“ ⁤
综合兼容性   二、【大】众娱乐性   三、
合兼容性   二、大【众】娱乐性   三、互
进行有效的传播控制和【整】合管理。2007年
行有效的传播控制和整【合】管理。2007年,
有物饮碧水,高林挂青【蜺】。”","ts":
西安市莲湖城内,共计【房】屋231户。","
;行程万里的“世界屋【脊】汽车挑战赛”等成功
成“全国性”、“全程【式】”的技术创新公共服

更多diff参见文件 diff.txt,以tab键分隔,很多由于原始query与繁转简后句子长度不一致,可能会出现【】在非转换字的上。

@hankcs
Copy link
Owner

hankcs commented May 27, 2019

感谢反馈,HanLP的词库来源是OpenCC。然而合并了异体字等词库,是导致结果不一致的原因。近期会改正这个问题。

@hankcs
Copy link
Owner

hankcs commented Jun 28, 2019

感谢反馈,已经修复,请参考上面的commit。
如果还有问题,欢迎重开issue。

@tiandiweizun
Copy link
Author

厉害,我又新添加了2G的语料,在4G的百度百科上和opencc完全一致。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants