Skip to content

Latest commit

 

History

History
 
 

examples

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

PaddleNLP 范例

在本目录(https://github.com/PaddlePaddle/PaddleNLP )下,包含了一些范例。涵盖了大多数常见NLP任务,是入门NLP和PaddleNLP的学习资料,也可以作为工作中上手NLP的基线参考实现。

PaddleNLP的例子清单

目录 主题 简要说明
benchmark/glue GLUE Benchmark GLUE是当今使用最为普遍的自然语言理解评测基准数据集,评测数据涵盖新闻、电影、百科等许多领域,其中有简单的句子,也有困难的句子。本项目是 GLUE评测任务 在 Paddle 2.0上的开源实现
dialogue 该目录下涵盖了多个对话系统相关的例子 如dgu 对话通用理解模型, LIC 2021对话比赛基线, PLATO-2 开放域机器人 UnifiedTransformer 适合对话生成任务的Transfer网络。
few_shot 小样本学习 提供简单易用、全面、前沿的 FSL 策略库,如P-tuning,EFL等。
information_extraction 信息抽取 提供了多个数据集上的信息抽取基线实现。包含快递单信息抽取, MSRA-NER 数据集命名实体识别,LIC2021 DuIE 关系抽取基线,LIC2021 DuEE 事件抽取基线
language_model 语言模型 提供了多个语言模型的PaddleNLP实现。如bert, bigbird, electra,elmo, gpt等等。也提供了支持语言模型在垂直了类领域数据上继续训练的工具包。
lexical_analysis 词法分析 词法分析任务的输入是一个句子,而输出是句子中的词边界和词性、实体类别。这个例子基于双向GRU和CRF实现
machine_reading_comprehension 机器阅读理解 提供了多个机器阅读理解数据集, 如SQuAD,DuReader以及它们对应的实现。
machine_translation 机器翻译 提供了一个带Attention机制的,基于LSTM的多层RNN Seq2Seq翻译模型,以及一个基于Transformer的翻译模型
model_compression 模型压缩 提供了一些大模型压缩,知识蒸馏的工具包。比如将Bert蒸馏到双向LSTM,对Bert网络进行压缩和蒸馏等。
semantic_indexing 语义索引 语义索引技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一,语义索引库提供了前沿语义索引策略的训练、语义索引模型的效果评估方案、支持用户基于我们开源的语义索引模型进行文本 Pair 的相似度计算或者 Embedding 语义表示抽取。
sentiment_analysis/skep/ 情感分析 情感预训练模型SKEP。
simultaneous_translation/stacl/ 同声传译 基于机器翻译领域主流模型 Transformer网络结构的同传模型STACL的PaddlePaddle 实现,包含模型训练,预测以及使用自定义数据等内容
text_classification 文本分类 该项目示例使用PaddleNLP如何完成文本分类任务。该项目展示了使用传统的Recurrent Neural Networks 和 预训练模型Pretrained Models两种方法完成文本分类任务。
text_generation 文本生成 包含ERNIE-Gen面向生成任务的预训练+微调模型框架,以及一个使用传统Seq2Seq模型的对对联应用,以及文本的基于变分自动编码器的生成模型
text_graph/erniesage 文本图模型 基于PaddleNLP的ErnieSage模型,可以同时建模文本语义与图结构信息。
text_matching 文本匹配 提供了多个不同算法的文本匹配算法实现。可以应用于搜索,推荐系统排序,召回等场景。
text_summarization/pointer_summarizer 文本摘要 提供了一个基于指针生成网络的文本摘要算法实现。
text_to_knowledge 语言模型 是百度解语的开源。解语(Text to Knowledge)是首个覆盖中文全词类的知识库(百科知识树)及知识标注框架,拥有可描述所有中文词汇的词类体系、中文知识标注工具集,以及更适用于中文挖掘任务的预训练语言模型
text_to_sql 表格问答 / Text2SQL 提供了两个Text2SQL的例子实现。其中一个是IGSQL模型, 一个是RAT-SQL模型
time_series/tcn 时间序列预测 一个使用时间卷积网络TCN进行预测的例子
word_embedding 词向量模型 提供了一个利用领域数据集提升词向量效果的例子。这个例子利用ChnSentiCorp数据集提升了预置词向量在分类任务上的准确性。