add how to do kie #7201

littletomatodonkey · 2022-08-15T06:45:36Z

att

paddle-bot · 2022-08-15T06:45:43Z

Thanks for your contribution!

MissPenguin · 2022-08-15T07:10:01Z

ppstructure/vqa/how_to_do_kie.md

+
+### 1.1 背景
+
+关键信息抽取 (Key Information Extraction, KIE)指的是是从文本或者图像中，抽取出关键的信息。针对文档图像的关键信息抽取任务作为OCR的下游任务，存在非常多的实际应用场景，如表单识别、车票信息抽取、身份证信息抽取等。然而，使用人力来从这些文档中提取或者收集关键信息耗时费力。文档图像包含视觉、布局、文字等特征，怎样使用计算机将上述特征有效融合并完成关键信息抽取是一个很有挑战的问题。


最后一句可改为：然而，使用人力从这些文档图像中提取或者收集关键信息耗时费力，怎样自动化融合图像中的视觉、布局、文字等特征并完成关键信息抽取是一个价值与挑战并存的问题。

MissPenguin · 2022-08-15T07:11:00Z

ppstructure/vqa/how_to_do_kie.md

+
+关键信息抽取 (Key Information Extraction, KIE)指的是是从文本或者图像中，抽取出关键的信息。针对文档图像的关键信息抽取任务作为OCR的下游任务，存在非常多的实际应用场景，如表单识别、车票信息抽取、身份证信息抽取等。然而，使用人力来从这些文档中提取或者收集关键信息耗时费力。文档图像包含视觉、布局、文字等特征，怎样使用计算机将上述特征有效融合并完成关键信息抽取是一个很有挑战的问题。
+
+对于特定场景的文档图像，其中的关键信息位置、版式等较为固定，因此在研究早期有很多基于模板匹配的方法进行关键信息的抽取，考虑到其流程较为简单，该方法仍然被广泛应用在目前的很多场景中。


这段感觉没写完，后面应该接上传统方法的缺陷是什么，为什么要发展基于深度学习的KIE技术。

已经补充，多谢

MissPenguin · 2022-08-15T07:13:42Z

ppstructure/vqa/how_to_do_kie.md

+### 1.2 主流方法
+
+一般的KIE方法基于命名实体识别(Named Entity Recognition,NER)来展开研究，但是此类方法仅使用了文本信息而忽略了位置与视觉特征信息，因此精度受限。近几年大多学者开始融合多个模态的输入信息，进行特征融合，并对多模态信息进行处理，从而提升KIE的精度。主要方法有以下几种
+


下面的1234太抽象了，至少加几篇代表性论文的引用。

已补充，该部分内容主要是前沿算法介绍，这里做了下简介，更多内容引入动手学ocr电子书了

MissPenguin · 2022-08-15T07:15:36Z

ppstructure/vqa/how_to_do_kie.md

+</div>
+
+
+### 1.2 主流方法


基于深度学习的主流方法？

MissPenguin · 2022-08-15T07:20:52Z

ppstructure/vqa/how_to_do_kie.md

+
+## 2. 关键信息抽取任务流程
+
+PaddleOCR中实现了LayoutXLM等算法（基于Token），同时，在PP-Structurev2中，对LayoutXLM多模态预训练模型进行优化，设计了视觉无关的VI-LayoutXLM模型，在精度基本无损的情况下进一步提升模型的推理速度。


“多模态预训练模型进行优化”表述是否准确？应该是对网络结构进行优化？

“精度基本无损”是因为这里只考虑vi这个策略吗，排序优化等其他策略整体介绍一下吧，最终应该是精度和推理速度都提升。

fixed, thx

是的，关于其他策略与结论已补充

MissPenguin · 2022-08-15T07:36:56Z

ppstructure/vqa/how_to_do_kie.md

+
+在数据标注时，关键信息的标注需要隔开，比上图中的 “民族汉” 3个字相隔较近，此时需要将”民族“与”汉“标注为2个文本检测框，否则会增加后续KIE任务的难度。
+
+对于下游任务，一般来说，`200~300`张的文本训练数据即可保证基本的训练效果，如果没有太多的先验知识，可以先标注**`200~300`**张图片，进行后续文本检测模型的训练。


200～300 格式显示有点问题

MissPenguin · 2022-08-15T07:38:50Z

ppstructure/vqa/how_to_do_kie.md

+
+然而，在部分文档场景中也会存在一些挑战，如身份证场景中存在着罕见字，在发票等场景中的字体比较特殊，这些问题都会增加文本识别的难度，此时如果希望保证或者进一步提升模型的精度，建议基于特定文档场景的文本识别数据集，加载PP-OCRv3模型进行微调。
+
+在模型微调的过程中，建议准备至少`5000`张垂类场景的文本识别图像，可以保证基本的模型微调效果。如果希望提升模型的精度与泛化能力，可以合成更多与该场景类似的文本识别数据，从公开数据集中收集通用真实文本识别数据，一并添加到该场景的文本识别训练任务过程中。在训练过程中，建议每个epoch的真实垂类数据、合成数据、通用数据比例在`1:1:1`左右，这可以通过设置不同数据源的采样比例进行控制。


可以加个数据比例参数的链接

添加了使用说明，多谢

MissPenguin · 2022-08-15T07:41:21Z

ppstructure/vqa/how_to_do_kie.md

+
+（1）直接使用SER，获取关键信息的类别：如身份证场景中，将“姓名“与”张三“分别标记为`name_key`与`name_value`。最终识别得到的类别为`name_value`对应的**文本字段**即为我们所需要的关键信息。
+
+（2）联合SER与RE进行使用：这种方法中，首先使用SER，获取图像文字内容中所有的key与value，然后使用RE方法，对所有的key与value进行配对，找到映射关系，从而完成关键信息的抽取。如身份证场景中，首先


段尾多了半句

add how to do kie

3f503dc

littletomatodonkey added 2 commits August 15, 2022 06:47

fix title

1e396cb

fix typo

8de8dd6

MissPenguin reviewed Aug 15, 2022

View reviewed changes

littletomatodonkey added 2 commits August 15, 2022 08:37

fix doc by reviewer

72db5fd

fix doc

469e332

MissPenguin approved these changes Aug 15, 2022

View reviewed changes

littletomatodonkey merged commit 2c1afec into PaddlePaddle:dygraph Aug 15, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add how to do kie #7201

add how to do kie #7201

littletomatodonkey commented Aug 15, 2022

paddle-bot bot commented Aug 15, 2022

MissPenguin Aug 15, 2022

littletomatodonkey Aug 15, 2022

MissPenguin Aug 15, 2022

littletomatodonkey Aug 15, 2022

MissPenguin Aug 15, 2022

littletomatodonkey Aug 15, 2022

MissPenguin Aug 15, 2022

littletomatodonkey Aug 15, 2022

MissPenguin Aug 15, 2022

littletomatodonkey Aug 15, 2022

MissPenguin Aug 15, 2022

littletomatodonkey Aug 15, 2022

MissPenguin Aug 15, 2022

littletomatodonkey Aug 15, 2022

MissPenguin Aug 15, 2022

littletomatodonkey Aug 15, 2022


		### 1.1 背景

		关键信息抽取 (Key Information Extraction, KIE)指的是是从文本或者图像中，抽取出关键的信息。针对文档图像的关键信息抽取任务作为OCR的下游任务，存在非常多的实际应用场景，如表单识别、车票信息抽取、身份证信息抽取等。然而，使用人力来从这些文档中提取或者收集关键信息耗时费力。文档图像包含视觉、布局、文字等特征，怎样使用计算机将上述特征有效融合并完成关键信息抽取是一个很有挑战的问题。


		关键信息抽取 (Key Information Extraction, KIE)指的是是从文本或者图像中，抽取出关键的信息。针对文档图像的关键信息抽取任务作为OCR的下游任务，存在非常多的实际应用场景，如表单识别、车票信息抽取、身份证信息抽取等。然而，使用人力来从这些文档中提取或者收集关键信息耗时费力。文档图像包含视觉、布局、文字等特征，怎样使用计算机将上述特征有效融合并完成关键信息抽取是一个很有挑战的问题。

		对于特定场景的文档图像，其中的关键信息位置、版式等较为固定，因此在研究早期有很多基于模板匹配的方法进行关键信息的抽取，考虑到其流程较为简单，该方法仍然被广泛应用在目前的很多场景中。

		### 1.2 主流方法

		一般的KIE方法基于命名实体识别(Named Entity Recognition,NER)来展开研究，但是此类方法仅使用了文本信息而忽略了位置与视觉特征信息，因此精度受限。近几年大多学者开始融合多个模态的输入信息，进行特征融合，并对多模态信息进行处理，从而提升KIE的精度。主要方法有以下几种


		## 2. 关键信息抽取任务流程

		PaddleOCR中实现了LayoutXLM等算法（基于Token），同时，在PP-Structurev2中，对LayoutXLM多模态预训练模型进行优化，设计了视觉无关的VI-LayoutXLM模型，在精度基本无损的情况下进一步提升模型的推理速度。


		在数据标注时，关键信息的标注需要隔开，比上图中的 “民族汉” 3个字相隔较近，此时需要将”民族“与”汉“标注为2个文本检测框，否则会增加后续KIE任务的难度。

		对于下游任务，一般来说，`200~300`张的文本训练数据即可保证基本的训练效果，如果没有太多的先验知识，可以先标注`200~300`张图片，进行后续文本检测模型的训练。


		然而，在部分文档场景中也会存在一些挑战，如身份证场景中存在着罕见字，在发票等场景中的字体比较特殊，这些问题都会增加文本识别的难度，此时如果希望保证或者进一步提升模型的精度，建议基于特定文档场景的文本识别数据集，加载PP-OCRv3模型进行微调。

		在模型微调的过程中，建议准备至少`5000`张垂类场景的文本识别图像，可以保证基本的模型微调效果。如果希望提升模型的精度与泛化能力，可以合成更多与该场景类似的文本识别数据，从公开数据集中收集通用真实文本识别数据，一并添加到该场景的文本识别训练任务过程中。在训练过程中，建议每个epoch的真实垂类数据、合成数据、通用数据比例在`1:1:1`左右，这可以通过设置不同数据源的采样比例进行控制。


		（1）直接使用SER，获取关键信息的类别：如身份证场景中，将“姓名“与”张三“分别标记为`name_key`与`name_value`。最终识别得到的类别为`name_value`对应的文本字段即为我们所需要的关键信息。

		（2）联合SER与RE进行使用：这种方法中，首先使用SER，获取图像文字内容中所有的key与value，然后使用RE方法，对所有的key与value进行配对，找到映射关系，从而完成关键信息的抽取。如身份证场景中，首先

add how to do kie #7201

add how to do kie #7201

Conversation

littletomatodonkey commented Aug 15, 2022

paddle-bot bot commented Aug 15, 2022

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment