Skip to content

Latest commit

 

History

History
43 lines (31 loc) · 2.68 KB

README.md

File metadata and controls

43 lines (31 loc) · 2.68 KB

Distributed Pretrain

only mask word strategy from Ernie1.0 is illustrated in this section.

  1. make pretrain data

we use documents from multiple datasource (e.g. Wikipedia) to pretrain. input text should be segmented with space (even in chinese, this segmentation is used for mask word). each line corresonds to a sentence. empty line indicates end of document.

example:

数学 是 利用 符号语言 研究 数量 、 结构 、 变化 以及 空间 等 概念 的 一门 学科 , 从 某种 角度看 属于 形式 科学 的 一种 。 数学 透过 抽象化 和 逻辑推理 的 使用 , 由 计数 、 计算 、 量度 和 对 物体 形状 及 运动 的 观察 而 产生 。 数学家 们 拓展 这些 概念 , 为了 公式化 新 的 猜想 以及 从 选定 的 公理 及 定义 中 建立 起 严谨 推导 出 的 定理 。 基础 数学 的 知识 与 运用 总是 个人 与 团体 生活 中 不可或缺 的 一环 。 对 数学 基本概念 的 完善 , 早 在 古埃及 、 美索不达米亚 及 古印度 内 的 古代 数学 文本 便 可观 见 , 而 在 古希腊 那里 有 更为 严谨 的 处理 。 从 那时 开始 , 数学 的 发展 便 持续 不断 地 小幅 进展 , 至 16 世纪 的 文艺复兴 时期 , 因为 新 的 科学 发现 和 数学 革新 两者 的 交互 , 致使 数学 的 加速 发展 , 直至 今日 。

云外镜 ( ) 是 一种 能 反映 遥远 地方 影像 的 镜子 , 就 好比 现在 的 电视 , 或是 吉卜赛人 占卜 用 的 水晶球 一样 。 它 属于 付丧神 的 一种 , 是 镜子 历经 百年 后 幻化 而成 的 妖怪 , 又名 镜 妖 。 也 有人 说云 外镜 是 狸 妖 幻化 而成 的 , 当狸 妖 的 肚子 胀大 , 像 电视 的 映像管 一样 发光 时 , 就 可以 自由 地 显现出 远方 的 情景 。 著名 的 妖怪 绘师 鸟 山石 燕曾 记载 云外镜 经常 容易 跟 照妖镜 搞混 , 因为 照妖镜 可以 映照 出 肉眼 看不见 的 妖怪 , 这点 与 云外 镜会 映照 出 怪异 的 脸孔 是 有些 相似 。 据说 在 阴历 八月 十五日 的 夜晚 , 在 水晶 盆内 注满 水 , 将 镜子 平 放在 水面 , 若 是 映照 出 妖怪 的 模样 , 就 表示 这 面 镜子 里 住 著 妖怪 。

make pretrain data with:

python3 ./demo/pretrain/make_pretrain_data.py input_file  output_file.gz --vocab /path/to/ernie1.0/vocab.txt
  1. run distributed pretrain

python3 -m paddle.distributed.launch \
./demo/pretrain/pretrain_dygraph.py \
    --data_dir "data/*.gz" \
    --from_pretrained /path/to/ernie1.0_pretrain_dir/