NLP ——从0开始快速上手百度 ERNIE

2024.04.06 程序媛驿站

    前文我们已经简单讲解过ERNIE1．0与2．0的构成与区别
    NLP ｜百度 ERNIE －简析1．0 与 2．0
    一篇简单易懂的好文
    本文小媛带来的是【从0开始快速上手百度 ERNIE】
    原文详见文末原文链接
    一、前置条件
    在使用ERNIE模型之前，用户需要完成如下任务：
    安装Python3．7．5版本。
    安装paddlepaddle 1．8版本，具体安装方法请参见快速安装（文末）。
    执行如下命令从GitHub上获取ERNIE代码库。如果网络速度较慢用户可以跳过此步，因为教程自带有ERNIE的包。
    ！git clone －b dygraph －－single－branch https：／／github．com／PaddlePaddle／ERNIE．git
    使用pip方式安装其他依赖文件。
    ！pip install －r ERNIE／requirements．txt
      依赖文件主要包括：
    numpy：Python的一种开源数值计算拓展，可以用来进行大型张量的存储和计算。scikit－learn：机器学习工具包。scipy：科学计算库。six：解决py2和py3代码兼容性的工具包。
    二、快速运行
    这里以使用情感分析数据集ChnSentiCorp的ERNIE中文预模型为例，展示如何通过简单的三个步骤就可以快速使用ERNIE 1．0中文Base模型实现情感分析场景的推理。
    ChnSentiCorp是一个中文情感分析数据集，包含酒店、笔记本电脑和书籍的网购评论。表1对ERNIE1．0／2．0和BERT中文模型在该任务上的效果进行了评测，评测使用的指标为准确率（acc），即在使用验证集或测试集进行推理时，推理正确的数据条目占数据集数据总数的百分比。从表1中可以看到ERNIE具有明显的优势。
    使用ERNIE 1．0中文Base模型进行推理分如下三个步骤：
    数据获取。介绍如何下载ChnSentiCorp数据集，以及数据集的结构，这样用户可以参考数据集的结构构造用于Fine－tuning的数据集。此外如果用户希望使用自定义数据集进行训练，则可以仿照ChnSentiCorp数据集的结构，构建自己的数据集。
    运行Fine－tuning。介绍如何设置数据和模型路径的环境变量，以及如何执行脚本进行Fine－tuning。
    执行推理。使用脚本运行Fine－tuning成功的模型进行推理。
    表1 ERNIE1．0／2．0和BERT的测评表
    数据集
    ChnSentiCorp
    评估
    指标
    准确率（acc）
    验证集（dev）
    测试集（test）
    BERT Base94．694．3ERNIE 1．0 Base95．2 （＋0．6）95．4 （＋1．1）ERNIE 2．0 Base95．7 （＋1．1）95．5 （＋1．2）ERNIE 2．0 Large 96．1 （＋1．5）95．8 （＋1．5）1．数据获取
    ERNIE在多个中文和英文NLP任务上做过评测，中文任务的数据可以通过下面的命令获取， ChnSentiCorp数据亦包含其中。
    ！wget https：／／ernie－github．cdn．bcebos．com／data－chnsenticorp．tar．gz！tar xvf data－chnsenticorp．tar．gz


    1  2  3  下一页>