文本分类六十年

来源：语言识别时间：2023/5/21

作者

Lucy

出品

AI科技大本营

文本分类是自然语言处理中最基本而且非常有必要的任务，大部分自然语言处理任务都可以看作是个分类任务。近年来，深度学习所取得的前所未有的成功，使得该领域的研究在过去十年中保持激增。这些文献中已经提出了许许多多的算法模型、基准数据集一集评测指标，因此需要一个对这个领域进行全面而且跟进趋势的调查。这里我们介绍基于机器学习和深度学习的文本分类，主要内容来自北航、伊利诺伊大学等学者联合发表论文ASurveyonTextClassification:FromShallowtoDeepLearning。

本文通过回顾文本分类领域自年到年以来的历年SOTA模型来填补这类综述研究的空白，聚焦于从浅层学习到深度学习的各种模型。根据文本分类任务所涉及的文本数据来源、特征提取的方法以及分类模型的不同进行分类对比研究。随后，将讨论每一个类别的详细情况，其中涉及到给预测和测试提供可信支撑的技术变迁以及基准数据集。这项调查对不同模型之间的性能优劣进行了全面比较，而且指出了各种评测指标的优缺点。

最后，对各种算法模型的核心精髓、未来的研究趋势以及该研究领域面临的挑战进行了提炼总结。

文本分类

文本分类流程

在许多自然语言处理（NLP）下游任务中，例如情感分析，主题标记，自动问答和对话行为分类，文本分类（给文本指定某一预定义标签的过程）是一项意义重大且十分必要的任务。在信息爆炸时代，对海量的文本数据进行人工手动处理和分类，既费时又存在许多操作困难。除此之外，人工文本分类的准确性很容易受到人为因素的影响，例如疲劳和专业知识。因此，我们渴望使用机器学习的方法来使文本分类过程自动化，以产生结果更可靠、判定更少主观的结果。此外，通过从文本中定位所需信息，可以用来帮助提高信息检索效率并缓解信息过载的问题。

图1展示出了基于浅层和深度学习的文本分类方法中所涉及的操作步骤的流程图。文本数据不同于数字，图像或信号数据。它要求NLP技术具有能够进行十分精细化处理的能力。而首先重要的一步是对输入模型的文本数据进行预处理。浅层学习模型通常需要通过人工标注的方法来获得良好的样本特征，然后使用经典的机器学习算法对其进行分类。因此，该方法的有效性在很大程度上受限制于特征提取结果的好坏。但是，与浅层模型不同的是，深度学习通过学习一系列的非线性变换模式将特征工程直接映射到输出，从而将特征工程集成到模型拟合过程中。

文本分类发展历程

从年代到年代，基于浅层学习的文本分类模型占主导地位。这里的浅层学习指的是基于统计的模型，例如朴素贝叶斯方法（NaveBayes，NB），K近邻（K-NearestNeighbor，KNN）和支持向量机（SupportVectorMachine，SVM）。与早期的基于规则的方法相比，该类方法的准确性和稳定性优势比较明显。但是，这些方法仍然需要做大量费时费力的特征工程。此外，这类方法通常不考虑文本数据中的自然顺序结构或上下文信息，这使得模型很难具备学习单词之间语义信息的能力。年代之后，文本分类已逐渐从浅层学习模型转变为深度学习模型。与基于浅层学习的方法相比，深度学习方法避免了人工设计规则和特征，可以自动从文本中挖掘出大量且丰富的语义表示。因此，大多数文本分类研究工作都是基于数据驱动且计算复杂度较高的DNNs来进行的。也正因为如此，如今很少有文章去

转载请注明：http://www.0431gb208.com/sjslczl/4687.html

上一篇文章：想知道图片翻译成中文怎么操作这个教程快拿

下一篇文章：网页抓取五种常用的HTTP标头