在“大数据”时代,人工智能作为实现科技强国的核心技术,不仅成为国家的战略需要,在传统领域也已领跑量化人文研究。人工智能对于人文学者究竟意味着什么,人文主义者应怎样采用量化方法处理和数字技术的关系,这些都是当下亟须从数字人文角度来思考的相关问题。
数字人文实践中的人工智能
与哲学界更偏重理论思考和伦理忧思不同,对数字人文实践来说,人工智能在很长一段时间内都或多或少地意味着机器学习(machinelearning)的实操领域,特别是其中的无监督学习(unsupervisedlearning),亦即人工干预近乎为零的数据训练法。在此,人工智能并非科幻小说中神乎其神的“超级智能”,更多是触手可及的统计方法,正越来越普遍地被运用在大规模数据建模中,相关从业者也一直在摸索中学习、在学习中实验。
自年8月起,芝加哥大学文本光学实验室就利用上海图书馆提供的民国时期期刊语料数据,从五个方向先后实验了用以区分和发现—年三十年间各种潜在“新文学”文类的办法,其中至少有三种路径涉及深度学习,包括神经网络学习的次序模型(sequentialmodeling)和模式识别(patternrecognition)的技术。将一些业内通行的做法应用于精度要求极高的文学研究,非但不会让人们觉得炫奇,相反,从实验设计到程序运行、再到必要的统计检验,毫不意外地充满了各种失败和不理想。为了达到一定的准确率,必须不断地放弃一些看似正确的做法,要不断地去试错和“妥协”。事实上,似乎也很少有人想到这是人工智能,兴许正在不断活跃的数字产业界对这样的标签会更有兴趣。
关于人工智能应用,文学艺术界热衷谈论的另一个现象是AI写作。在这方面,清华大学自然语言处理与社会人文计算中心的孙茂松团队一直在做相关探索。出自该团队实验室的“九歌”作诗机现在不仅可作五言七言绝句,还可作律诗,也曾多次参加竞赛节目。孙茂松在年12月创刊的《数字人文》上提出“计算创造力”这一概念。但是机器一定就能“创造”吗?未必。因为这一切之所以成为可能,靠的无非是统计学。在孙茂松看来,再复杂的深度学习也不过基于一种可能性推断。仅以七律为例,如果粗略假设中国古典诗歌使用的通用汉字在1万字左右,那么理论上可产生的诗歌总数(排列组合)将是2的次方。这是一个天文数字,所以只能靠算法来挖掘出“好诗”。怎么挖掘?就需要建模,就要以超过80万行的古诗语料和已标注的知识库为材料,来训练专门设计的模型。这些模型借助于认知心理学中类似于“工作记忆”的读—存—取的信息循环加工过程,将临近诗行中各种语汇排列的可能性相继产生出来。在这个不断“缓存”的过程中,由关键词所提示的诗歌主题和由相关语料提供的历史文化信息被储存在一个动态化的模型中,而相应算法的设置则极大地保证了诗行内涵的连续性,最后再辅以韵律规则和风格模式的学习。经大量使用者评分实验证明,“九歌”不仅可以作出和律、连贯、“有意境”的诗歌,还可和人配合作诗,并自主为作出的诗打分。也就是说,在AI“作诗”时,模型和算法仍然来自于人,来自对大量古诗佳作模板的“习得”,这些模板体现在句法生成的规则层面上。
从理论上讲,受训之后的模型完成的是一种“集大成”之作。所以有批评家说,不妨将AI写的诗当成“行业准入”原则,写得不如它们的就不配为诗人。这当然是笑谈,但从现阶段大部分机器作诗的机制来讲,却不无道理,因为“站在巨人的肩膀上”当然没有理由比前人写得差。只不过作为文学研究者,我们所关心的并不是“九歌”能否作出超越古人经典的佳句,我们更
转载请注明:http://www.0431gb208.com/sjslczl/4021.html