5G 极化码之父
埃尔达尔·阿里坎教授
承认到会 EmTech China 全球新式科技峰
文学剖析家们早就注意到,莎士比亚戏曲《亨利八世》中有另一位作者的痕迹。现在,神经网络现已辨认出了这些特定场景,以及这些场景是谁写的。
图|莎士比亚《榜首对开本》戏曲集(来历:AP)
在威廉·莎士比亚的一生中,他大部分时刻都是 King’s Men 剧团的剧作家,该剧团在伦敦泰晤士河岸边表演莎士比亚戏曲。1616 年,莎士比亚逝世后,剧团需求一个人来接替他的作业,所以他们请来了其时最多产、最著名的剧作家之一约翰·弗莱彻(John Fletcher)。
自此之后,弗莱彻隐姓埋名。
可是在 1850 年,一位名叫 James Spedding 的文学剖析家注意到,弗莱彻的剧本和莎士比亚的《亨利八世》中的阶段有惊人的相似之处。Spedding 判定弗莱彻和莎士比亚在剧本中必定有过协作。
Spedding 的依据来自他对两个作者的言语特质研讨,以及这些特质是在《亨利八世》中哪些地方表现的。例如,弗莱彻常常写 ye 而不写 you,写’em 不写 them。他还倾向于在规范的五音步诗行中加上 sir 、 still 或许 next 这些词,这样就多了一个额定的第六音节。
这些特征使得 Spedding 和其他剖析者以为,弗莱彻必定参加了剧本创造。可是,关于该剧本究竟是怎么分配的,仍存在很大争议。还有一些谈论家以为,另一位英国剧作家菲利普·马辛格(Philip Massinger)实际上也参加了莎士比亚的剧本创造。
剖析人士和前史学家都很想确认,是谁参加了《亨利八世》创造,写了哪些部分。
但是现在,捷克科学院的 Petr Plechá 标明,他现已处理了这样的一个问题。他运用机器学习来辨认剧本的每一行文字,然后判别作者是谁。“咱们的成果高度支撑 James Spedding 提出的经典揣度,即威廉·莎士比亚和约翰·弗莱彻一起创造了《亨利八世》”,Plecha 说。
从原则上来看,这种新方法开门见山。多年来,人们一向运用机器学习算法来辨认作者共同的写作形式。
机器学习运用作者的很多著作来练习算法,并运用一个不同的、更小的著作来测验算法。但是,一个作家的文学风格在其一生中是有或许发生改动的,所以,保证一切著作都有相同的风格是很重要的。
图 |《亨利八世》中莎士比亚和弗莱彻的奉献份额(来历:论文)
只需算法学会了作者最常用的单词和句子形式,它就能在从未见过的文本中辨认出这种风格。
Plecha 选用的便是这种技能。他首要练习算法,运用与《亨利八世》一起期创造的其他剧本,如《科里奥兰纳斯的悲惨剧》《辛白林的悲惨剧》《冬季的故事》和《暴风雨》等来辨认莎士比亚的风格。
然后,他练习算法辨认约翰·弗莱彻的著作,运用的是弗莱彻其时写的剧本——Valentinian, Monsieur Thomas, The Woman’s Prize, 以及 Bonduca。
最终,他在《亨利八世》上运转算法,并让它经过翻滚窗口技能来阅读剧本,然后确认剧本的作者。
成果很风趣。算法印证了 Spedding 的剖析,即弗莱彻写了戏曲中简直一半的场景。一起,该算法答应能运用更细粒度的方法来提醒作者在新场景中,乃至在前一场景结束时是怎么改动风格的。例如,在第 3 幕第 2 场,算法显现在第 2081 行之后呈现了不同作者的风格,随后莎士比亚在第 4 幕第 1 场开端之前的第 2200 行彻底替代了之前的风格。
Plecha 也练习算法来辨认 Philip Massinger 的著作,但发现基本上没有依据标明他参加了创造。Plecha 总结道:“Philip Massinger 不太或许参加剧本创造。”
这是一项风趣的作业,它展现了言语学家和文学剖析家怎么运用机器学习来协助咱们更好地了解人类的文学前史。
但是,在这之前还有许多作业要做。例如,机器视觉算法能辨认艺术风格后,计算机科学家很快就想出了怎么提取一种艺术风格并将其应用到其他图画上,这运用的是一种称为“神经风格转化(neural style transfer)”的技能。所以,一夜之间,一张一般的相片就或许被赋予梵高或莫奈的风格。
这就提出了一个问题,相似的技能是否也适用于文本。有没有或许把一篇散文,或许是《麻省理工科技谈论》的一篇文章,变成莎士比亚或许约翰·弗莱彻的风格?
惋惜的是,现有的算法除了用 them、’em 之类的词来辨认文字风格之外,还没有更好的辨认才能。这还在于言语学家或他们的算法没有很好地了解文字的底层结构。
-End-
参阅:
arxiv.org/abs/1911.05652