参考封面｜人工智能若何破解最古老文字之谜？_文字_楔形

2024-12-10 03:32:15 计算机

在英国伦敦不列颠博物馆一扇锁着的房门背后，有一个俊秀的图书馆。
在这个秘密房间里，欧文·芬克尔打开一个抽屉，拿出一块泥板。
这块分裂并被火烧过的泥板上，刻着天下最古老笔墨的小小符号。
另一个抽屉放着另一块泥板。
芬克尔是这家博物馆里古代美索不达米亚笔墨、措辞和文化的助理保管员，也是天下上能够流利阅读这种早已消亡的笔墨——楔形笔墨的少数人之一。

参考封面｜人工智能若何破解最古老文字之谜？_文字_楔形计算机

在我们身后，一名拍照师正在仔细地拍摄这些笔墨的照片，有光专门打在这些蚀刻符号上。
这项事情是一场革命的组成部分，这场革命正利用本日的打算能力，试图复活这些有着5000年历史的笔墨记录，并揭开天下最早文明的新秘密。

只管这一书写体系在165年前就被破译了，但利用该体系的文今年夜多从未被翻译成当代措辞。
这是一项极其繁芜的任务，依赖芬克尔这样的专家。
现在，由于人工智能的发展，打算机正在接管一些演习，以阅读和翻译楔形笔墨，将碎裂的泥板重新拼凑起来以重修古代图书馆，乃至预测缺失落的文本。

记录人类历史

楔形笔墨的故事始于约6000年前的美索不达米亚，那是底格里斯河和幼发拉底河之间的肥沃地皮，现在是伊拉克。
在那里，苏美尔人建立了最早的一些城邦。

虽然这些人讲的措辞（苏美尔语）与我们所知道的任何措辞都截然不同，并且早已消亡，但我们拥有关于他们生活的了不起的记录，由于据我们所知，那里便是笔墨的起源地。
他们把芦苇端部压在湿润黏土上，做成一些楔形形状，这使得这种笔墨有了它的当代名字：楔形笔墨。

楔形笔墨本身不是一种措辞，而是一套书写系统，就好比用来书写英语的字母也可以用于法语或德语。
苏美尔语终极消亡了。
然而，楔形笔墨连续存在，并成为许多其他措辞的书写形式，比如阿卡德语、赫梯语和古波斯语。
楔形笔墨在消亡前为人们所利用了3000年，记录了古老王国的出身和灭亡。

我们对这方面的理解归功于用来刻楔形笔墨的黏土：它是一种便宜、随意马虎得到且耐用的材料。
芬克尔说：“这对我们来说非常幸运，由于任何曾被书写过的泥板都能保存下来，除非它被扔进河里或被彻底砸碎。
”

如今，有成千上万块这样的泥板构成天下文化遗产的主要组成部分。
它们记录了我们这个星球上的第一批伟大帝国，还有赞颂诗、信件、购物清单，乃至还有顾客投诉。
德国慕尼黑路德维希—马克西米利安大学的恩里克·希门尼斯说：“人们说，人类历史的前半部分都被记录在这些楔形笔墨泥板中。
”

找回缺失落过去

人们不断从泥板上破译出新秘密。
2017年，一块有着3700年历史的、编号为“普林顿322”的小泥板，作为天下上最古老的三角函数表为人们所知。
它显示，最早研究三角的是巴比伦人，而不是希腊人。
然而，由于只有大约75人能流利阅读楔形笔墨，以是大多数泥板未能得到解读，放在博物馆库房里积灰。

一个问题是楔形笔墨非常繁芜。
希门尼斯说：“这种笔墨很不明确。
一个词的书写办法并不是单一的。
”此外，大部分泥板并不完全，多数是破损或者破碎的。
边缘常日已经碎裂，留下一些没有开头或结尾或者叙事有缺失落的故事。

希门尼斯说，把这些碎片拼凑起来就像是拼很多很多块繁芜拼图，这些拼图凌乱无序，盒子上也没有图片见告你终极要拼成什么样子。
此外，同一块泥板的碎片还可能散落在世界各地。
把这些拼图重新拼凑起来是一个依赖运气和影象的艰巨过程。
但现在有了打算机的参与，情形正在发生变革。

作为电子巴比伦文学项目的组成部分，希门尼斯在2018年设立了一个语料库，通过判断出哪些碎片是一起的，这个语料库正利用人工智能重组以楔形笔墨书写的伟大馆藏。
为做到这一点，希门尼斯正在利用为比较不同基因序列变体而开拓出的算法，这依据的是同一篇文本每每有多个差别很小的书写版本。
人工智能可以接管对这些文本进行音译的演习，楔形笔墨符号可以根据其发音办法以拉丁字母形式书写出来（像汉字可以以拼音形式书写那样）。
然后，人工智能可以预测哪些楔形符号可能涌如今缺失落的部分。
它还可以在一个巨大的碎片数据库中搜索特定的楔形笔墨符号。

2019年，这种方法帮助找到了《吉尔伽美什史诗》中的多少缺失落部分，并揭示了一种古代文学的新文体：一种由荒诞故事组成的文本，它是学生用来学习书写的。

去年，在世界首例利用人工智能技能完备自主进行的楔形笔墨碎片识别中，著名的《咏正派受难者的诗》的一个缺失落部分被找到。
希门尼斯说：“人类原来会错过它。
”

2021年，耶路撒冷希伯来大学的打算机科学家加布里埃尔·斯塔诺夫斯基和他的同事们，找到了一种方法来预测碎片缺失落部分上的笔墨，这种办法类似于手机上词语的自动预测。
他们利用了一款深度学习人工智能技能，“投喂”给它来自1万块以阿卡德语书写的楔形笔墨泥板的音译文本。
他们创造，人工智能能够以89%的准确率来提出符合高下文的字词建议，以补充缺失落部分。

连接当代措辞

人工智能的另一个潜在运用是确定来源不明泥板的年代。
斯塔诺夫斯基说：“如果我们知道某些文件的年代，我们就可以对算法进行演习，以预测其他文件缺失落的年代。
”

通过音译破译楔形笔墨是一回事，阅读楔形笔墨符号则完备是另一回事。
楔形笔墨的字母系统随韶光推移发生了演化，而且拼写也有很大差异。
此外，这套字母系统在不同期间用于不同的措辞。

只管如此，打算机开始在利用用于文本识别的打算机视觉系统阅读楔形笔墨符号方面取得进展。

人们希望终极将符号识别系统与当代措辞翻译系统联系起来。
这将意味着我们可以在博物馆里用手机拍下一块泥板的照片，然后泥板上的内容就能立即得到解读。

如果没有弘大的文本数字数据库供应尽可能多的数据来对算法进行演习，这些努力就都不可能实现。
然而，在全天下博物馆收藏的50万份楔形笔墨文本中，只有一半得到了音译或翻译，只有约10万份以数字办法可用。
目前，楔形笔墨数字图书馆倡媾和电子巴比伦文学项目等努力正在取得重大进展，以增加这些数字档案。

这一过程始于一项艰巨事情，那便是为全天下博物馆和私人收藏的所有泥板拍摄高质量图像。
这正是不列颠博物馆里在我背后正在进行的事情。

在我结束对不列颠博物馆那个拱形图书馆的参不雅观，随人群一同涌向各个展览的时候，我一贯在回味刚刚的体验——穿越时空回到过去，见证数千年古人们写下来的想法，然后又回到未来，看看这些破碎的古代笔墨记录，它们正处于重新拼凑和解码的过程中——这次是在数字领域。

图说：英国《新科学家》周刊8月6日一期封面

来源：参考网