他们用AI挖开了一座古人留下的宝藏

共 7753字,需浏览 16分钟

 ·

2021-06-11 19:30




1
 

计算机和互联网诞生不过几十年,而中华文明延绵数千年。
 
在绝大多数没有计算机的时间里,古人们把记忆和知识刻在甲骨、铜器、石板上,写在竹简、羊皮和纸上,这些承载知识、信息的容器,后来逐渐被人被称为“古籍”。
 
在互联网,知识像自来水管里的水一样流动,人们轻松取用,而古籍却像是水缸、水井,随着时间的流逝,被磨损,被破坏,被流失甚至被遗忘,尽管里头的水也许比自来水更清冽。
 
大多数时候,古籍被保护在藏书馆,可是,束之高阁又让它们失去作为一本书的价值,书原本只是一堆纸和墨,当被人阅读时,其中的知识才绽放出光芒。
 
人们开始琢磨:有没有可能用AI、大数据、云计算等技术,把古籍复刻到互联网上,让这些古老的智慧和记忆重新流动起来,为人所用?
 
“汉典重光”项目大概就是这么一回事,一群人试图用科技打开祖先留下的,尘封已久的知识宝库。



2


故事得从2017年说起。

美国哈佛大学的哈佛-燕京图书馆,是迄今为止中文藏书最多的海外图书馆。2017年8月1日,哈佛-燕京图书馆在网上放出消息:其馆藏的4200部,合计约53万卷中文善本特藏,已全部实现数字化,全球网友可免费在线浏览和下载。

(截取自哈佛燕京图书馆中文善本特藏数字化工程页面)
 
普通人可能不清楚这意味着什么,但是对古籍研究者和学者来说,绝对是个大新闻。

以往,每年哈佛燕京图书馆服务大约二百位访问学者,供他们利用馆藏进行研究。学者想查阅其中的古籍,必须提前向图书馆申请,再买机票,飞过大半个地球去,当然,还得提前拿到美国签证。

由于去一趟不容易,他们经常一去就是半年、一年甚至更长时间,每一次都得提前准备一个长长的书单或者任务清单。
 
2009年前后,中国国家图书馆跟哈佛燕京图书馆联合启动了这个古籍数字化工程,双方共同开发,历经近十年终于完成。

从此,世界上任何一个人,只要一台电脑或一部手机,连上网,就可以跨越地域限制,饱览其中典藏。
 
无数学者和吃瓜网友顺着海底光缆来到哈佛-燕京数字图书馆,为其中的珍贵典藏和数字化工程而惊叹。

许多古籍历经战乱、朝代更替,流落海外又数次易主,最终以数字化的形式“魂归故里”。

 
围观群众之中,有个人比较特殊,叫高晓松,之所以特殊,倒不是因为出名,而是因为他的两个身份。
 
2015年,他发起成立“杂书馆”——目前国内藏书规模最大的私人公益藏书馆,并担任馆长。同年,他受邀加入阿里巴巴。
 
这两个身份,一面历史人文,一面互联网科技,而古籍数字化,恰好也是这两个看似风马牛不相及的领域碰撞出的火花。
 
古籍数字化带给高晓松的震撼,无异于马云第一次出国,见到电脑,在搜索框里敲下 “Beer”和“China” 。
 
高晓松经常出入于世界各地的图书馆,他知道,哈佛-燕京图书馆的这批数字化工程只是冰山一角,还有很多大学的东亚系都有很好的藏书,他亲眼看到过许多古籍,有些甚至是孤本,每次从图书馆出来,他恨不得把这些书都背回来,但他知道,这是不可能的。
 
有的图书馆不让拍照,抄写也只准用铅笔。有一次,他在一个图书馆看到两位中国老学者坐在那,抄一会儿,停下来削铅笔。过了几个月,他再去那个图书馆,又碰见他们,又过了一段时间再去,他们居然还在。

后来他在自己的聊天节目《晓说》里聊起过这件事,“前前后后抄了数年时间,两位老学者始终坐在那儿,这个是非常令人敬佩的。”
 
在阿里巴巴,高晓松近距离感受过各种世界领先的信息技术,云计算、人工智能、大数据…… 一个想法几乎自然而然的从他脑子里冒出来:既然阿里巴巴有这么强的技术和资源,是不是可以帮助更多古籍被看到?
 
“我有一个不成熟的小建议。”他找到马云,问阿里能不能用技术做点什么,后来达摩院秘书长刘湘雯辗转了解到这件事,当时达摩院刚刚成立不到一个月,使命是“探索科技未知,以人类愿景为驱动力,开展基础科学和颠覆式技术创新研究。
 
高晓松告诉刘湘雯:还有更多古籍值得让更多人看到。



3


“还有更多古籍值得让更多人看到?我自己都还没看到呐!”刘湘雯心想。

她试着去了解古籍领域,很快感受到五个字:隔行如隔山。达摩院确实有很多计算机技术领域的专家,却都是古籍方面的门外汉。

走了不少弯路之后,她得出结论:“如果没有古籍、历史方面的专业人士参与,这件事根本没法干。”
 
于是,她开始四处拜访国内知名的历史研究机构和图书馆,幸运的是,她遇到了陈力,一个跟历史、古籍打了一辈子交道的人,而陈力在几十年前就开始思考和推动“古籍数字化”这件事。

陈力有很多个身份,比如:四川大学历史文化学院教授,原国家图书馆常务副馆长,全国古籍整理出版规划领导小组办公室成员、中央文史研究馆馆员,还有著名图书馆学专家、文献学、历史学专家等等。

了解完陈力的经历之后,我当时就被圈粉了,所以请允许我这个粉丝花一些篇幅单独介绍一下他。

陈力


也许是因为父亲是历史老师,陈力从小喜欢历史,儿时,书籍是他的快乐源泉,一本《中华活页文选》为他打开了古人世界的大门。

恢复高考那年,他考入四川大学历史系,毕业后成了当代著名历史学家、古文字学家徐中舒先生的“关门弟子”。

图片来自网络

古文字研究室里的书很多,陈力几乎每天都在里面看书,为了保护古籍,灯光不能太亮,几年时间,他的视力从一点五降到零点几。为了学好古文字,熟悉原始史料,他花了很长一段时间,用透明绘图纸一个字一个字地摹写青铜器上的铭文。

博士毕业后,陈力被分配到四川大学图书馆,那时博士很稀有,馆里的人都跑来看,发现“原来是他啊”——大学期间跑图书馆太勤,图书馆员们早就认识他。

有一次,陈力提着水桶擦桌子,别人见了说,堂堂一个大博士怎么还干亲自干这个?他回了句:这个阅览室是我负责的。

1998年秋天的一个雨夜,陈力接到电话,国家图书馆正在物色一位业务副馆长,远在北京的任继愈馆长居然听说了四川大学有个图书馆长口碑不错,托人问他是否愿意来国家图书馆。
 
陈力走进四川图书馆时,还是个小伙子,走出来时,二十九年已经过去,成了一位馆长大叔,他用陆放翁的名句感慨这一段人生:“万卷古今消永日,一窗昏晓送流年。”感慨完,又走进另一座图书馆。
 
刚到国图,陈力就接到一个任务:对164万册古籍进行计算机编目。编好目录,就能用电脑快速检索到古籍的存放位置——这便是那个年代“古籍数字化”的一种形式。

就那时的技术而言,把古籍里的所有文字输入电脑,并且实现全文检索,只是一个美好的梦想,因为光是编目录,他带着一百多号人就干了整整三年。

在国家图书馆工作的十几年里,陈力没有停止对数字化的思考和探索,在他的百度百科里可以找到相关论文。


退休后,陈力被母校四川大学返聘为历史文化学院教授,后来又被中央文史研究馆聘任为馆员,接受由国务院总理颁发的聘书。

听了达摩院这边的想法,陈力当即同意加入,事情开始真正步入正轨。



4


与阿里达成合作的第一个海外图书馆,是加州大学伯克利分校东亚图书馆,中文藏书规模排名全美第三的图书馆,馆长叫周欣平。

1997年时,周欣平以美国匹兹堡大学东亚图书馆馆长的身份到四川大学图书馆访问交流,当时是陈力负责接待。

周欣平也是恢复高考后的第一届考生,武汉大学毕业,两人一见如故。他们聊了一些异想天开的点子:古籍能不能电子化?放在网上全文检索,而且是跨语言检索,输入一个检索词,不光能在古籍里找到,还能查到英文、日文、俄文等不同版本。

两人一拍即合,由于想法太过超前,以当时的技术水平根本做不出来,开发全文检索的合作计划最后不了了之。

2019年,四川大学历史文化学院副院长王果、达摩院负责学术合作的李贝陪同陈力到伯克利东亚图书馆拜访多年未见的好友,征求合作意愿。

陈力和周欣平面对面聊起古籍数字化,仿佛穿越回20多年前。

周欣平亲自拍板,将伯克利东亚图书馆最优秀的一批藏书加入“汉典重光”项目。



5


一块硬盘跨越大半个地球,从伯克利东亚图书馆寄到达摩院的办公桌上,里面装着20多万张照片。
 
“古籍数字化”细说起来很复杂,上百道专业流程,简单说来就三步:从实体版到图片版,从图片版到文字版,从文字版到知识版。
 
第一步“从实体版到图片版”已经由伯克利东亚图书馆完成。

伯克利东亚图书馆工作人员正在扫描古籍

接下来,达摩院的工程师们和四川大学的古籍专家们将一起完成第二步:“从图片版到文字版”。分工很明确,达摩院负责计算机技术部分,古籍专家负责一切非计算机技术的部分。

在过去,古籍图片转文字都是直接由人工来标注,一个字一个字,不仅费时,还很费人。

后来虽然也出现了“技术派”,用计算机来自动识别图片里的文字,但由于准确率堪忧,没有普遍使用。大家都是各做各的,所以并没有形成统一的平台和开放给所有人的通用工具。
 
如此想来,之前哈佛-燕京图书馆的数字化工程耗时近十年,是有原因的。

达摩院视觉实验室负责人叫徐盈辉,在阿里巴巴内部的花名是“仁基”,这名字一听就很“人机”,对他来说,古籍识别是个典型的OCR场景,“本质上,古籍是一种复杂的版面。”

OCR技术是一种生活中很常见的技术,支付宝扫一扫识别“福”字,用的就是它。淘宝APP开发过一套系统,可以把商品描述图片里的文字念给视障人士听,背后也是OCR技术。总之,多年下来达摩院沉淀出了一套完整的OCR技术。
 
工程师何木(花名)把一张古籍照片扔进他们现有的OCR系统,40%的识别率像一盆冷水浇在他头上。
 
古文版式和现代文档差别很大,竖着排版,中间经常有夹注和圈圈点点(古人阅读时的笔记),还有印章等等。由于古代造纸、印刷等技术有限,古籍上经常有油墨、装订时留下的绳结印、纸张太薄导致的透墨,乃至造纸时留下的杂质,都会影响识别率。

但这不是主要原因。

更主要的原因是,现代OCR系统只认得现代汉字,许多古文字的写法连字典里都没有,见都没见过,怎么可能识别?
 
谷歌公司的“谷歌图书”(Google Books)项目包含了针对图书的文字识别技术,但主要是针对英文古籍。国内也有公司专门针对中文古籍研发OCR技术,但出于商业考量,对外收费。

达摩院决定重新自研一套古籍识别系统。
 


6


少啰嗦,先看东西。

这是藏于伯克利东亚图书馆的《周易兼义》中的一页:


哪怕你完全不懂古籍,大概也能察觉到:要制造出一台机器把这些字认出来并不容易。

我们现在想象有一条流水线,流水线上是一本本的古籍,旁边站着几个葫芦娃,他们是AI模型,要把古籍识别成文字。

为首的大娃负责“版面分析”。文字本质上也是一种图形,所以要识别图片里的文字,先要把版面里需要识别的文字“找出来”。

比如识别一张发票:


现代OCR技术常用“行检测”和“列检测”,因为文字通常以横排或竖排的形式呈现。

何木翻开一本古籍看了看:“行检测和列检测肯定不OK”。

大娃退下,二娃上,二娃名叫“单字表征算法”,它能把每一个疑似文字的“图形”给找出来。


你有没有发现,这个工作本质上跟用人脸识别系统捕捉摄像头里的人脸很像?一个字就像一张脸。



在人脸识别领域,这道工序叫“人脸表征”,总之“表征”就是找出关键特征。

(图片来自网络,仅为示意)

很快,一张古籍的照片就被切成了无数个小照片,每一张照片都是一个独立的字。

接下来,就要开始教AI系统认识这些古汉字。

谁来教?陈力和王果带着四川大学的20多名学生,开始给汉字标注。等等!这不就又变成了人工标注?

忘了说,中间其实还有一个关键步骤:“聚类”。

三娃叫“单字聚类算法”,虽然他不认识字,但哪些字长得差不多,还是很容易辨认的,就像你虽然不认识某个人,也不妨碍你辨认他和另一个人是不是同一个人。

三娃要做的,是把一本书里的所有字都扔进一个“篮子”里,形成一个个“字类”。


由于一本书里的很多字是重复的,比如“之乎者也”,经过“聚类”,古籍专家一次就能标注完一本书里的某个字类。原本逐个录入可能要标注十万次,现在只需要标注几千次,大大减少劳动量。


标注好的这些字放在一起,就构成了一本“字典”,把它投喂给AI系统“吃”,就能让它具备识别古文字的能力。


本质上来说,标注的过程,就是古籍专家们把自己学习多年的古文字识别能力传授给AI的过程。

上个世纪八十年代前后,陈力的老师徐中舒为了帮助后人更方便地学习古文字,与祖先“对话”,带着一群人编写《汉语大字典》和《甲骨文字典》,这两本字典分别是至今收录最多文字的中文字典和最重要的甲骨文字典。

几十年后,陈力带着一群学生标注“字典”,只不过这字典不再是给人用的,而是给人工智能用的,从此人工智能变成“翻译官”,帮助我们连接过去,在古籍里和祖先对话。

时代的脉搏从中浮现。



7


起初,“单字表征”和“单字聚类”这对哥俩经常会犯错。

古籍里的字经常粘在一起,有的地方又有破损,“该连的不连,不该连的连上”。

这就导致“单字表征”经常把两个字当成一个字,把一个字当成两个字。就好比“巭孬嫑烎”是四个字,但如果竖着写,你可能会看成是个字。

并非实例,只是帮助读者理解

而“单字聚类”则经常把长得差不多,但其实不同的两个字归到一类,就像是你把父子、姐妹俩给认错。

一位负责标注的同学吐槽:“你这个人工智能,有点不灵光(不聪明)哦。”

犯错不可怕,重要的是从错误中学习改进。达摩院和四川大学的古籍专家们形成了一套纠错机制:发现错误,标注出来,重新训练,再发现错误……如此往复几轮,单字表征和聚类就越来越“灵光”。

经过一年多的反复调试和校对,AI的整体识别率达到96%,达摩院又尝试用“少样本学习”,在数据量不多的情况下训练模型,又把准确率往上挤了1.5%,到97.5%。


为什么还剩2.5%?因为单从视觉上,很多字难以分辨,哪怕人类专家也不一定能辨认。

陈力举了个例子:“帷”字,和“惟”字,写得潦草一点,竖心旁的两点一连,字形上根本没法分辨。

同一个古文字,不同时代、不同书法,写出来可能都不一样,而且还存在很多异体字。

还有一个听起来有点夸张的例子是:有些时代写“上”是两横,类似于今天的“二”,写“下”也是两横,区别是:一个上面一横更长,一个是下面一横更长。

人类专家认字时往往会结合上下文,如果看到“运筹__幄”,立马就能判断中间是“帷”而不是“惟”。

要弥补剩下的2.5%,不仅要教会人工智能“认字”,还得教会它“读书”,读古书。

徐盈辉说,这个问题可以用“语言模型”来解决,AI 可以结合前后文字,推算中间字出现的概率,比如看到“运筹__幄”,它可以推断是“帷”字的概率是百分之多少,取概率最高的。
 
但是训练一个准确度高的语言模型,需要更多的数据量,目前手头的这些古籍数据还不够。

他们决定先把“汉典重光”平台开放出来。



8


2021年5月19日,"汉典重光”平台发布,首批20万页古籍“入驻”平台。

它的主界面很简洁,看起来像是一个搜索引擎,输入汉字,会在数据库里帮你迅速找到所有出现过该字的古籍,并定位到具体段落。


教AI识字的过程中沉淀下来的覆盖3万字的“古籍字典”,被整理出来放在“汉典重光”平台,帮助学者和古文爱好者学习古文字。


“汉典重光”不仅仅是一个古籍搜索引擎,更是开放平台——每个人都可以上传古籍到这个平台。


“如果一个学者手里有我们这个库里没有的文献,在确认他有所有权之后可以上传到平台,丰富平台的内容。如果他不愿意,只是希望利用平台的识别功能来帮助自身研究,也没问题,可以拿到平台上跑一下。” 陈力说。

几年前达摩院找来时,陈力立马答应加入,打动他的原因也许有很多,但最重要的就两个字:开放。

二零零几年时,陈力就在一篇文章里提到当时古籍数字化工作中存在的问题:利益不同,各自为阵,封闭建库。标准规范不统一。

在发布会现场,达摩院院长张建锋宣布:把这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,同时阿里巴巴还会继续在古籍数字化工作上投入人力物力。

我从这个动作上接收到他想传达的信息是:“汉典重光”平台不是达摩院的,不是阿里巴巴的,而是大家的,希望大家莫生芥蒂,齐心协力,让汉典重光。

这让我想到互联网的开源精神。

这个世界上大多数领域都讲究知识财富私有,互联网开源社区却反其道而行,大家把自己的代码贡献出来,一起建设社区,如今,这种开源精神和古籍领域发生化学反应,相当神奇。



9


“我们只是做了一些基础性的工作。”徐盈辉说。

古籍数字化的想象空间也非常大,绝不仅仅是全文检索,还记得我们说过的古籍数字化的第三步吗?从文字版到知识版。

陈力说了一个统计分析的例子:《红楼梦》有120回,公认后40回是高鹗续写的,但有些学者认为也是曹雪芹写的,高鹗只是整理而已。计算机可以对书里的用词习惯进行分析,如果前80回和后40回的字频词频明显不同,就能判断肯定不是同一个人写的。

没解决的问题也很多,不仅仅是文字识别准确率,还有通假字的处理、避讳字的处理、批注的处理,如何对待计算机文字编码系统里原本不存在的字、统一规范等等问题……

比如,鲁迅有十多个笔名,自树、庚辰、索子、子明……这个世界上也还有很多姓鲁名迅的人,怎么才能通过检索“鲁迅”,找到我们想要找到的那个“周树人”的文章呢?

再比如一个地名,在不同的朝代可能有不同的名字,怎么通过检索其中一个找到历朝历代的信息?

“我们目前仅仅是万里长征走了第一步……”陈力说。



10


对了,因为“汉典重光”这件事,高晓松被网友们骂惨了。

他发了条微博说这事,结果网友骂他邀功,只是出了个点子,却试图抢走真正干活的人的功劳。

我个人觉得,他的那个主意还挺重要的,就像是一个媒人,让古籍和科技这两个原本看似很远的领域走到一起,喜结良缘。

古籍数字化,是个必然,但这次相遇,是个偶然,历史有意思之处就在于一次次的偶然推动着必然。

许多媒体报道“汉典重光”时,都把落点放在“古籍回归”上,一批古籍早年流落海外,颠沛流离终于回家。网友们为这20万页古籍回归而欢呼。

数字化回归的这批古籍确实见证了历史,当年,古籍因为落后而流失,如今,因为强盛而回来。

我倒觉得这件事更大的意义,在于古籍领域和科技互联网这两个原本风马牛不相及的领域的联姻。

严格来说,那个硬盘寄到达摩院的办公桌上时,“回归”已经完成了,但正因为有接下来的工作,才有了完整的“汉典重光”,才有了一个比人工录入快30倍的古籍识别系统。

未来,它可以迎回更多流失在海外的古籍,科技和古籍也可以碰撞出更多的火花,让更多原本只放在书架上的古籍活起来,流动起来,为人所用。

“汉典重光”,因为古籍回归而光,也因为古籍里沉寂已久的文字重新流动起来,和人的头脑产生共鸣而光。





最后再介绍一下我自己吧,我是谢幺,科技科普作者一枚,日常是把各路技术讲得通俗有趣。想跟我做朋友,可以加我的个人微信:xieyaopro。不想走丢的话,请关注【浅黑科技】!(别忘了加星标哦)


发现科技世界的小秘密


浏览 24
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报