近日,“因姓氏太罕见全村集体改姓鸭”登上微博热搜,目前话题阅读量高达1.6亿。随后,两位“鸭”姓村民接受封面新闻记者采访,确认改姓一事属实,并无奈表示“遗憾也没用,不改就没法外出。”

那么,一个生僻字想要成功“数字化”,拢共分几步?


【资料图】

4月26日,搜狗输入法生僻字项目负责人辜海玻接受封面新闻记者采访,他表示:“一个未编码且有实用价值的生僻字,要想实现顺畅的输入与显示,需要经历‘发现、考证、赋码、设计字体字形、推广应用’等多个环节。”另据了解,一个汉字从申请到获得国际标准化组织认定的编码,大概需要3-5年的时间,耗时很长。

生僻字数字化过程示意图

超6000万人名含生僻字

无法显示带来种种不便

中华文明是唯一有确切文字可考且五千年没有中断的文明,汉字是中华文明重要承载。但据不完全统计,中国有超过6000万人名以及大量地名、古籍、方言中包含生僻字,其中多数缺少计算机系统里的通用编码,无法在数字设备中顺畅输入与显示,带来诸多公共生活和社会服务难题。包括社保公积金无法开户、正常缴交,医院不能正常实名挂号、叫号等诸多社会公共问题。

在云南丽江,一支以鸟为图腾的“nià”姓家族,因信息系统中无法输入和显示带来的种种不便,全村不得不改姓“鸭”。

2022年7月,国家市场监管总局批准发布《信息技术中文编码字符集》(GB 18030-2022)。这个“新国标”要求用于政府服务和公共服务的信息技术产品和信息化系统全面强制执行,支持标准内的88115个汉字,并将于2023年8月1日实施。

辜海玻告诉记者:“去年11月,搜狗输入法联合工信部电子工业标准化研究院,共同发起‘汉字守护计划’公益行动,在搜狗输入法APP中上线生僻字征集功能,向用户征集无法输入的汉字。5个月内,共有9956人参与提交,去重后生僻字总数为2137个,多数与提交者的生活密切相关。”

4月20日举行的中文编码标准宣贯暨“汉字守护计划”升级发布会上,腾讯联合多方发布的“生僻字征集小程序”正式上线。打开小程序,每个人都能提交无法打出的生僻字,提交内容包括字形结构、读音、来源及释义等。经过初筛后,电子工业标准化研究院会对这些字进一步考证、赋码、入库国标;接下来,字体厂商将基于编码设计字体;有了字体后,就会落到应用层,比如输入法、操作系统等做出相应适配改造。

前面提到的“nià”姓,目前已经出现在小程序“生僻字广场”上,点开字形图片,还可查看该字的编码状态、来源及释义。

“生僻字征集小程序”截图

生僻字数字化之难

环节多、耗时长、布局繁

然而,发现、提交生僻字,仅仅是数字化最基础的步骤。针对未编码汉字的赋码工作,耗时很长。其主要原因在于接受国际标准化组织(ISO)的赋码周期会很长,有的甚至长达3-5年。“普通用户上传生僻字,首先会和‘新国标’已有的编码做一个校验。如果该字没有被‘新国标’收录,且没有国际性编码的汉字,专家学者就会考证其是否具有价值,这一时间并不短。”

即使成功编码,在应用层,诸如政务及公共服务信息系统还要做出相应适配,当生僻字“可打印、可存储、信息可交换”,才算成功实现了“数字化”,这也需要很长时间。辜海玻简要介绍输入法背后的运行逻辑:“每一款APP的字体和编码之间都存在映射关系,当输入法把某汉字输入到聊天框时,其实是把该字背后的编码发给了正在使用的APP。”

已有网友上传“nià”姓生僻字

因此,想要成功打出一个生僻字,除了输入法支持输入,还需要各行各业信息系统的配合与支持。“无论是用户使用的电子设备,还是公共服务、政务服务系统,在需要一款输入法的基础上,更需要信息系统的同步更新。也就是说,每一个电子设备内部的计算机信息系统,都要支持拥有生僻字最新收录的输入法,信息系统也必须按照新国标的要求去做升级和改造。不然即使输入了某字,最后还是显示不出来,像跨行转账这类业务还是无法开展。”

未来,辜海玻及团队还会继续在“生僻字数字化”方面努力,让生僻字的无障碍输入惠及更多老百姓的日常生活、工作等场景。

对话

封面新闻:日常生活中几乎不会用到的生僻字,会去打捞、挖掘并数字化吗?

辜海玻:一般来说生僻字有广义和狭义两种理解。广义是有个字,我们不认识也不知道怎么读,没学过,这就是生僻字;狭义就是现在计算机系统所不识别的。2006年,国家启动了中华字库工程,专门对汉字及少数民族文字做相关的收集和传承。截至目前,一共有130万文字内容,只要哪个地方曾经出现过的,可能都被收集上来了。但是大量的汉字仅仅是内部收录,如果真的把它拿出来让大众使用,这也是一个很复杂的工程。据我了解,目前有正式编码的字,大约有10万。还有140万曾经的甲骨文、经文,或者在任何地方出现过的文字,虽然这些都没有正式编码,没有对公众开放,但它在中国历史文化里是真实存在的。

封面新闻:启动生僻字征集小程序的目的是什么?

辜海玻:首先是解决大众切实的生活痛点。我们陆续收到过很多用户反馈,他们说姓名中含有生僻字,打不出来,给生活造成了很多不便。我们希望在输入环节,帮助用户解决这个难题。一方面,我们自己要做好适配改造,所以在去年11月上线了“生僻字键盘”。另一方面,还有更多有实用价值却未编码的生僻字,我们希望为大众提供一个便捷的反馈渠道,并且能够将征集到的生僻字真正推动考证赋码。此外,生僻字是汉字的重要组成部分,有的承载了很多历史文化意义,做这个小程序,也有助力文化传承的价值。

封面新闻:现在面临的问题及挑战是什么?

辜海玻:难点就在于这个事情并非一蹴而就,需要生僻字数字化链路上多方一起行动,需要让更多的人、更多的行业、更多的领域去认识、了解生僻字可输入的价值,这样慢慢形成一种趋势,各行各业的汉字数字化就会逐步解决。

推荐内容