文章目录
👨🎓前言
随着社会的进步与文化传承的发展,新时代的年轻人展现出无比强烈的文化自信。中华文化源远流长、一脉相承,在这个强调文化自信的时代,我们不得不更加重视文化传承的历史任务,而今天,文化传承的接力棒已经交到的新一代年轻人的手中。但是古文字文化传承方面的工作目前还有待提升,其原因就在于在探索古文字释义的过程中有诸多困难,即使有大量的古文字书籍供人们阅览,但是大部分人对这部分文化少有研究,因此使得古文字文化的传承困难重重。而随着AI文字识别技术的发展,该项技术对古籍的数字化已经有了突破性的进展,这使得人们有更便捷、更先进的工具去探索古文字的秘密!本篇给大家介绍一家企业——合合信息,联合上海大学、华南理工大学团队针对现有的西南彝志、云贵一带古彝文字符开展统一编码,并于近期发布了业内首个古彝文基础编码数据库。旗下的扫描全能王“智能高清滤镜”功能,也高效解决古彝文图像电子化的问题。。本篇给大家介绍:合合信息-扫描全能王实现古彝文识别技术。
一、古彝文的深度探索
1.古彝文简介
彝文简介: 彝文指的是云南、贵州、四川等地的彝族人使用的文字,是彝族千百年来使用仍通行的表意文字。彝文产生于新石器时代到铁器时代之间,经历了文字发展的必经阶段,彝文典籍的内容涉及范围非常广泛,天文、地理、政治、经济、军事、医学、算术、地形、地貌、生物、农牧等无所不泰,其中蕴含着大量的生产与生活的技能智慧,是彝族人民开发利用所在地自然资源的经验总结和科学的结晶。
区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,根据《滇川黔桂彝文字集》,这些文字多达87046字。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。
2.古彝文传承坎坷之路
随着历史进程的不断前进,古籍的存在也变得越来越少。部分了解古彝文的长者也相继去世,这使得古彝文的研究工作变得难上加难。
(1)古彝文原籍获取难
古彝文原籍的获取非常不易,这与彝族人民的风俗文化息息相关,彝族祭司(布摩)通常不愿意外借祖传书籍,认为外借书籍是可耻的行为,所以研究者要想通过研究古彝文原籍来丰富和拓展古彝文资料是非常困难的。然而在一些研究者和专业人士的努力下,一些持有古彝文原籍的人会愿意转让部分典籍,同时也有一些致力于推广传统文化、已消除禁忌理念的人士愿意转让经书,这才使得研究者们能有更多的古彝文原籍用以研究.。
(2)古彝文原籍保存难
首先,受一些环境等不可控因素的影响,古彝文典籍在保存的过程当中十分不易,虽然在历史发展的过程中彝族人民创造出“封底裹卷装”等方式来保存古籍,但是能完好无缺保存下来的古籍却十分稀少,大部分古籍在流传的过程中或多或少都有残缺,识别起来较为艰辛。其次,部分古籍会有残缺、粘滞等问题,需要研究者进行分页、粘贴、重新拼接等,这对工作人员的研究进度造成极大阻碍。
(3)古彝文原籍翻译难
一般的古籍翻译时间在一到两年之内,具体时长又会根据古籍的难度和文字量不同而定。但是建国之初由罗国义、王兴友两位先生进行汉译的《西南彝志》(共26卷)却花了十年的时间完成翻译工作,此后王运权、王仕举等先生又花了17年才完成修订校正工作,可见古彝文原籍翻译工作十分艰难。不仅如此,古彝文的某些字符可以对应多个解释,多个字符对应一个解释,并且它的字符具有多样性和复杂性,没有统一的规范形式,因此在翻译的过程中会出现词句不通顺等情况。
二、AI实现古籍传承
1.国内文字识别技术的探索
- 摸索阶段(1979-1985年):在这个阶段,国内的一些研究者开始对汉字识别方法进行探索和尝试。这一阶段的研究主要基于对数字、英文和符号的识别研究,并开发了少量的模拟识别系统和软件。
- 研究开发阶段(1986-1988年):这个阶段是汉字识别技术的研究高潮期,也是印刷体汉字识别技术研究的丰收期。总共有11个单位进行了14次印刷体汉字识别的成果分析鉴定,这些系统对样张识别能达到高指标,可以识别宋体、仿宋体、黑体、楷体,识别的字数最多可达6763个,字号从3号到5号,识别率高达99.5%以上,识别速度在286微机条件下能够达到10~14字/秒。然而,这些系统对真实文本的识别率却比较低,主要原因是系统对印刷体文字不同形状发生变化(如文字模糊、笔划粘连、断笔、黑白不均、纸质质量差、油墨反透等等)的适应性和抗干扰性较差。
- 落地实用阶段(1989年至今):自1986年印刷体汉字识别(文字识别)掀起高潮以来,部分高校与企业研制并开发出了实用化的印刷体汉字识别网络系统。这一阶段中,除了对文字的识别,研究者们还开始关注表格的自动识别录入、名片识别、通用票据识别、图文混排及多语种混排分析、文档版面分析与识别、古文字识别等。随着技术的不断成熟,越来越多的文字OCR识别场景得以落地使用。
2.古彝文识别的难点
随着AI技术的成熟,古文字识别也通过AI技术变得更加方便、简单,但是对于古彝文来讲,依然有以下几种难点:
- 古彝文在不同地区间具有差异性,彝族人民主要分布和活动于云南、贵州、四川地区,尽管他们之间的字符大同小异,但是又由于地理位置、风俗文化等因素的影响,使得不同地区间部分相似字符具有不同含义。
- 古彝文原籍的保存具有残缺性,由于部分地区的保存原籍的技术并不完善,因此大多数样本有残缺、遮挡、模糊、褶皱、霉斑污渍、墨色深浅等问题,使得AI技术在识别古彝文字符的过程中无法精确且完整地表达出字符的含义。
- 古彝文的数据量具有不完整性,古彝文的数字化进程还处于探索阶段,针对于古彝文的还没有预留的Unicode编码区段,同时也没有公开且统一的数据集,相关的数据和资料十分地缺乏,导致大模型的训练缺少可用资料,同时AI学习需要一个相对固定的编码,这成为AI古彝文识别的最大障碍。
3.合合信息开辟国产古文字识别技术新征程
合合信息的扫描全能王是最为出色的产品之一,智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理三大核心模块组成。其中,合合信息的智能图像处理技术,能够对样本进准识别,即使是有部分遮挡、阴影、指纹或反光等问题, 该项技术也能够对文档图像进行精准的矫正处理,从而有效识别文字信息。其次,合合信息的复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。
智能识别技术的实现离不开图像处理为基础,通过智能扫描引擎AI-Scan
的支持,实现了对信息的自动识别、分类和提取的功能,从而实现图像感知与场景化决策。对于图像中光照、阴影、颜色和倾斜角度等问题,扫描全能王能够只能地决策如何优化文档的图像,使用深度学习模型来识别和理解图像的内容,再根据图像感知的结果,从而进行通识性、场景化的判断。
古文字识别技术的探索一直都是艰辛的,而合合信息另辟蹊径通过与上海大学、华南理工大学共同推进的“原生态古彝文”研究项目,以四字节编码系统为基础,标注异体字、变体字、误用字和混用字,以此精确建立彝文古籍电子数据库,为机器学习建立丰富数据样本库。针对现有的《西南彝志》之前没有统一编码的问题,合合信息对古彝文字进行了统一编码,对古彝文数字化进程以及未来文字传播起到极大推动作用,此举为国内首创。AI训练数据量较之前也有了极大提高,同时样本量7万6千字符训练,能够有效识别相关古彜文,AI识别古彝文技术逐步成熟发展。
三、古彝文识别的意义
文化传承让人们能够对过去的文化成就有更为深入的了解和认识,从而更好地塑造自己的文化身份和认同感。古彝文作为我国特有文化遗产,是国内文化的瑰宝,是中国文化必不可少的部分,学习古彝文不仅是彝族人民的专属,更是我们深入了解彝族文化的中介,这有利于丰富我国文化的多样性,增强各个民族文化间的交流,促进民族文化大繁荣。
古彝文作为彝族文化的重要载体,是我们了解彝族文化的重要的工具。通过对古彝文的研究,能够为我们学习彝族文化提供强有力的支撑,丰富传统文化的内容,并将有关于彝族的数据资料和史实建立在对古彝文字研究的基础之上。因此,古彝文的传承不仅是对彝族文化的保护,更是对彝族文化的弘扬和发展的促进。
四、👩🎓总结
虽然合合信息对古彝文AI识别的技术尚处于初期阶段,但是这也对古彝文数字化进程的发展起到重要的推动作用,相信通过技术的不断完善,古彝文的识别会变得更加便捷、高效、准确。愿国产AI识别技术越来越先进,为我国的文化传承事业提供坚实的保障!
最后,在中秋佳节,我在这用古彝文向大家表示衷心的祝福,祝大家:喜乐安康,岑静无妄!