金山办公获得发明专利授权:“文档内容的乱码识别方法、装置及电子设备”

证券之星消息,根据企查查数据显示金山办公(688111)新获得一项发明专利授权,专利名为“文档内容的乱码识别方法、装置及电子设备”,专利申请号为CN201810782436.9,授权日为2024年1月26日。

专利摘要:本发明实施例提供的一种文档内容的乱码识别方法、装置及设备,通过解析待处理文档,得到待处理文档的文字解析结果,从待处理文档的文字解析结果中提取各个字体信息。根据各个字体信息,将与字体信息对应的字体库加载到待处理文档中的文本中并进行编码,获得编码后的文本数据。当编码后的文本数据中有生僻字时,基于编码后的文本数据中生僻字的字数和待处理文档中文字的字数,计算得到生僻字在待处理文档中的占有率。判断生僻字在目标文本中的占有率是否大于第一预设阈值,若大于,则识别出编码后的文本数据中包含乱码文本数据。实现了自动识别编码后的文本数据是否包含乱码文本数据,提高了文档内容的乱码识别的便捷性。

今年以来金山办公新获得专利授权10个,较去年同期增加了233.33%。结合公司2023年中报财务数据,2023上半年公司在研发方面投入了7.17亿元,同比增11.42%。

打开APP阅读更多精彩内容