在互联网的浪潮下,海量的文本内容如雨后春笋般涌现,且数量仍在持续飙升。这些文本内容来源于各种渠道,其真实性和合规性难以得到有效保障。因此,如何快速准确地纠正错误文本、识别并遏制违规违法内容,成为了一个亟待解决的现实问题。这不仅关乎到网络环境的纯净度,更影响到社会的和谐稳定。自然语言处理技术在这一领域具有巨大的应用潜力,有望为解决这一问题提供有效的技术支撑。
实现文本纠错的难点在于:
1、错误来源多样
有的是用户输入错误,有的是ocr识别错误,有的是语音识别错误。不同来源的文本产生的错误类型差异性较大。如ocr识别文本中的错误主要是形近错误、语音识别的错误主要是音近错误。
2、真实错误样本稀疏
现实中,获取用户真实的错误文本代价较高,而且不同领域具有明显不同的错误分布,难以统一建模解决。
在文本纠错和内容安全审核领域,匠数科技已持续深耕多年,积累了海量的数据,构建了庞大的知识图谱。同时,在文本纠错中,收集常见混淆集近万对词语,覆盖政务、新闻、娱乐媒体、微博评论等多个领域。