随着互联网的飞速发展,网络文本的数量呈现出爆炸性增长。这些文本内容来源于各种渠道,其质量和合规性难以得到有效保障。为了维护网络空间的纯净与秩序,对网络文本进行快速、准确的内容审核显得尤为重要。通过运用先进的自然语言处理技术和人工智能算法,我们能够自动识别和纠正错误文本,同时有效遏制违规违法内容的传播。
在文本纠错和内容安全审核领域,匠数科技已持续深耕多年,积累了海量的数据,构建了庞大的知识图谱。同时,在文本纠错中,收集常见混淆集近万对词语,覆盖政务、新闻、娱乐媒体、微博评论等多个领域。
匠数科技基于自身多年海量数据积累,针对文本内容审核和文本纠错任务实际,创建了独特的Themis预训练方式。和常规预训练相比,Themis语言模型有如下特点:
1、将拼音还原作为预训练任务之一
如语句:“我们正在去北京的路上”。将“北京”替换成“bj”或者“beijing”,成为:“我们正在去bj的路上”或者“我们正在去beijing的路上”,让模型还原出真实的文本。这样,Themis模型天然具备了对抗拼音替换的能力,为下游文本纠错和内容审核提供强大支撑。
2、融入文本纠错能力
将正常文本中一定比例的字词替换为音近形近字词,训练模型还原原始文本的能力。如将“我们在去北京的路上”,替换成“我们在去背景的路上”,让模型还原出原始的文本。
文本内容审核一个特点是时效性强。有些突发事件后,某些内容可能会立刻成为违规内容。在这种情况下,通过更新模型来应对往往比较难,为此,我们研发了基于动态权重的关键词检测模型。该模型可以动态加载关键词列表并调整关键词的检测权重。
匠数科技依靠多年的行业积累,已经成为该领域的先行者。未来,匠数将继续深耕文本纠错和内容安全审核领域,跟踪CV、NLP领域的前沿进展,研发更加先进的文本纠错和内容安全审核系统,推动行业发展。