基于无监督学习的语义不畅低质文本识别与应用如何撑起58同城海量数据？

见贤思齐 · 发表于 2024-9-19 21:59:50

导语为了识别业务数据中存在的随机字、语义不连贯、不符合常用规范的语言现象，本文提出了一种利用大规模无监督语料，训练语言模型计算语句困惑度的方法，将低质文本识别问题转化为阈值判定问题。实际应用效果表明，该方法具有无数据标注成本、识别准确率高、领域迁移性强等特点，可以快速有效地推广到其他业务场景。

		自动登录	找回密码
密码			会员注册