找回密码
 会员注册
查看: 24|回复: 0

基于无监督学习的语义不畅低质文本识别与应用如何撑起58同城海量数据?

[复制链接]

2万

主题

0

回帖

6万

积分

超级版主

积分
64425
发表于 2024-9-19 21:59:50 | 显示全部楼层 |阅读模式
导语为了识别业务数据中存在的随机字、语义不连贯、不符合常用规范的语言现象,本文提出了一种利用大规模无监督语料,训练语言模型计算语句困惑度的方法,将低质文本识别问题转化为阈值判定问题。实际应用效果表明,该方法具有无数据标注成本、识别准确率高、领域迁移性强等特点,可以快速有效地推广到其他业务场景。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-26 23:25 , Processed in 0.456588 second(s), 26 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表