2025年浅谈信息过滤

浅谈信息过滤年终岁尾 一边跑着模型 一边整理下今年的工作 除了开始做了些聚类 rank 工作 后来主要集中在信息过滤方面 视频聊天审核 新闻评论审核 新闻文本内容黄反检测 垃圾图片检测以及新闻推广内容过滤 首先谈谈聊天过滤 直播间聊天 其实很难用机器学习模型训练 因为数据常常人为可以增加噪声 希望通过噪声的作弊 来发表一些被屏蔽的言论 而这些噪声大多集中在间隔符 拼音 形近字 音近字的形式

大家好,我是讯享网,很高兴认识大家。
年终岁尾,一边跑着模型,一边整理下今年的工作,除了开始做了些聚类,rank工作,后来主要集中在信息过滤方面:视频聊天审核,新闻评论审核,新闻文本内容黄反检测,垃圾图片检测以及新闻推广内容过滤。 首先谈谈聊天过滤。直播间聊天,其实很难用机器学习模型训练,因为数据常常人为可以增加噪声,希望通过噪声的作弊,来发表一些被屏蔽的言论。而这些噪声大多集中在间隔符,拼音,形近字,音近字的形式,并且具有快速扩展的特点。什么是快速扩展呢?就是一旦有一个人成功绕过检测机制发表了恶意言论,那么其他人很容易跟着学习。所以只用离线方式很难hold住线上突发情况,而发现后往往已经出现了大量关联内容。 Yara是一个开源的病毒代码过滤引擎,可以支持很多复杂的类似正则的规则,可以针对文本,也可以针对byte字节,最后编译时会根据规则自动生成一个类似有限自动机(和正则很类似)。同时,可以根据聊天特点,自行开发一些规则自动生成脚本,这样对间隔符,拼音,形近字,音近字等形式就有了一定的鲁棒性。考虑到线上的突发状况应对,可以对同一检测目标的聊天进行检测,有针对性开发监测算法,发现疑似突发状况提醒运维,利用kafka,结合前端,让运维可以简单快速的增加规则。 再说说评论过滤。评论是一个需要具备可读性的内容,因为作者希望通过它和其它读者沟通,当然,恶意广告,辱骂反动除外。这里可以用一些数据结构,比如datree,对一些高度敏感内容进行快速检测,也可以使用Yara或者一些正则之类规则,加强下检测器的鲁棒性。同时,因为大部门内容都是可读的&

讯享网
小讯
上一篇 2025-02-07 09:29
下一篇 2025-01-10 19:22

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/125779.html