对网络暴力Say NO！AI算法如何辨“好坏”？

2022.10.26

社交平台、短视频平台等公共网络场所，已经成为网络暴力行为的高发地。

    在刚结束的冬奥会上，就有不少人通过网络平台的评论和私信功能，对冬奥选手进行诋毁、侮辱攻击、散布不实谣言，对冬奥观赛和社区氛围造成了极大的伤害。
    事实上，网络暴力由来已久。
    由于网络暴力往往处于灰色地带，大部分暴力行为都尚未构成诽谤和侮辱，因此很难对网络暴力实施者处以刑罚或者行政处罚。
    网民的言论只要不超越法律底线，有权自由发表言论。
    为了应对网络暴力行为，全球大多数的社交平台都采用了言论投诉、评论过滤、评论／私信关闭、好友关注过滤等功能，在一定程度上缓解网络霸凌的问题。
    但限制性的功能类似于黑名单，并不能完全将网络暴力扼杀在摇篮，只能在恶意语言／图片／视频出现后进行封堵，不幸的是负面影响已经扩散开来。
    那么，能否采用技术的手段从源头就识别网络暴力行为呢？
    01
    以AI技术制止网络暴力
    成为全球研究者共同的选择
    2016年，以“贾斯汀·比伯退出Instagram”为导火索，Instagram首次推出了负面评论过滤功能。之后，Instagram还通过机器学习来处理含有攻击性信息的照片。
    2019年，Instagram又推出两大反网络暴力功能，即言论提醒和自主选定黑粉功能，用来帮用户抵制网络暴力。
    其中，言论提醒功能利用AI技术，在冒犯性言论发表之前，向发言者发出提醒。比如：当某用户输入了“你又丑又蠢。”并点击发布时，AI会发出“请为Instagram保持一个友好环境”的提醒。

    “通过获得这种干预，人们有机会反思和撤销他们的评论，使收件人避免收到有害评论通知。”Instagram主管Adam Mosseri表示，“经测试，我们发现这项功能确实有引导作用，能使一些用户撤销评论或修改评论内容。”
    近日，抖音也推出了类似的防网暴功能，并升级为AI技术和人工审核相结合的方式，对违规用户进行引导和帮助。
    当用户发布违规或低质评论之后，抖音会对该评论进行模型匹配和校验，用户会立即收到评论弹窗警示，提示“该评论可能对他人造成负面影响”，给用户一个回心转意的机会。
    当然，弹窗可以跳过并继续发布评论，但将不会被其它人看见，此时评论会进入正常审核逻辑，真正的违规评论依然会被处理。
    此外，抖音在防网暴系统中还新增了名为“心情暖宝宝”的平台助手。
    如果用户多次违规发布私信、评论，AI算法可以自动匹配触发“心情暖宝宝”，用消息对话尝试缓解用户的抑郁情绪，甚至引导用户去人工求助、线下就诊。

    此外，用户也可以自主在推荐、搜索、评论等场景减少负面内容推荐。
    除了识别谩骂／骚扰信息等明显的负向内容，如：反讽攻击、答非所问、垃圾广告导流这类“阴阳怪气”的内容，在不同讨论语境下也会引发不同情绪，这更为AI算法识别带来了极大挑战。
    对此，2018年知乎就通过AI技术尝试处理阴阳怪气的言论。“瓦力”作为知乎社区治理的算法机器人之一，能在0．3秒内识别判断内容是否为不友善、答非所问、阴阳怪气等多种需被折叠的答案。

    “我们基于对于用户切实体验的累积观察，与算法团队一起，从情感倾向性、亲密关系、文本特征三方面入手，训练出能够识别阴阳怪气的算法模型。
    目前‘瓦力’对阴阳怪气评论文本的识别准确率，已非常接近社区最大公约数，比很多人工判断都更准。”知乎运营总监孙达云表示。
    所谓“社区最大公约数”指的是社区共识，即长久积淀下来知乎和用户共同认可的一种公约，知乎称之为知友们对价值判断的最大公约数，比如“知乎不让骂人”，比如“对优质内容的界定”等。
    知乎在过去多年中所累积的“举报”等带有用户筛查性质的行为语料和丰富的社区管理经验，使得知乎得以迈出关键一步：用社区最大公约数作为判定尺度。
    在算法方面，通过400多个前沿的深度学习模型识别过亿内容，现在的知乎平台，可以智能地进行倾向性识别、爆照识别、风险图片识别等等。


    1  2  下一页>