"佳宇" —— 内容安全多模态大模型 | 北京石油化工学院人工智能研究院

一、产品定位

佳宇内容安全多模态大模型（Jiayu Content Security LMM） 是一套面向视频的智能内容安全审核系统，帮助视频平台、运营团队和内容审核人员在视频发布、内容巡检和人工复核场景中自动发现潜在风险。

与只看单一画面或只查字幕的审核方案不同，佳宇会同时分析视频中的 画面、语音、画面文字、字幕、人脸和二维码 等多个信息通道，把多个通道的证据汇总起来给出综合结论，并提供可追溯的证据线索，便于人工复核与运营决策。

      一句话概括：佳宇把视频内容安全审核从“单点识别”升级为“多模态证据融合 + 可追溯复核”的智能审核闭环。
    

佳宇不是只看单一画面，而是把多个通道的证据汇总后给出综合结论，形成“结论—依据—定位”的闭环。

画面审核识别视频帧中的涉政、色情、暴恐、广告导流等视觉风险，并可结合业务关注场景扩展审核维度。

画面文字识别（OCR）识别字幕、角标、水印、招牌、新闻标题等画面文字，再对文本内容进行敏感与违规分析。

语音内容审核（ASR）将视频语音转换为文本，覆盖辱骂、违禁表述、不当宣传等常见音频风险场景。

人脸识别与敏感人物匹配检测画面人脸并与平台人脸库比对，识别劣迹艺人、涉政人物、公众人物或自定义重点名单。

二维码识别识别画面中的二维码并提取内容，辅助发现外链导流、引流到非合规渠道等风险。

综合判定对整段视频输出统一风险等级和说明，标明风险所在时间范围与对应证据。

PASS 通过 REVIEW 建议人工复核 REJECT 建议拦截

视频审核完成后，系统会在结果页集中展示整体结论、风险摘要、关键截图和命中详情，让审核人员能够快速回答“能不能通过、风险在哪里、为什么判定有风险”。

整个流程无需编写代码，也无需了解内部引擎细节，运营、审核、风控和内容安全团队即可直接使用。

多模态覆盖同时看画面、文字、语音、人脸和二维码，减少单通道漏检。

结果可解释不只给一个分数，还给出时间点、截图、文本和命中依据。

人工复核友好风险帧和风险语音可直接查看，减少翻找视频的时间。

策略可运营人脸库和敏感词库可由运营在线维护，适应不同业务变化。

本地化部署支持内网环境运行，适合对数据安全要求高的客户。

佳宇可按客户需要提供两种部署形态：

具体部署方案与硬件要求以商务与交付方案为准。

内容安全多模态大模型视频审核OCRASR人脸识别二维码识别私有化部署