AI安全工具导航 | 模型安全/深度伪造检测/红队测试

对话写作社区视频绘画搜索设计指令音频办公编程法律智能体学习知识库 MCP 游戏翻译金融电商健康安全公益

Lakera LLM安全

实时LLM安全防护平台，防止Prompt注入、数据泄露和有害内容生成。

HiddenLayer 模型安全

AI模型安全防护平台，检测和防御针对ML模型的对抗攻击和数据投毒。

AI安全红队测试平台，自动化发现LLM和ML系统的安全漏洞。

IBM开源对抗鲁棒性工具包，提供对抗攻击、防御和鲁棒性评估功能。

开源 CleverHans

开源对抗样本库和基准测试工具，用于评估和提升ML模型的鲁棒性。

开源Prompt注入检测和防护工具，多层过滤机制保护LLM应用安全。

开源LLM安全扫描器，检测注入攻击、越狱和数据泄露等多种漏洞。

WhyLabs AI监控

AI可观测性和安全监控平台，实时检测模型行为异常、数据漂移和安全风险。

Arthur AI监控

LLM监控和安全平台，实时检测幻觉、偏见、注入攻击和输出质量。

Fiddler 模型可解释性

AI模型可解释性和监控平台，提供模型公平性、安全性和合规性评估。

AI治理和合规平台，帮助企业确保AI系统符合法规和道德安全标准。

Perspective API

Perspective Google

Google开源的内容审核AI，检测文本中的毒性、侮辱和骚扰内容。

OpenAI Moderation

OpenAI 内容审核

OpenAI官方内容审核API，检测文本和图像中的有害、违规和不安全内容。

Anthropic Safety

Anthropic 安全对齐

Claude模型内置的安全机制，包括Constitutional AI对齐和多层输出过滤。

开源模型测试

开源 AI 模型测试和安全评估框架，支持 LLM 漏洞扫描、偏见检测和合规性验证。

开源 LLM护栏

开源 LLM 输出护栏框架，检测并阻止幻觉、数据泄露和违规输出，确保 AI 应用安全合规。

开源 LLM安全

ProtectAI 开源的 LLM 安全工具箱，提供输入净化、输出过滤、PII 脱敏等安全防护功能。

NVIDIA NeMo Guardrails

开源 LLM安全

英伟达开源 LLM 安全护栏框架，定义对话边界规则确保 AI 系统安全可控，支持多种 LLM 集成。

开源漏洞扫描

开源 LLM 漏洞扫描框架，模拟对抗性攻击检测大模型的越狱、幻觉和偏见等漏洞。

免费深度伪造检测

免费在线深度伪造检测工具，AI 识别换脸视频和图像，保护个人和机构免受 Deepfake 威胁。

Security Copilot

Security Copilot

微软安全 AI 助手，基于 GPT-4 和微软安全情报，辅助安全分析师进行威胁检测与响应。