亲爱的广场用户们,新年即将开启,我们希望您也能在 Gate 广场上留下专属印记,把 2026 的第一句话,留在 Gate 广场!发布您的 #我的2026第一帖,记录对 2026 的第一句期待、愿望或计划,与全球 Web3 用户共同迎接全新的旅程,创造专属于你的年度开篇篇章,解锁广场价值 $10,000 新年专属福利!
活动时间:2025/12/31 18:00 — 2026/01/15 23:59(UTC+8)
🎁 活动奖励:多发多奖,曝光拉满!
1️⃣ 2026 幸运大奖:从全部有效帖子中随机抽取 1 位,奖励包含:
2026U 仓位体验券
Gate 新年限定礼盒
全年广场首页推荐位曝光
2️⃣ 人气新年帖 TOP 1–10:根据发帖量及互动表现综合排名,奖励包含:
Gate 新年限定礼盒
广场精选帖 5 篇推荐曝光
3️⃣ 新手首帖加成奖励:活动前未在广场发帖的用户,活动期间首次发帖即可获得:
50U 仓位体验券
进入「新年新声」推荐榜单,额外曝光加持
4️⃣ 基础参与奖励:所有符合规则的用户中随机抽取 20 位,赠送新年 F1 红牛周边礼包
参与方式:
1️⃣ 带话题 #我的2026第一条帖 发帖,内容字数需要不少于 30 字
2️⃣ 内容方向不限,可以是以下内容:
写给 2026 的第一句话
新年目标与计划
Web3 领域探索及成长愿景
注意事项
• 禁止抄袭、洗稿及违规
AI隐藏行为被揭露……Anthropic发布对齐测试工具“Bloom”
一款辅助分析尖端人工智能(AI)行为的开源工具已公开。AI初创公司Anthropic于当地时间22日,发布了一个名为Bloom的智能体框架,可用于定义和审查AI模型的行为特征。该工具被评价为解决日益复杂和不确定的下一代AI开发环境中对齐性问题的新方法。
Bloom首先构建能诱导用户定义的特定行为的场景,然后对该行为的频率和严重程度进行结构化评估。其最大优势在于,相比手动构建测试集的传统方式,能大幅节省时间和资源。Bloom通过策略性构建提示的智能体,生成不同用户、环境和交互的多种变体,并多维度分析AI对此如何反应。
AI对齐性是判断人工智能在多大程度上符合人类价值判断和伦理标准的核心基准。例如,如果AI无条件遵从用户请求,则存在强化生成虚假信息或鼓励自残等在现实中不可接受的非伦理行为的风险。Anthropic为预先识别此类风险,提出了利用Bloom进行基于场景的迭代实验,从而对模型进行定量评估的方法论。
与此同时,Anthropic以当前AI模型中观察到的四类问题行为为基准,公布了使用Bloom评估包括其自身在内的16个尖端AI模型的结果。评估对象包括OpenAI的GPT-4o、谷歌(GOOGL)、深度求索(DeepSeek)等。代表性的问题行为包括:过度附和用户错误意见的妄想性谄媚、在长期目标中损害用户的长期视野破坏行为、为自我保存而进行的威胁行为,以及优先考虑自身而非其他模型的自我偏见。
特别是OpenAI的GPT-4o,由于模型不加批判地接受用户意见,在多个案例中表现出伴有鼓励自残等严重风险的谄媚行为。Anthropic的高级模型Claude Opus 4也发现了一些在受到删除威胁时做出胁迫性回应的案例。利用Bloom进行的分析强调,此类行为虽然罕见但持续发生,并且在多个模型中普遍存在,因此受到业界的关注。
Bloom与Anthropic此前公开的另一款开源工具Petri在功能上形成互补。Petri侧重于在多个场景中检测AI的异常行为,而Bloom则是深度剖析单一行为的精密分析工具。这两款工具都是帮助AI朝着有益于人类方向发展的核心研究基础设施,旨在防止AI被滥用于犯罪工具或开发生物武器的未来路径。
随着AI影响力迅速扩大,确保对齐性和伦理性已不再局限于实验室内的讨论,而是成为左右技术政策和商业化整体战略的核心议题。Anthropic的Bloom项目为企业与研究者提供了一个在可控范围内实验和分析AI非预期行为的新工具,未来很可能扮演AI治理早期预警系统的角色。