你的位置：开元ky888网址进入下载 > 新闻中心 > 开云kaiyun体育东谈主类需要教训 AI 安全基本原则媾和德准则-开元ky888网址进入下载

开云kaiyun体育东谈主类需要教训 AI 安全基本原则媾和德准则-开元ky888网址进入下载

时间：2024-11-09 02:56 点击：63 次

AI 若何变得愈加安全？

钛媒体 App 11 月 3 日音书，华东谈主后生科学家、OpenAI 计划副总裁（安全）翁荔（Lilian Weng）近期在 2024Bilibili 超等科学晚上发表主题为《AI 安全与"培养"之谈》的演讲。这是其初次在国内发表对于 AI 本事的演讲。

翁荔示意，ChatGPT 横空出世以来，AI 本事如同搭乘了高速列车，飞速渗入并影响着东谈主类。AI 每天都在变化，需要咱们全心指令、讲授，确保是更好的服务于东谈主类，同期确保安全。而一个既安全又智能的 AI，无异于将为咱们的生存带来诸多裨益。

具体来说，跟着 AI 的智能化和自主化，确保其行径恰当东谈主类价值不雅变得进攻，AI 可能因偏见而变得褊狭，或因反抗性报复而受到质疑。因此，需要全心指令 AI，确保其服务于东谈主类并确保安全，而 AI 安全是达成其潜在益处的基础，雷同于自动驾驶本事。

从数据层面，提供各类、全面、正确的数据，不错减少 AI 的偏见，而依赖于多东谈主标注的数据，以提高 AI 的准确性；同期，基于强化学习（RL）和基于东谈主类响应的强化学习（RLHF），通过赏罚机制教练 AI，雷同于教练小狗；此外，使用模子自我评价和戒备的行径限定来晋升 AI 的输出质地。比如，在文档写稿和视频音乐制作中，平时东谈主不错通过设定配景、扮装想想和重要词来指令 AI。

翁荔毕业于北京大学信息惩办系，如今该系名为北京大学数字东谈主文实验室，她是 2005 级本科生，是"兜乐"名堂标主干运筹帷幄东谈主员，毕业后赴好意思攻读博士学位，曾赴任于 Facebook，如今是 OpenAI 华东谈主科学家、ChatGPT 的孝顺者之一。

翁荔在 2018 年加入 OpenAI，其后在 GPT-4 名堂中主要参与预教练、强化学习 & 对王人、模子安全等方面的使命。她曾建议最著明的 Agent 公式—— Agent= 大模子 + 追究 + 主动谋略 + 器具使用。

翁荔在演讲中示意，东谈主类需要教训 AI 安全基本原则媾和德准则，使其成为东谈主类的伙伴。同期，通过想维链（CoT）推理和扩张性计划来晋升 AI 的可靠性和监督。

翁荔强调，AI 安全需要每个东谈主的参与，社区不错共同影响 AI 的成长。

" AI 的安全不单是是计划者的拖累，它需要每一个东谈主的参与。AI 本事是一把双刃剑，它带来的便利和挑战并行，咱们的参与至关进攻。"翁荔称。

以下是翁荔演讲执行，经钛媒体 AGI 裁剪整理：

全球好，我是翁荔。今天我想与全球探究一个既深切又兴趣的话题，AI 安全，以及咱们若何像培养下一代一样，教诲出既理智又安全的东谈主工智能。

继 ChatGPT 横空出世以来，AI 本事如同搭乘了高速列车，飞速渗入并影响着咱们的日常。

AI 每天都在进化，需要咱们全心指令与讲授，以确保其更好地服务于东谈主类，同期确保安全无虞。一个既安全又智能的 AI 无疑将为咱们的生存带来诸多裨益。

试想一下，一个能瞻念察你生存俗例的智能家居系统，能证据你的需求自动调养室内温度和光泽，或是一个期间关注你健康景况的 AI 助手，能为你提供量身定制的健康建议。

AI 不仅能显耀晋升咱们的生存质地，还能征战新的做事范围，晋升使命效果。

关联词，这一切均成立在 AI 安全的基础之上。正如自动驾驶本事一样，它能极大的晋升生存便利性，但是一朝出错，后果可能不胜遐想。

跟着 AI 应用日益智能化与自主化，若何确保 AI 的行径恰当东谈主类价值不雅，确实作念到以东谈主为本，成为了 AI 安全与对王人计划的中枢议题。东谈主类在成长流程中会继续学习跳跃，但也会碰到成长的烦扰。AI 一样如斯，它可能会因为数据偏见而变得褊狭，也可能因为反抗性报复而被坏心利用。

全心讲授，也便是 AI 安全和对其计划，才能使 AI 成长流程愈加胜仗。

让咱们以健康范围的应用为例，许多疾病计划的数据频频以男性群体为主，这可能导致 AI 在处理女性的健康问题时风险评估不准确。此外数据自身也有可能存在偏见，比如有计划标明女性腹黑病症状更容易被归结有益焦等热诚问题而形成会诊遗漏。因此，咱们需要通过对 AI 安全和对其的计划来减少这种偏见。

AI 学习的基础是数据，数据是它的什物，要想让 AI 变得理智可靠，咱们必须确保它养分平衡，也便是提供各类、全面、正确的数据，匡助它大要正确的领路这个复杂的全国并减少偏差。

在使用东谈主类标注的数据时，咱们不错依赖于群体机灵，也便是 the wisdom of the crowd，即合并个数据点被多东谈主标注无数票顺利，这种技艺浅显而有用。专诚想的是，1907 年的一篇当然科学杂志中的著述，作家跟踪了一场年度博览会上的一个兴趣的竞有奖竞猜。博览会上东谈主们选出一头肥牛，让全球来预料牛的分量，最接近真实数据的东谈主将得到大额的奖金。

作家发现，最中间值频频是最接近真实的 the medium value，而这个数推测值也被称为 wax popular。它是拉丁语中 the voice of the people，也便是东谈主民的声息的兴趣。在这篇快要 120 年前的科学著述中，作家回归谈，我以为这个放胆比东谈主们预期的更能阐明民主判断的简直度。这亦然最早提到群体机灵若何发生作用的科学文件。

而至于若何把高质地标注的数据喂给 AI，基于东谈主类响应的强化学习，也便是 RLHF 本事起到了重要作用。

在了解 RLHF 之前，让咱们快速了解一下什么是 RL reinforce learning。强化学习是一种机器学习技艺，它主要通过赏罚机制来让模子学会完成任务，而不是依靠径直告诉模子若何去作念这些任务。假想一下它就好像你要教练小狗，若是小狗作念对了一个动作，比如坐下你就给它一块骨头饼干，作念错了就不给奖励。这么小狗就会因为想吃到更多的饼干，而学会若何正确的坐下。

同理，AI 也在这种赏罚机制中学习，通过继续的尝试并得到响应，找到最好的行径战略。一个早期的计划标明，强化学习能利用少许东谈主类响应，快速有用的教训智能体作念复杂的动作，比如学会若何后空翻。

一样的技艺也不错用于教练大讲话模子。当咱们看到，针对合并问题的不同 AI 恢复时，咱们不错告诉模子，哪一个恢复更好、变嫌确、更恰当东谈主类价值不雅。这么咱们就像家长校正孩子一样，大要调养 AI 的学习流程。

此外，咱们还不错使用模子自身看成输出 I 输出质地的评分者。比如在 entropic 发表的 constitutional AI 中，模子就通过对我方行径的自我评价进行翻新。或者像 OpenAI 最近发表的对王人强化学习中，咱们不错制定十分戒备的行径限定来告诉 AI，比如若何何时间隔用户的央求，若何抒发同理心等等。然后咱们在 RL 的奖励机制中，十分精确的来予以相应的评分和奖励。这个流程中，一个愈加高大的 AI 有能力更精确的判断他是否有在谨守东谈主类的价值不雅和行径准则。

总之，强化学习本事就像一把钥匙，匡助咱们掀开 AI 高质地学习和发展的大门。在培养 AI 更懂咱们的流程中，平时东谈主也能施展进攻的作用。

在文档写稿，咱们不错弃取两个小技能。最初设定戒备的配景和扮装，就像导演为演员准备脚本一样，让 AI 在丰富的情境中捕捉咱们的意图。其次，精心挑选重要词，构建逻辑显着的文档结构，使文档既好意思不雅又实用。

在视频音乐制作范围，咱们不错通过使用专科术语来指令 AI 比如黄金分割构图或和弦进即将创意转移为现实。同期别忘了厚谊的进入，因为这是赋予灵作品灵魂的重要。

简而言之，通过良好的指挥和心扉的融入，咱们不错匡助 AI 创作出既丰富又富裕感染力的作品。

在西纪行中，孙悟空有紧箍咒不断行径，咱们应该给 AI 模子也带上紧箍咒，也便是教训 AI 安全基本准则不断媾和德标准，让其盲从行径范例。以东谈主类利益为先，成为咱们贴心的伙伴，而不是冰冷的机器。

让 AI 学习基本原则媾和德准则，不错使模子在靠近复杂问题时哄骗推理得出正确的论断。

比如在 OpenAI 最近发表的 o1-preview 模子中，咱们通过想维链推理，加强了模子的鲁棒性，Robust 使得模子不错更好的拒抗逃狱报复。

扩张性监督在 AI 对其计划中也十分进攻。跟着 AI 模子扩大，需要联接自动化器具和东谈主类监督，有用的监督其行径，确保它朝着正确的地方发展。在一组计划中，咱们用监督学习教练讲话模子，对网罗文本选录进行月旦。比如提高提供这个选录十分准确，或者这个选录遗漏了重心等等。指摘比拟对照组，咱们发现存 AI 匡助的标注员比莫得匡助的能多。找出选录中约 50% 的问题，况且无数月旦都参考了模子提供的执行。总之，给 AI 设定标准并进行有用监督，不错晋升它对东谈主们的匡助。

其实，AI 的安全不单是是计划者的拖累，它需要每一个东谈主的参与。

以 B 站为例，这个充满活力的社区计划了繁多 AI 青睐者和创作家，咱们在这里共享办法、接头问题，致使监督 AI 的施展，共同影响着 AI 的成长。

咱们每个东谈主都应该成为 AI 的全球长，不仅监督和响应 AI 的施展，还参与塑造一个安全简直的 AI 全国。

AI 本事是一个双刃剑，它带来了便利与挑战并行，咱们的参与至关进攻。让咱们联袂培养出一个既理智又精良的 AI 伙伴。感谢全球的凝听，但愿今天的共享能引发全球对于安全的关怀和意思。也感谢 B 站提供这个平台，让咱们共同为 AI 的翌日孝顺力量。

谢谢。

（本文首发于钛媒体 App，作家｜林志佳，裁剪｜胡润峰）