和风网标志

乐于助人的助手、浪漫的伴侣,还是骗子?第一部分 » CCC 博客

日期:

CCC 在今年的 AAAS 年会上支持了三场科学会议,如果您无法亲自参加,我们将回顾每场会议。本周,我们将总结会议小组成员演讲的亮点,“大型语言模型:乐于助人的助手、浪漫的伴侣还是骗子?” 该小组由 玛丽亚·基尼博士, CCC 理事会成员、明尼苏达大学计算机科学与工程教授,特色 埃斯·卡马尔博士,微软研究院人工智能前沿董事总经理, 哈尔·道梅三世博士,马里兰大学计算机科学教授, 乔纳森·梅博士,南加州大学信息科学研究所计算机科学教授。

大型语言模型处于当今社会对话的最前沿,而且它们是否符合围绕它们的炒作,尚无定论。本次 AAAS 会议的小组成员讨论了法学硕士的可能性、挑战和潜力。

第一位小组成员是 Ece Kamar 博士(微软研究院)。她将人工智能的现状描述为“相变”。她提供了独特的视角,见证了行业中人工智能的变化,以及深度学习模型的指数级增长,很少有人预计这种增长会持续到 2024 年。

这一增长是由于法学硕士接受培训的数据量的增加以及称为 Transformer 的更大架构造成的。 Kamar 博士在图表中分享的一个有趣的见解是,模型的扩展速度如此之快,因为它们最初只是针对特定任务进行训练;他们可以可靠地执行任务。 ChatGPT 表明,如果规模足够大,包括模型考虑的参数数量,模型可以开始以与经过专门训练来完成相同任务的模型类似的性能来完成任务。

这就是LLM相变的定义:模型不再需要针对特定​​任务进行专门训练,而是可以进行通用训练,然后执行许多任务。而且没有迹象表明这些能力的增长正在放缓。

Kamar 博士很早就接触到了 GPT-4,在她大量的测试过程中,它在规模和数据方面的显着改进以及它可以同步完成不同任务的事实给她留下了深刻的印象。

这些法学硕士的未来会怎样?卡马尔博士预计法学硕士将超越人类语言,学习机器语言并能够在两种语言之间进行翻译。这将增强输入和输出的模态能力,这可能导致模型不仅能够生成语言,还能够生成行为中的动作和预测。

接下来,卡马尔博士详细介绍了计算中发生的重要相变。如今系统的开发方式非常不同,这种开发需要创建一种新的计算范式,而我们目前只触及了表面。未来几年,我们与计算机交互的方式将会发生很大的变化,这需要重新思考人机交互(HCI)。

另一个变化是人类前进的工作方式。微软进行的研究表明,在人工智能的帮助下,员工的工作效率可以通过编写代码行数来提高一倍。这是一项令人难以置信的壮举,但这项技术的工作方式及其智能从何而来很大程度上未知,因此该领域存在很多研究问题。

还有很多关于像这样的法学硕士可能被滥用的问题。人们对公平性、不同的人口风险以及其他更严重的后果感到担忧。虽然科学发现具有巨大的潜力,但也存在巨大的潜在危害;例如说服父母不要给孩子接种疫苗、说服孩子做坏事,或者说服某人世界是平的。法学硕士的开发已经投入了大量的安全工作,开源也非常有助于在这一领域取得进展。  

卡马尔博士随后向科学界提出了问题:

  • 人工智能的颠覆将如何改变科学?
  • 我们是否正在采取措施改变教育和培训下一代的方式?
  • 您是否正在构建技术基础设施以从这一阶段转变中受益?
  • 我们是否正在为子孙后代迎接新世界做好准备?

最后,Kamar博士强调,值得注意的相变核心方面之一是法学硕士的发展速度。这些模型在很短的时间内取得了显着的改进,计算研究人员还有很多工作要做。

第二位小组成员 Hal Daumé III 博士(马里兰大学)在演讲开始时解释说,应该开发人工智能模型来帮助人们做他们想做的事情;增强人类工作,而不是自动化。自 60 世纪 XNUMX 年代以来,这种自动化愿景已经渗透到整个社会。科学家们并没有帮助人们更好地下棋,而是设计了一个自己下棋的系统。

这种哲学不会消失。如今,一旦人工智能足够智能,能够独立完成一项任务,它仍然具有新闻价值。这是人工智能的血液深处。在花费时间和金钱实现系统自动化之前,我们应该首先停下来问一下这符合我们的利益吗?

Daumé 博士提出了增强的概念:人工智能如何用作工具?像 Github copilot 这样的系统可以提高生产力,但仅仅提高生产力还不够。该系统的一位用户惊呼,它让他们专注于有趣的编码部分,这更符合人工智能的构建方式。

人工智能研究人员不应该想要删除一个人工作中有趣的部分;他们应该优先考虑消除苦差事。它应该改善人类的生活,而不仅仅是提高公司的利润。

Daumé 博士与人合着了一篇论文,提出了这些观点,但反驳的观点是,从技术角度来看,尤其是使用机器学习技术构建系统,自动化往往比增强更容易。这是因为训练系统所需的数据很容易获得。我们通过工作来提供这些信息,并且很容易训练机器学习来模拟人类行为。教授一个系统来帮助某人完成任务要困难得多。这些信息分散在 NSF 的文献评论、程序员写在纸上的内容等中。帮助人类完成任务所需的数据没有记录。

构建有用系统的另一个关键方面是询问用户哪些系统对他们的生活有帮助。例如,盲人的需求与视力正常的人的需求有很大不同(也不同于视力正常的人的需求) 认为 盲人的需求是)。道梅博士分享的一个例子是,视觉系统可能会显示某个物体是一罐汽水,但盲人通常可以自己分辨出来。苏打水的成分对他们来说会更有用。系统对简单理解问题的响应质量与解决可访问性问题之间存在巨大差距,而且这种差距正在扩大。

在创建技术来“帮助”社区需求之前首先确定社区需求的重要性的另一个例子是内容审核。许多志愿者内容管理员参与这项工作是因为他们想让世界变得更美好,并帮助建立一个他们认为重要的社区。当被问及他们想要什么样的工具来协助他们的角色时,他们通常不希望他们的工作完全自动化,他们只是希望像查找聊天记录这样无聊的部分变得更容易。

道梅博士用他热爱汽车的妈妈的最后一个例子来结束这次讨论,她热爱汽车,但拒绝驾驶自动挡汽车。她选择了手动变速箱,这个选择对她来说非常重要。人们应该能够控制自己的任务是否自动化。

Daumé 博士继续讨论,提供了当前无障碍技术方法的替代方案。例如,当围绕手语识别构建工具时,不要在互联网上抓取人们手语的视频(这有很多同意和隐私问题,而且这些视频大多数是专业人士的,没有背景噪音/干扰,这不是“不现实),联系社区并启动一个项目,使他们能够提交视频来培训工具。像这样的社区优先策略更加道德和负责任,并给予用户更多的控制权。 

Daumé 博士总结道,法学硕士和其他工具的开发应优先考虑实用性,而不是智力。它越有用,就越能帮助人们做他们不能或不想做的事情,而不是自动化人们已经做得很好和喜欢的事情。

乔纳森·梅博士(南加州大学信息科学研究所)是下一位演讲者,他首先回顾了会议的主题:“迈向无围墙的科学”。他认为,虽然最近法学硕士的发展为某些人推倒了障碍,但它却为许多人筑起了障碍。

他首先讨论了互联网如何降低了进行研究的许多障碍;当他 17 岁时,他想知道为什么《星球大战》和《指环王》的情节非常相似,他不得不开车去图书馆找到一本有答案的书。他为他的博士论文做了更高风险但同样艰巨的研究,但在他学习结束时,已经创建了一个关于该主题的维基百科页面,然后是互联网搜索,现在无车研究已成为常态。

梅博士继续说道,他很荣幸能够成为法学硕士的目标受众。他不经常编码,也从未学习过很多编码技能,但当他的工作确实需要它时,他可以询问 ChatGPT,它做得很好。 

然而,要使法学硕士的实用性得到广泛应用,还存在很多障碍:

  • 语言墙:模型接受的数据越多,效果就越好。虽然当今的商业法学硕士是多语言的,但他们非常重视英语。例如,ChatGPT 是用 92% 的英语语言进行训练的。此外,作为法学硕士的“秘密武器”的教学数据绝大多数是英语(例如 ChatGPT 的 96%)。尽管现有测试存在系统性能差距,但目前在提高这些模型的跨语言性能方面所做的努力很少,这是有道理的,因为人们普遍认为机器翻译(MT)已“解决”,并且应该将努力集中在其他任务上。
  • 身份墙:如果你问 ChatGPT 圣诞节应该做什么,它会重点关注你可以参与的不同活动和传统;它没有提到你可以去上班。事实证明,法学硕士在描述不同的人口群体时表现不同,表达更多的负面情绪,甚至在某些情况下表现出彻底的毒性。刻板的判决很可能会对 LGBTQ+ 或犹太人等社区造成伤害;总体而言,存在很多偏见,这会对部署决策产生影响。有一些内置的保护措施,更明确的探索性问题不太可能得到有毒的答案,但模型在概率上更喜欢刻板的陈述和结果,这就是存在危害的地方,特别是在下游功能中使用模型时,你看不到产出(即贷款资格)。他举了一个例子,法学硕士在根据工作生成个人面孔时表现出偏见;工资较低的工作是妇女和少数族裔,而工资较高的工作是白人男性。
  • 环境墙(软件):法学硕士需要大量的能源来生产和运行。即使是最“适度”的LM每年消耗的能源也比一个人消耗的能源多3倍。 ChatGPT 等最大语言模型的数据也存在显着差距,但拥有这些模型的公司明确拒绝访问其能源消耗。
  • 环境墙(硬件):为了生产所有法学硕士都需要的芯片,您需要“冲突材料”,例如钽(在刚果开采)和铪(在塞内加尔和俄罗斯开采)。在美国,公司应该报告他们使用的冲突矿物的数量,但美国公开表明这些材料的使用量有所减少,但这不可能是真的。除此之外,还有很多社会政治问题,例如中国限制锗和镓以报复美国的出口限制。

梅博士表示,这些类别揭示了法学硕士造成的许多下游问题中的一些,以及人们没有受益的情况。有理由担心,但也有机会进行研究和/或行为改变,以减轻其中一些危害:

  • 语言:将更多的研究经费投入到多语言研究(不仅仅是英语的霸权翻译)。
  • 身份:自下而上和社区包容性研究。部署前的模型修改和测试
  • 环境:使用较少数据和更改较少参数的算法开发(例如 LoRA、适配器、非 RL PO)。认真对待计算并坚持监管层面的开放 

May 博士在结束小组讨论时重申了 Daumé 博士的观点,即人们在与法学硕士互动时应该以他们希望的方式受益,这需要在发展阶段成为首要考虑因素。

非常感谢您的阅读,请明天收看本次会议问答部分的回顾。

现货图片

最新情报

现货图片