Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 3|回復: 0

自然语言处理中的强化学习

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-2-19 17:11:56 | 顯示全部樓層 |閱讀模式

强化学习表现良好的领域之一是自然语言处理(NLP)。语言模型可以被认为是一个策略函数——将文本作为输入并输出随后的文本。可以使用人类反馈将不同的语言模型训练为“奖励”模型——识别两个完成中较好的一个。这两者可以配对和释放(政策生成候选文本集,奖励模型识别两者中较好的一个,并相应地鼓励政策),随着奖励的潮起潮落而生成和分级。因为我们称之为强化学习,并且因为有两个模型相互竞争,所以这可以唤起一些强大的记忆。例如,它类似于AlphaZero——源自自学下围棋并击败世界顶级棋手李世石的系统。或者它可以让人想起生成对抗网络(GAN),其中两个决斗模型之一负责生成逼真的图像并愚弄另一个模型,一个经过训练可以辨别真假的鉴别器。这些训练制度带来了人工智能最伟大的成就,而人类的缺席可能让人感觉像是奇点的怪异预兆。 有一些合理的理由(我想还会有更多理由)表明强化学习在人类反馈机制中可能比在更广泛的强化学习中效果更好,并且最好与大型语言模型 (LLM) 结合使用。模型在找到稀疏奖励之前不必耗尽搜索空间,而是依赖人类关于哪些搜索方向最有希望的线索。

这对于《痛苦的教训》来说尤其有趣,因为该作品的一个潜在收获(也许是粗略的)是人为干预是不好的。但就 RLHF 而言,也许更精致的结论是模型必须在人类设计师的温和指导下进行自我学习,而不是完全由人类设计师构建。此外,这些 美国电话号码列表 强化学习模型根本不是从头开始,因为它们不仅从预先训练的语言模型开始,而且是经过微调的语言模型。我相信微调模型是必要的;与最近所有成功的案例相比,从普通的法学硕士开始使用 RLHF 进行培训会是一个更简洁(因此更引人注目)的故事,这些成功案例在使用奖励模型进行任何操作之前首先对策略进行微调。 哲学和实践问题 然而,我担心 RL 更广泛的神秘感,以及 RLHF 最近取得的具体成功,将使我们在重要的一致性和方法问题上陷入自满。这既有基本的哲学原因,也有更实际的原因。 首先,我们不知道如何定义智力、意识、联盟,甚至真理。甚至OpenAI 的团队 也承认这一局限性,并表示“在 RL 训练期间,目前没有事实来源。”许多人工智能从业者,事实上,任何想要在完全理解世界上完成任何具体事情的人,可能会合理地对我提出的这一点翻白眼。但只要我们没有对这些东西的定义,我们就无法谈论模型是否拥有它们。



我的意思不是规范性的,而是描述性的。模型中任何有关“对齐”的主张都必须根据该术语的笨拙性进行平衡。 对齐意味着“做我们想做的事”。当一个模型可以做我们想要的事情但没有被适当地诱导这样做时,我们称之为错位。这是一个很大的研究领域,因为法学硕士既强大又狂野,表现出希望,但总是表现不佳。但在追求这一时尚目标时,我们应该承认人类本身在偏好、行为和意识形态上都是不一致的。它们也是动态的,时时刻刻、年复一年。因此我们必须问:对齐的目标是谁、何时、什么?有人,无论是最高管理层还是研究科学家团队,都必须通过从许多可能的候选人中选择一组优先事项、正式的目标和培训制度来回答这个问题。在此基础上,将制定实际的培训计划。 如果计划的调整目标是一个悬而未决的问题,那么计划的执行过程中事情肯定会变得更加复杂,其中涉及实际的贴标签者大量生产 RLHF 的人类反馈部分。我们知道这些人是谁,以及他们将如何驾驶这艘船吗?他们是否值得信赖、有资格监督模型并愿意谨慎行事吗?受雇训练 ChatGPT 的团队与来自GopherCite的团队之间,或者现在与六个月后的团队之间有什么区别?不知何故,我们很乐意简单地称他们为人类。
回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|GameHost抗攻擊論壇

GMT+8, 2024-12-5 10:24 , Processed in 0.030582 second(s), 18 queries .

抗攻擊 by GameHost X3.4

© 2001-2017 Comsenz Inc.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |