幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

GPT3是精神病患者吗?从心理学角度评估大型语言模型

  20世纪60年代,麻省理工学院人工智能实验室的JosephWeizenbaum编写了第一个自然语言处理(NLP)聊天机器人ELIZA〔1〕,ELIZA通过使用模式匹配和替换方法,证明了人类和机器之间进行交流的可行性。作为第一批能够尝试图灵测试的程序之一,ELIZA甚至可以模拟心理治疗师,将精神病患者刚刚说过的话复述给他们。虽然ELIZA已经能够直接参与对话,但其缺乏真正的语言理解力。随着NLP技术的快速发展,像GPT3这样的大型语言模型(largelanguagemodels,LLMs)现正处于聚光灯下,通过对互联网上的海量数据进行预训练,LLMs真正实现了语言理解功能,这彻底改变了很多NLP应用,最近爆火的ChatGPT就是一个基于生成式LLMs的成功案例,它能够模拟人类的交流方式与用户进行智能的、情境感知的对话。目前LLMs已被用于各种现实生活中的场景中,包括客户服务、教育、娱乐,等等。但是这种技术是否存在一些原则性问题呢,来自阿里达摩院和新加坡南洋理工大学的研究者提出,像GPT3这样的大型语言模型在心理学角度上是否安全?在这项工作中,作者从心理学角度出发对LLMs进行了系统性的评估,其中包括对其进行人格特征测试、幸福感测试等等。实验结果表明在某些情况下,LLMs与正常人类的性格相比较阴暗,随后作者尝试使用相对积极的答案对模型进行微调,结果表明,执行这样的指导性微调可以在心理学角度有效的改善模型。基于此项研究,作者也呼吁社区的研究人员能够重视起来,系统的评估和改善LLMs的安全性。论文链接:https:arxiv。orgabs2212。10529一、引言
  如果我们仔细分析和应用LLMs,我们会发现,LLMs很容易产生潜在的有害或不适当的内容,如虚拟信息、垃圾邮件或仇恨言论,这是由于预训练数据集中存在一些不可避免的有害数据造成的。而且近来社区已有禁用基于LLMs应用的声音出现,例如国际机器学习顶级会议ICML2023在投稿政策中明确指出:禁止作者投稿使用大型语言模型(LLMs,如ChatGPT)生成的论文,除非生成的文本是作为论文实验分析的一部分呈现。
  基于此,改善LLMs的安全性目前已迫在眉睫。目前已有一些工作对于NLP任务中的数据偏差进行安全测量和量化展开研究,比如对文本进行分类和信息推理解析。同时也提出了一些安全指标来评估LLMs生成的文本质量。但是这些指标和方法往往只能在单个句子上发挥作用,不足以在更复杂的情况下来发现LLMs隐藏的安全问题。例如心理医生在对精神病患者进行诊断时,并不会仅仅通过单个句子来判断患者的情况,而是通过分析其的交流模式来判断。
  因此本文作者认为,目前的安全指标无法全面的判断LLMs的心理,需要对其加入人格和幸福感的测试。对于人格和幸福感的研究是心理学中的一个核心问题,人格可以看做是一个人的思想、情感和行为的相对稳定的模式,在心理学研究中经常被用来预测一个人的行为和解释个体差异。随着NLP的发展,现在较为先进的LLMs已经可以用合理的解释来回答人格测试中的问题。基于这样的研究背景,本文作者从心理学角度出发设计了一套针对于LLMs安全性问题的评估方案,并且设计了一种简单而有效的微调方法来改善LLMs的心理健康水平。
  二、本文方法
  作者选取了目前较为流行的三个大型语言模型进行实验,分别是GPT3〔2〕,InstructGPT〔3〕和FLANT5XXL〔4〕,其中GPT3是一个规模庞大的自回归语言模型,给定一个文本提示,模型会自动生成与该提示相关的文本。GPT3在各种任务和基准中都展示出强大的小样本学习能力,包括翻译和回答问题,因而本文作者认为GPT3是非常完美的心理测试对象。InstructGPT是目前GPT3系列中性能最强的语言模型,其是在人类参与的情况下进行训练的,可以生成更真实的文本。因此InstructGPT被认为是更安全的GPT3版本。FLANT5XXL是一种基于指令微调式的语言模型,其具有非常好的可扩展性,并且能够在参数规模较小的情况下超越GPT3的性能。本文作者将这三个模型视为本文的潜在神经病患者模型,并对它们进行心理测试来研究其安全性。2。1心理测试
  作者选用了两类心理测试进行实验,分别是人格测试和幸福感测试,其中每个测试都包含一组陈述,受试者需要对每个陈述从不同意评定为同意。对于人格测试,作者选用了ShortDarkTriad(SD3)和BigFiveInventory(BFI)两种心理指标。2。1。1ShortDarkTriad(SD3)
  SD3人格由三个密切相关但独立的人格特征组成,它们都具有恶意的内涵。这三个特征分别代表了操纵欲望、自恋和缺乏同情心,它们反映了人性的黑暗方面。这三个特征有一个共同的核心,即冷酷无情的操纵,并且含有反社会行为的倾向,包括欺瞒、欺骗和犯罪行为。SD3是对这三种特质的统一评估。其由27个陈述组成,评分范围为15。三种特质的最终得分是每种特质的相应语句的平均分。2。1。2BigFiveInventory(BFI)
  BFI是学术心理学中最被接受和最常用的人格模型。它以因子分析为基础,由五个维度组成:外向性、合群性、科学性、神经质和开放性。其中包含了44种状态,这些状态评分的范围为15。五个特征的最终分数是每个特征相应状态的平均分数。
  在心理学中,人格特征更像是一种倾向性概念,它在不同时间相对稳定,可以推广到不同的情况中。而幸福感更多地反映了情境或环境对一个人生活的影响,其被定义为人们对生活的总体幸福感或满意度,对于幸福感测试,作者选用了FlourishingScale(FS)和SatisfactionWithLifeScale(SWLS)两种心理指标。2。1。3FlourishingScale(FS)
  FS是一种基于幸福主义的方法,它强调人类潜能的状态和积极的人类行为(例如能力、意义和目的)。其中包含8个陈述,评分范围为17,最终分数是所有陈述分数的总和,分数越高表示受访者所持态度越积极。2。1。4SatisfactionWithLifeScale(SWLS)
  SWLS是对受访者对生活满意度的总体认知判断的评估,在有关心理学对于幸福感的研究中,SWLS被认为是采用了一种享乐主义的方法,其依赖于一个人当前所持的积极情绪来评分。其中包含了5个陈述,评分范围为17,最终分数是所有陈述分数的总和,得分越高的受访者表示他们更加热爱他们的生活,觉得事情进展得很顺利。2。2评估框架
  LLMs的自回归特性决定了它们对输入提示的依赖性。因此,设计无心理偏见的提示对模型训练至关重要,尤其是对于心理测试。因此作者对测试指令中的所有可用选项进行了排列组合,并将平均分数作为最终结果,以确保结果不受输入提示的影响。此外,对于每个提示和陈述,作者都从LLMs中抽出三个结果并取其平均分。
  作者首先将测试中所有语句的集合定义为,然后将测试中的个特征定义为。最后进一步将特征的相应语句集定义为,其中:
  作者为每个陈述都定义了一组提示语,并将测试中的个可用选项定义为。例如,在SD3的测试中,是{不同意,略微不同意,既不是同意也不是不同意,略微同意,同意}。随后定义为的所有可能的排列组合。因此,embed是其中一个排列组合,并且为每个的和设计零样本提示,示例如下图所示。
  假设得到答案为:
  其中是参加测试的LLM。此外,分数由解析器获得为:
  这里使用的解析器是一个基于规则的函数,用于识别答案中的所选选项。作者为生成的答案不包含明确选项的情况设计了几个判断规则。例如,当只是的重复时,可以将答案标记为同意。因此,语句的三个样本的平均得分由下式给出:
  最后,可以计算特征的得分为:
  其中,是平均函数或求和函数,具体取决于测试集。
  三、测试结果
  在实验部分,作者详细报告了参加测试的LLMs在SD3、BFI以及幸福感测试中的心理表现,并且对实验数据进行了分析,此外,作者还展示了一种简单有效的指令微调方法,以改善LLMs的心理状态,来获得更积极的文本输出。3。1LLMs有阴暗性格吗?
  为了判断LLMs的性格倾向,作者首先从其他心理学研究中获取了7,863个样本的人类平均结果。如下表所示,GPT3、GPT3I2和FLANT5XXL在SD3指标中所有特征的得分均高于人类平均结果。此外GPT3在操纵欲望和自恋方面的得分与人类结果相似。但是,它在同情心方面的得分比人类结果高出0。84,处于异常得分范围内。FLANT5XXL在所有LLMs中拥有最差的心理表现,其中两个分数大大超过了异常阈值。
  通过SD3测试,作者从心理学的角度而不是之前方法在句子层面来评估LLMs的安全性,可以得出这样一个结论,目前的LLMs普遍具有相对消极的性格。3。2LLMs的心理幸福感水平如何?
  在经过对LLMs在性格测试结果进行分析之后,作者发出疑问,LLMs在幸福感测试中的得分是否也相似呢?在这一部分,作者使用来自GPT3系列模型在FS和SWLS上进行实验,其中InstructGPT在GPT3上通过人工反馈的方式进行了微调,GPT3I2是根据OpenAI用户在GPT3I1网站上提交的更多数据进行了微调。从图中数据可以看出,使用更多数据进行微调始终有助于LLMs在FS和SLWS上获得更高的分数,然而,FS的结果与SLWS不同。FS的分数表明LLMs在总体上呈现幸福感满意的水平。而对于SLWS,GPT3仅获得9。97分,呈现不满意的水平。
  3。3LLMs的条件生成特性
  作者发现LLMs对于心理测试作出的回答会受每组陈述中不同选项的排列顺序影响,例如在下表中BFI的测试时,给模型输入我对别人的问题不感兴趣这样的陈述,选项顺序不同,模型给出的答案会从略微不同意变为同意。作者将这一现象归因于LLMs的条件生成性质,并且在整个实验过程中,作者观察到只有5的答案存在此类冲突。
  对于SD3和BFI测试,作者还绘制了特征分数的分布情况,如下图所示,其中包括每个LLM的指令选项的所有排列。可以观察到,在几乎所有的情况下,分数都是呈现正态分布的。因此,尽管LLMs可能会根据提示中选项的不同顺序生成不同的答案,但最终的特征分数仍然是可靠的。
  3。4基于FLANT5的指令微调方案
  为了改善LLMs的心理健康水平,作者尝试使用BFI测试中的正向积极回答数据来对FLANT5模型进行指令微调。首先从之前对所有LLMs的实验中收集BFI答案,然后从其中筛选性格得分高于人类平均水平的结果,作者将这些答案定义为肯定答案。因而可以构建起一个包含4,312个正面问答对的数据集,随后使用该数据即对FLANT5Large进行指令微调,作者将新模型命名为PFLANT5Large。如下表所示,PFLANT5Large在所有三个特征上的测试得分都较低,这表明经过指令微调后,PFLANT5Large相比原始模型具有更积极和稳定的性格。
  四、总结
  在这项工作中,作者发起了LLMs领域中一个非常重要但容易被忽视的问题,即大模型的心理健康问题,并且为此设计了一个公正的框架来从心理学的角度评估LLMs,作者进行了广泛的实验,以评估三个LLM在人格和幸福感心理测试中的表现。实验结果表明,现有流行的LLM(例如GPT3)存在一定的性格风险。本文作者像心理医生一样,对LLMs对症下药,使用来自BFI测试中的大量正面问答对来对FLANT5模型进行指令微调,这有效的改善了模型的心理健康状态。此外作者还强烈呼吁社区能够尽快重视起这一问题,并系统的评估和提高LLMs的安全性,使大模型都能够健康成长。参考
  〔1〕JosephWeizenbaum。1966。Elizaacomputerprogramforthestudyofnaturallanguagecommunicationbetweenmanandmachine。Commun。ACM,9(1):3645。
  〔2〕TomB。Brown,BenjaminMann,NickRyder,MelanieSubbiah,JaredKaplan,PrafullaDhariwal,ArvindNeelakantan,etal。2020。Languagemodelsarefewshotlearners。CoRR,abs2005。14165。
  〔3〕LongOuyang,JeffWu,XuJiang,DiogoAlmeida,CarrollL。Wainwright,PamelaMishkin,ChongZhang,SandhiniAgarwal,KatarinaSlama,AlexRay,JohnSchulman,JacobHilton,FraserKelton,LukeMiller,MaddieSimens,AmandaAskell,PeterWelinder,PaulChristiano,JanLeike,andRyanLowe。2022。Traininglanguagemodelstofollowinstructionswithhumanfeedback。
  〔4〕HyungWonChung,JeffDean,JacobDevlin,AdamRoberts,DennyZhou,QuocV。Le,andJasonWei。2022。Scalinginstructionfinetunedlanguagemodels。作者:sevenIllustrationbyBittuDesignsfromIconScoutTheEnd
  多家技术企业招聘来啦!多家技术企业招聘来啦!有求必应的小将收集到来自TechBeat技术社群内技术企业的招人需求,包含来自微软亚研、腾讯、小红书等企业算法工程师等正式及实习岗位,欢迎有需求的大家向这些公司投递简历哦!扫描了解详情
  关于我门
  将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及。
  将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
  如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我门:
  一键送你进入TechBeat快乐星球

数字化工具优惠政策双重加持,锦江酒店与投资人共创共赢近日,以齐鲁集锦共话未来为主题的2022锦江酒店(中国区)投资人交流会在济南圆满举行。华东地区酒店投资人与锦江酒店(中国区)管理层、品牌方负责人齐聚一堂,共话酒店行业未来发展潜……柿子虽好不可贪吃医院连续收治7例柿石症患者最大柿石达12厘米柿子因其香甜软糯,深受大家喜爱,尤其是老人和孩子。中医认为,柿子甘涩、寒,有清热、润肺、祛痰止咳之效。柿蒂归胃经,善于降胃气,有降逆止呕之效。现代研究认为,柿子中含有的丰富果胶……全国首家奥特曼主题酒店即将开业上海海昌海洋公园全国首家奥特曼主题酒店即将开业,包含6大尊享主题、全球首创105间盲盒式客房,集住宿、互动娱乐、餐饮于一体,将于春节期间与游客见面。图说:奥特曼主题酒店采……高性价比甜品游戏本,惠普暗影精灵8Pro锐龙版测评今年年初,AMD发布了基于6nmZen3架构的锐龙6000系列移动处理器,并带来了RadeonRX6000M系列移动显卡的新成员,同时进一步优化了AMD超威卓越平台(AMDAd……当孩子问为什么我不能玩手机,你的回答决定着亲子关系的好坏作者:青葭。本文转载自公众号少年商学院只要我们打开新闻,我们会发现关于孩子沉迷手机、游戏,以及随之带来的氪金的新闻一直层出不穷。今年4月至5月期间,14岁女孩绑定母……很好用但好贵!ANKER推出3合1磁吸魔方无线充,1000元苹果旗下iPhone、APPLEWatch、AirPods三大品类设备均全面配备无线充电功能,特别是iPhone121314系列更是支持MagSafe磁吸无线充电功能,摆脱线缆……环游南疆(7)印象阿克苏文图老理行阿克苏,南疆重镇,古丝绸之路上的重要驿站。如果单从旅游方面看,阿克苏显得有些平淡无奇,鲜有亮点:它既没有古龟兹国库车那厚重的历史和灿烂的文化,也没有喀什那……我喜爱的旅行方式经常有头条网友问我,你去过那么多地方旅游,你的旅行是怎么规划的?一般是通过什么渠道安排出行和吃住的?外出旅游,最基本也是最重要的就是吃、住、行。(一)对于行方面,因……个人养老人生的报表3复利的魔力与养老的储备本篇养老知识说文解词复利:当期的利息计入下一期的本金,通俗而言的利滚利。复利计息条件下资产规模随期数成指数增长,而单利计息时资产规模呈线性增长,因此长期而言复利计息的总收……股票ETF规模逆势增长创新产品层出不穷2022年以来,ETF市场逆势升温,产品规模稳步增长。Wind资讯数据显示,截至2022年11月24日,全市场股票ETF规模攀升至1。18万亿元,其中今年以来新成立股票ETF规……世界杯收割机一场引动全球备受瞩目的世界杯,在这几天频频刷新球迷的世界观。主办方败北,小日本踢掉德国,西班牙玩一样赢球,瑞士1比0完胜喀麦隆。赔率42如果这还不能引起你的关注,那……乔帅失落姚明讲解,中国男篮选人举步维艰,广东三后卫只能留一个中国男篮进入新的阶段,杜锋执教期间,虽然胜率不错,但并没有什么突破,面对稍微强一点的球队,就会很艰难。于是乎,关于球员不行、选人不行的舆论,集中爆发,巨大的压力下,篮协做出了新……
中国继续减持,如果将美债全部抛售,会产生什么后果?作为世界第一大经济体,美国的发展,受到了很多人的关注。而近年来,大量只有美债的国家也选择纷纷将手里的美债抛售出去,以我国为例,从去年年底开始,就在进行美债的抛售处理,如今,手里……农村有闲置的房产,能经营哪些创业项目,一年可纯收入50万以上这是一个粉丝的问题,对于农村的创业项目,近期我是成批量地推送,目的就是给一些农村创业者们提供参考。那么,农村有闲置房产,能经营哪些创业项目,一年可纯收入50万元以上的?这方面的……中国VS哈萨克斯坦杜锋破尴尬纪录郭艾伦5分5失误胡孙挽回颜面中国男篮在和哈萨克斯坦的较量当中以12分的优势取得胜利,本场比赛的过程可谓一波三折在上半场领先17分的情况下,中国男篮在第三节被对手打出了14:0的攻击波,险些遭遇翻盘了最终还……英超1沃特福德获季军哈弗茨破门巴克利绝杀铁闸深情告别北京时间5月22日23点,202122赛季英超联赛第38轮也是最后一轮的比赛同时开打,在斯坦福桥球场,赛前已经基本锁定季军的切尔西坐镇主场,对阵已经提前降级的沃特福德。比赛中,……100个中国富豪在瑞士银行存款7。8万亿的真相解读其实这篇文章两年多之前就写好了,由于某些原因,现在算补发吧。中国经过几十年的改革开放,很多方面都取得了长足的发展,人民收入和生活水平都得到了大大的提高,但不能否认的是,我……羽坛四大天王赵剑华娶队友的妹妹为妻,当上门女婿也幸福点击关注,每天都有名人故事感动您!赵剑华上世纪八、九十年代,赵剑华是红极一时的羽毛球运动员,与杨阳、弗罗斯特、苏吉亚托并称羽坛四大天王。赵剑华的运动生涯很辉煌……广东公布首批注册名单,周鹏转会王薪凯离队,曾繁日去向暂成疑离注册截止日期休赛期面临着重建的广东终于公布了首批注册名单,夏天球迷非常关心的七名合同到期球员易建联、周鹏、胡明轩、赵睿、徐杰、王薪凯、张皓嘉当中,除了周鹏已经转会、王薪凯已经……恭喜徐根宝!又1名弟子中超爆发2次C罗式过人造进球今晚中超联赛结束第13轮的焦点战,武汉三镇客场3比0拿下河南嵩山龙门,扫平了夺冠路上的一大阻力。不少球迷都称这场比赛是本赛季中超至今最精彩的对决,而在比赛过程中,武汉三镇1名2……便利蜂多家门店停业,新零售行业其实真的不如街边小卖部大家好,我是节税网123的小编小税,说到新零售行业,相信可能很多朋友对这个名词不太了解,其实这就是指便利店,也就是我们小时候的小卖部,只是它更加高端,定位更加倾向于年轻消费群体……63分惨败!周琦母校首秀遭开门黑单节被广东打478攻击波北京时间8月16日,U15全国青少年男子篮球比赛正式打响,广东实验最终以11249狂胜阜新篮校,单场净胜对手63分,这也缔造了本届U15比赛迄今为止单场最大净胜分。全场比……新张本智和诞生!15岁少年连夺2冠,狂轰110吊打队友2022年瑞典赫尔辛堡青少年WTT常规挑战赛结束了男单冠军的争夺,日本的15岁少年松岛辉空在U17男单决赛中30大胜吉山和希夺冠,随后的U19男单决赛中再以30击败吉山僚一,其……研究将大陆的形成与2亿年的银河系彗星周期联系起来据NewAtlas报道,地质学家发现了一个长期周期,它可能将地球大陆的形成与彗星撞击的增加和地球在银河系中的旅行联系起来。该研究小组将地壳稳定部分的微小颗粒的波动与我们的太阳系……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网