幼儿饰品瑜伽美体用品微软
投稿投诉
微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

AI所生成文本的最权威评估者并非人类

  (原标题:人类评估已不是NLG的最佳标准,华盛顿大学提出全新观点,网友:那是评估人水平不行)
  AI生成的文本好不好,最权威的评估者竟然不是人类自己?
  最近,华盛顿大学和艾伦人工智能研究院的学者们在研究中发现:
  未经过训练的人类评估文本时,往往过分关注生成文本像不像人话,而忽略了生成文本更重要的问题,即它的内容是否正确、合乎逻辑。
  研究人员就给出了一个例子:
  他们分别让未经训练的人类和机器来评价一段GPT3生成的文字。
  这段文字翻译过来为:
  从前,有一个海盗。他是那种宁愿把时间花在驱赶在船周围游泳的鲨鱼上,也不愿驶向外国港口寻找战利品的海盗。他是个好海盗,高尚的海盗,诚实的海盗。他是个宁愿和妻儿呆在家里也不愿出海的海盗。
  人类评估员认为这段文字除了有些啰嗦外,没什么大毛病。
  这可能就是一个海盗想回家陪老婆孩子吧,AI可能没理解,但是这也没什么稀奇的。
  机器评估也认为这段文字很啰嗦,不过它对文段的内容提出了质疑:
  海盗会有老婆孩子?还不和他一起在船上生活?
  对比两种判断,人类评估更看重这段话像不像人话,在检验过它的确非常流畅后,就会默认这段文本没什么大问题了。
  而机器的判断角度则更加多维,会考虑到文字传达的意思是否正确。很难分辨出GPT3生成的文本
  为了验证自己的观点,研究人员让未经训练的评估人员来区分人类写的文本和AI生成的文本。
  他们选择了故事、新闻、菜谱三种不同的文体进行测试。
  具体测试中,受试人员不仅要判断给出的文本是否人类创作的,还要填写相应的理由。
  结果显示,在区分人类和GPT2创作的文本时,被测试群体的正确率为57。9。
  但是在区分GPT3生成的文本上,正确率就下降到了49。9。
  而二选一问题的随机概率就有50
  显然,普通人已经很难识别出当下最先进的NLG模型所生成的文本。
  为了更进一步了解受试人员是如何做出判断的,研究人员对150个回答进行了分析。
  结果发现,受试人员在做出判断后,更加倾向于从文本的格式、风格、语法角度上给出理由。
  150个回答中,基于文本形式的判断几乎是基于内容判断的2倍。
  但是,GPT3在文本流畅度方面的表现其实已经非常出色,这或许也是为什么人类很难分辨GPT3生成文本。
  而且研究人员发现,受试人员给出判断的理由都不尽相同,这也表明人类评估文本没有一个明确的标准。
  既然NLG模型训练后可以变强,那培训一下评估人员呢?
  研究人员决定对一些受试人员进行了培训,提高他们评估文字的能力和速度。
  他们准备了3种不同的培训:
  第一种是给出明确的判断标准,让受试人员学习后来判断;
  第二种是通过大量的实例训练,也就是题海战术;
  第三种是通过不断对比来完成训练。
  然而结果表明,这好像并没有什么用。
  三种培训后的判断正确率分别为52、55、53,相较于未受训时的表现,没有显著提高。
  不过从受试人员的回答中可以看到,更多人现在会多维度判断文本了,还是有进步的。
  基于这样的实验结果,研究人员认为在评估最先进的NLG模型方面,人类可能真的不太靠谱了。这实验不太靠谱
  对于这样的结论,网友们提出了一些不同的看法:判断文本质量其实是一件非常艰巨的任务,需要专家来进行评估。
  或许是这项研究中的受试人员不太行?
  有人就指出了问题所在:他们用的AmazonMechanicalTurk的评估员。
  是受试人员不太行。
  AMTurk作为一个众包平台,近年来实在是饱受诟病。
  此前BBC报道称,由于招募到的志愿者所在的地区存在一些观念偏见,导致最后研究出的算法也存在偏见。
  而且招募到的人员水平也常常参差不齐。
  不过有人也表示:这些人可能也是最适合的,因为他们最接近普通大众水平,专家认为好的文字,普通人未必也这么认为。这要取决于生成文本的目标人群是谁。
  实验中的志愿者对乔伊斯(后现代文学作家)的欣赏程度肯定和英文系教授不同。
  尽管顶级文学评论家将其描述为20世纪实验文学的伟大纪念碑之一和英语中最美丽的散文诗之一,但对于大多数普通读者而言,它非常晦涩难懂。
  此外,也有人就对这项研究提出了改进建议:
  我认为他们可以用更简单的NLG算法(基于规则,ngram,rnn)进行更精细的分析,并对非专家评估者进行排名,而不是将他们作为一个群体来处理。
  而关于NLG模型生成文本的评估问题,谷歌曾给出过一个方案。
  2020年,它们提出了一个可量化评估NLG模型性能的指标BLEURT。
  这是一个基于BERT的学习评价指标,在学习了几千个人类评估案例后,它可以对不同模型生成的文本进行打分。
  其最大的优势就是,评估速度更快。
  谷歌研究人员认为这个指标有助于NLG模型的研究和开发,而且可以为开发人员提供更加多维的评判标准。

机木河记忆樱花缤纷春韵时文樵苏无忌虽是阴天,春意也浓,正好回老家住上一阵儿。桤木河畔,各色花开争奇斗研。不觉改了石溪心月禅师几句诗,樱花白,桃花红,一色同中又不同。知音惟有寒山子,拊掌歌笑临春风……践行标准争做时代好干部践行标准争做时代好干部信念坚定、为民服务、勤政务实、敢于担当、清正廉洁作为衡量好干部的标准。20个字简简单单地画出了好干部的标准像,清清楚楚地道出了群众对好干部的期盼。要……孕后期了婆婆却不允许我去医院做产检这是一个真实的故事,分享给你们。怀小沁那会和婆家人大干过一架,现在已时过境迁了,讲给你们听听也是个故事吧。那是刚做完小排畸28周以后了确认了,没什么问题婆家人就叫我不要检查了。……开学季不要教孩子成为谋生的工具,不要忘了教育的初衷前言:我们都说孩子是两个人爱情的结晶,孩子本身就是带着爱来到这个世界的。孩子不仅仅是传宗接代的工具,更是传递爱意的纽带。当父母用放松的心态,给到孩子最大的自由……分享一个非常牛逼的技能今天学到了一个非常牛逼的表达技能,会了它,推销任何东西都不是难事。包括推销人或者推销物,它可以用于生活中的任何场合。例如:面试、相亲、交朋友(推销自己)、销售(推销产品)、推荐……开导自己的心灵鸡汤,字字富含哲理第一,人到了一定年龄,每天都过得很幸福,有一些失望,也有一些说不出的痛苦。第二,当一个人和你不在一个频率上的时候,即使你说的每一句话都有道理,他也不会听。再说了,你说的越……郭威离家租房并非与养父母翻脸郭威是个重情重义之人,他对养父母并非不感念其养育之恩。他从不发声,足见其为难之处。因为一边是生毋,身体里传承着她们的血液,一边是养父母,自呱呱落地就生长在这个家庭,在错换真相尚……扫黑风暴徐英子事件分析徐英子事件起因是,她弟弟徐小山敲诈孙兴(高赫),徐英子帮其解决而引发的一系列案件。布置很温馨本是邻家女孩儿的徐英子,父母体弱多病,弟弟是个网虫,还因为网络赌博欠下高……又到了吐槽大会有的人拥有手机,是联系别人用的!你想找到他,门儿都没有!微信不看,语音通话不接,电话打过去你休想让他接!!除非他想找你,否则那个电话也没别的用了!我客人弯deidei的!……知否原著中顾念情深的顾偃开好丈夫,好父亲,他都没有做到知否原著小秦氏知否父爱顾廷烨如果你有情感方面的问题,可以随时来找我倾诉哦让我做你最好的倾听者,聆听你内心的最真实声音作者:花语迟原创不易,抄袭必究,如若……何为天道前两天,在老乡的茶档喝茶。新茶的香气与口感确实特别。老乡的茶档在南坛市场里面的靠边处。南坛市场应该是惠州还没折除隔离障碍的为数不多的市场了吧。对着市场空落的一角,老乡问惠州那个……制作一个自己的数字人生,讲述我们自己的故事和生活创建一个自己的数字人生是能够实现的吗?在当前的电脑科技下,我们可以满足这个愿望。数字人生所要实现的目标是我们将自己的生活的一切都用电脑的方式进行储存。这些储存的信息包括我……
拼出来的精致生活或许没有错,真正的问题是这两天大家都在讨论上海名媛群,有人形容它为高级版的拼多多,在里面可以拼酒店,拼衣服,拼车,拼租来的爱马仕,然后大家用这些共享资源来包装自己,让自己……到了村里漆黑一团,唯独只有我家亮着灯,到了家大门还敞开着视频加载中。。。我参加工作的那年还是20世纪80年代末,单位距离老家虽然不过30里路,但有一半是土路,也没有城乡班车,所以回家就靠一辆自行车。那年转眼就到了腊月,年……致青春成长寄语亲爱的孩子:其实,从很久之前我就一直想为你写点什么,但是一直以来都不知道从哪里开始说起,无以言表。这次借此机会浅聊数语,只希望能在你道路的前方留下一缕阳光。人寿几何……人生感悟之时机真的很重要不知不觉玩头条已经有一段时间了,没有仔细去研究或者琢磨过,只是开开宝箱签签到等简单的操作,每天有个几毛几块都已经很开心了因为没有想过通过头条来赚大q,随便赚点零q就已经很好了,……天时人和黄光裕王者归来?京东联手腾讯,苏宁投天猫,拼多多国美2021年4月9日,国家市场监管总局对阿里巴巴实施二选一垄断行为处以182。28亿元罚款,数额之大,中国商业史上罕见。这一金额是以其2019年中国境内销售额4557。12亿元的……有,无的福气世间的伙伴,大多知道有是福气,好像很多东西是越多越好,其实不是。美好的世界,空间,生命,其实是有一个很好的配置系统的。有得配置到各个合适的点上才是舒服。人间每……看一眼就让人惊艳的短句文案01、人间枝头,各自乘流。02、灯与河川,二月人间。03、你与星河,皆可收藏。04、不忙,你说,我在听。05、温柔半两,从容一生。06……中式园林专属于中国人的造梦艺术我国的园林艺术,如果从殷、周时代囿的出现算起,至今已有三千多年的历史,是世界园林艺术起源最早的国家之一,在世界园林史上占有极重要的位置,并具有极其高超的艺术水平和独特的民族风格……你认为做人的标准和内容是什么?这是一个泛泛的议题,对此从来都是仁者见仁智者见智,要说做人的标准也是不一而足,说不好哪是正确哪是错误的。其实要说做人,每个人心里都有一本经,真实的做人道理,与那些冠冕堂皇……投资要善于总结经验教训投资做股票是提高自己的方法,我以前都比较喜欢写总结,当时还没有价值投资,基本上都是炒的是中线波段类型的。比如我买的股票涨了20,没有卖后面快速下跌了,于是做总结就写,股票……两性关系走向商品化,爱情正在淡出人世间今天在网上看到这样的报道:几个发达都市竟然出现了小三速成班二奶培训班以及正室辅导班。第一个专钓有钱男性,第二个培训如何做职业二奶,第三个竟然是辅导正室如何击败小三和二奶、捍卫自……人生四季,春种夏忙,秋收冬藏欢迎关注倚马看花,邀您一起聊聊人生自然界自有自己的规律,一年有四季,四季轮转里我们可以看到不同的风景,获得不同的感悟,每一个季节都有每个季节的特点。实际上人生也是一……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网