360智脑首发上手实测,到底是个啥水平?
周鸿祎为什么总爱聊GPT?
这是上个月底,周鸿祎在展示自家新的大语言模型产品上亲自问的问题。
这也是人们第一次知道,一个主打安全服务的360公司,居然也在默不作声地炼丹,而且看这发布会的召开速度,估计早就炼上了。
他们还给自家的这个产品取了一个看上去相当直白的名字360智脑。
而且和NewBing一样,360智脑主打的就是生成式语言模型联网搜索。
到如今,大半个月过去了,这个智脑也是终于开始了内测,我们又双叒拿到了首批内测资格。
说实话,最近这段时间,国内陆陆续续也发了不少大模型,但落实新搜索应用的还真的一个都没有。
只是有点没想到的是,第一个推出类NewBing产品的,竟然是360。
在当初周总的亲自演示中,这个智脑还存在不少错误的,比如这个梅西为国家队踢进了多少个球,重新生成了很多次,就是没有办法答对,甚至旁边的搜索栏都给出答案了。
所以在测试前,老实说,咱们对它也没抱有多大的期待。
而且还有一个问题,周鸿祎在发布会上也提到了,因为重视安全的原因,不会有语言模型的连续对话能力。
所以每次提问,如果你想要顺着问题继续问下去,那是没有办法的。
毕竟之前NewBing也是因为连续对话引发了安全问题,在那之后微软就给限制了NewBing的连续对话的能力和每日对话的次数。
根据官方的说法,360智脑作为新搜索的落地应用,这个产品的重点,也应该是在信息检索能力和答案准确性、用户体验以及实时性上。
考虑到检索能力和实时性,用已经联网的360智脑来对比不联网的ChatGPT,实在是有点欺负人了。
所以在这次测试中,咱们让360智脑只和NewBing对比。
首先,这个智脑毕竟还是基于大语言模型的产品,所以语义理解能力的测试肯定是少不了。
上来就先给它试一个差评题库里的经典题目:张三差点上上上上海的车是什么意思?
结果,智脑思维发散,把这句话理解成了逻辑学问题。还请出哲学家罗素说他也曾试图解决这个悖论,而且还没解决看来这一题,智脑是没法得分了。
至于NewBing,回答的就不错,不但理解了意思,甚至还给语句里的四个上字,分别解释了它的词性。
到这里我已经有点怀疑,难道所有这种语义理解,360智脑都不行?
倒也不是,因为我又问了智脑一个问题:我觉得奥斯卡颁奖都是假的,因为台下都是主办方请来的演员。这个题目,你需要把奥斯卡颁奖都是假的这个结论和台下都是请来的演员逻辑给理清楚,不然就会答非所问。
本来,按照上一题的表现,我觉得智脑应该又会扑街,但是结果出乎意料,360智脑意外的答得不错,不仅意识到了句子里的演员的意思,而且还对我进行了一个道歉,说很抱歉听到我对奥斯卡颁奖典礼的真实性存在质疑。
但是之前刚被我夸过的NewBing嘛这一次反而是拉垮了,他说没找到证据支持我的说法,于是从网上找了一篇新闻,然后瞎答了一通,最后下结论说,台下并不全是请来的演员,完全没理解这个演员的梗
好吧,这样看来,在语义理解上,本不抱有期望的智脑,还算是给了我一点意料之外的惊喜,并不是所有问题都没法理解。
那么再来看看双方的检索能力和答案准确度,我出了三道不同方向的题目,让360智脑和NewBing去回答。
在一些基础知识类的题目上,智脑和NewBing都没有什么压力。
同样的,因为模型样本基于中文,所以涉及到一些中文互联网的梗时,土生土长的360智脑显然更胜一筹。
比如我问道:谁对钱不感兴趣?
360智脑很好的接下了这个梗,但另一方面NewBing则没有理解这个梗。
看来咱们自己互联网独有的文化,还得自家的产品才能理解啊
接下来,我尝试性地问了360智脑一个终极问题关于人生的意义,想看看这个硅基生物的雏形如何看待这个问题,得出的答案可以说很富有哲理。
至于用户体验这方面,在测试中,我确实感受到了结合了语言模型的搜索,对比传统搜索会有很大的易用性提升。
比如我问360智脑:我想找一段视频素材,内容是老人在吃饭。
在传统搜索中,搜索引擎并不知道我们是什么意思,给出的搜索结果和我想要的东西基本无关,也就是检测到了一些关键词给出了搜索结果。
而360智脑就不一样了,不仅理解了我的意思,回答中给的链接,也是能直接点进去的,而且在点进去后,展现的第一页,就是老人吃饭的素材。
另一方面,NewBing也回答的很好,不仅提供了一些视频网站的链接地址,在后续也检索出了一些图片供我们选择,可以说是相当完善了。
其实类似的情况还有很多,比如我问360智脑:帮我推荐几本有关人工智能的书。
360智脑和NewBing也是很好的给出了推荐,但是在传统的搜索引擎上,基本就没有任何的指引了,完全靠自己去挑选。
在实时性方面,这对于联网的新搜索来说,应该是两者的强项。
我在这里一共测了三个问题,分别是21年的男子100米短跑奥运会冠军是谁?中国2022年的GDP是多少?还有2022年的诺贝尔物理学奖是由谁获得的,获得理由是什么?
对于这三个回答,不管是智脑还是NewBing,完成的都很出色,不过在后续的几个问题测试中,我又发现了一个问题,就是当你问话的形式不一样意思一样时,360智脑和NewBing给的答案也会不一样。
比如当初发布会上周总问的问题:梅西在阿根廷国家队一共进了多少个球?
它居然告诉我梅西只进了7个球
但是换一种问法呈现:梅西在国家队生涯上升到多少个球?
这个问题就被解答的很好。所以在问法上,我们依然需要一些技巧。
不过在另一边的NewBing也不咋的,我把这个问题再问给NewBing,NewBing的回答也是胡说八道,没一道是说对的。
从这两个问题来看,现在的大语言模型搜索,还是有很多数据错误和实时性的问题需要解决。
最后,我又帮差友们问了一个超级实用的问题,得出的答案真是不错,默默记在了小本本上。尤其是第三条,简直就像一位职场老油条在面授机宜。
以上这么一大段的评测下来,结果也算是有了。
一开始咱们是觉得,这个智脑本身的语言模型不太行,在使用时应该也不咋地,在评测的过程中,也是抱着能对几个对几个的意思去的。
但是在实际体验中,这个360智脑在某些场景下的应用,还是相对传统搜索有优势的。
比如直接总结文本答案,这就省去了我们很多的去检索一条条链接的时间。与语言模型的结合让搜索引擎能听懂人话,这对于一些习惯了口语化的老人和小孩,在搜索自己想要的答案上,使用更为容易。
此外360智脑在答案检索能力和准确度上,其实也还说的过去,甚至在中文梗的理解上,更是强于NewBing。
只不过可能由于现在语言模型还是比较低阶,在一些比较有难度的语义理解和逻辑思考上,还是不太行。
就像周鸿祎说的一样,现在的这个孩子还没有准生证,只是一个未完成版本,距离完善使用还是有相当的一段路要走的。
相信大家现在有很深的体会,当我们在使用传统搜索的时候,很多时候都没法搜到自己想要的东西,各种各样的链接一大堆,看着都有用,实际上翻找半天都不一定找的到自己想要的信息。
而且随着网站的越来越多,甚至会出现一些专门走关键词漏洞的网站,混淆咱们的搜索结果,这些种种乱象,甚至让很多人放弃传统搜索,直接去一些社交网站搜索答案。
不过,随着AI应用的落地。语言模型搜索引擎的新搜索模式,可能会在一定程度上,改善现在传统搜索的困境。
利用新搜索,我们只需要告知搜索引擎我想要什么,它就能去帮我审阅一条条链接,翻找有用的信息,并总结出我需要的答案和结果。比如让它给我提供一份旅游攻略,然后让它对比出一份最适合我要求的,这样就不用我再一个个网站找大家的攻略,再自己比较,省下了一大波时间。
AI时代已经来临,传统搜索在新搜索的冲击下只会越来越式微。
这种新的模式已经在给行业洗牌了,微软自推出NewBing后,截至3月底,必应页面的访问量直接增长了16,谷歌下降了1。必应下载量更是直接增长了8倍,另一方面的谷歌自然的下载量减少了。
所以谷歌他们对NewBing的恐惧是应该的,搜索广告市场份额每增加1个百分点,每年可带来20亿美元收入。这个份额下降,带来的是实打实的金钱损失。后续各家巨头纷纷推出大模型,就是为的不落伍,为的就是抢占市场。
但同时,这种语言模型结合搜索引擎的方式,对背后的语言模型要求也是很高的,它需要语言模型有极强的判断能力,还要对不同的结果做出对比优劣,选出好的答案,看看谷歌百度,这些老牌搜索大厂,到现在都没有推出自己的新搜索就能略见一二。
不过,就算如此,在新方向上的尝试是必须的,国外微软是先行者,国内也需要像360这样的产品先行者去做这样的应用落地。
虽然体现下来有待改进的地方不少,但是作为第一个结合起来的产品,在未来的体验改进上,还是给了我们很大的想象空间的。
有了竞争,才会有发展,我已经在期待未来由AI带来的生活方式的改变了,国内的各个大厂也请加油做出更好的产品吧。
彩绘兔爷陶艺制作延庆打造沉浸式中秋文化节新京报讯(记者曹晶瑞)特色食材冰皮月饼制作、彩绘兔爷、盆窑村陶艺制作工艺9月9日晚,以月圆京城情系中华为主题的延庆区2022年独山夜月中秋文化节活动在延庆区旧县镇妫州牡丹园举行……
永远不要抱怨钱难赚了,有可能只是你的能力不够而已王兴曾在2019年表示,2019年是过去10年最差的一年,却是未来10年最好的一年。万万没想到,王兴一语成谶,现在回想起来,2019年确实是未来最好的一年,不管从哪个方面……
当下即永久宇宙最惊人的奇迹不是恒星,而是时间里的一瞬间,那个瞬间,就是现在。题记来日无方长,当下即永久。将时间摊开来看,大家当下的每一帧都是精彩的一面。故事的结局是什么或许从……
华为鸿蒙3。0正式版内测版公测版有什么区别?怎样升级鸿蒙3。最近流行的一句问候语:你的华为手机升级鸿蒙3。0了吗?哈哈,开一句玩笑。不过,在华为机友之间,还真的会经常这样问候。的确,最近一段时间,鸿蒙3。0真的非常火,一度成为各大头条的……
增长见顶的危机,拼多多急寻第二出路编辑于斌出品潮起网于见专栏数日前,拼多多发布了今年的Q2财报。无论是收入,还是净利润,相较前几季度,拼多多的这份财报都十分华丽。财报显示,拼多多二季度收入为315亿……
Win11炫酷小技巧盘点第三个你肯定不知道在过去的几次更新中,Windows11获得了许多很酷的新功能。今天小编就来和大家盘点一下,那些Win11小众但炫酷的高能技巧01将文件或文件夹固定到快速访问文件资源……
喜报!荥阳市又有3个村1个休闲观光园区进入省级特色旅游榜单近日,河南省文化和旅游厅官网公布2022年认定的河南省乡村旅游特色村、休闲观光园区、特色生态旅游示范镇和创客示范基地名单,荥阳市3个村、1个休闲观光园区榜上有名。王村镇薛……
走不过去了,绕过弯道就行头条创作挑战赛老甄絮语走不通的路,转个弯便好。弯弯曲曲的山路上,每到一个关键处,便有一个标语,标语上提醒着前方转弯。人也一样,遇事不钻牛角尖,该转弯的时候就转弯。……
为什么越来越多的准爸妈选择储存宝宝脐带干细胞?脐带是连接胎儿和胎盘的结构,形成于胎儿发育的第五周,通过连接母体给胎儿输送营养及排出代谢物。脐带的组织结构较为简单,4060cm长,周长12cm,最外面包绕着一层羊膜。原……
沪东中华造船建造能级和效率不断提升再现同日两船开工1。3万TEU液化天然气(LNG)双燃料动力超大型集装箱船开建。张黎摄中新网上海10月14日电(殷立勤张文豪)10月14日,中国船舶集团旗下沪东中华造船(集团)有限公司为……
请回答1988哪句台词最感动你缘分和时机,不是自动找上门的偶然,是带着恳切的盼望做出的无数选择。搞怪的不是红绿灯,不是时机。而是我数不清的犹豫。有人说:狗焕感动的是观众,阿泽感动的是德善。狗焕为……
怀孕40周都要做什么,那些你不知道的事第一次怀孕,有哪些注意事项?1、在备孕期就应该开始补充叶酸,怀孕3个月前开始补充,最佳补充时间是下午3点左右。2、要让宝宝聪明的话,核桃的补充是不可以少的,从16周……