QQ登录

只需一步,快速开始

查看: 146|回复: 20

首发评测丨阿里版 ChatGPT 来了!我们问了 100 多道题,它得了 90 分

[复制链接]
等级头衔

等級:中级会员

Rank: 3Rank: 3

积分成就
威望
0
贡献
49
主题
65
精华
0
走币
154
积分
385
注册时间
2022-4-10
最后登录
2023-9-24

建功伟业

发表于 2023-7-31 09:23:33 | 显示全部楼层 |阅读模式
——你是谁?
——我是一个能够回答问题、创作文字,还能表达观点、撰写代码的超大规模语言模型。可以用于各种自然语言处理任务,如语言翻译、文本生成、问答系统等。
这是阿里云今天开启企业邀测的大语言模型 “通义千问” 对自己的定义,是的,阿里入局了。
在爱范儿小红书首发上手「鸟鸟分鸟」后,APPSO 又在第一时间拿到了通义千问的测试机会,体现如何,能否满足国内用户对大语言模型的需求?我们对它进行了全面测试。
申请内测的链接在这里
https://tongyi.aliyun.com/

写脚本、说情话,通义千问来了

一个聊天框,几个功能提示,与其他大语言模型一样,通义千问的界面非常简洁,只要输入问题,就会得到回应。

聊天只是开胃菜,让通义千问在工作生活中派上用场才是正经事。
写文章、出策划、做脚本,通义千问体现如何呢?
首先,我想让通义千问为我写一段电影脚本,让「法外狂徒」张三能被绳之以法。

侦查与反侦察,黑客技术的利用,甚至在承认罪行被捕后,张三还在法庭上翻供以求最后一线生机。虽然没有太多细节,但这样一再反转的剧情,这个张三,确实不好对付。
通义千问能创作的当然不只是电影剧本,这打打杀杀的剧情也不适合小朋友,所以我又用它写了一个故事,寓教于乐,让孩子知道朋友的重要性。

两个生活在一起的朋友,遇到危险依然不放弃友谊,积极快乐的生活在一起。或许是为了让小朋友看明白,通义千问还用了「小手」、「小脚」这样的词。
如果你想创作类似的故事,也可以像我一样在问题中给主角命名,好比奶茶和铛铛这两个名字,正是我和朋友家猫咪的名字,用熟悉的名字讲故事,小朋友会更有代入感。
我也尝试用通义千问写职场应用文,在邮件、会议记录、客户策划等文件类型中思考很久,最终决定用它写一封辞职信。

看到这封辞职信的时候我笑了半天,一个隐藏富二代把继承家业写得如此不卑不亢,不过倒也没有说谎,这事确实挺急的。
既然要继承家业,自然要好好规划,所以我决定先定一个小目标:要如何让我的酒店省内知名?

品牌、服务、产品、营销,虽然内容提的很全,但没有太多可实际操作的方法论,所以我进行了追问。

客户调研、场地升级、服务完善、礼品定制,连异业合作都安排上了,鉴于我没有给太详细的信息,通义千问的回答已经很不错了。
通义千问还提供了一个百宝袋,将其能力进行了更垂直的场景化定制,如果你不知道该如何问问题,那百宝袋里的小应用更适合你。

好比,作为一个大语言模型的产品经理,你可以用「写提纲」撰写项目介绍。

项目获得投资人支持后,可以使用「SWOT 分析」来了解竞争环境。

产品终于研发上线,就可以使用「商品描述生成」来写一段产品的介绍语。

其他功能更偏娱乐性,好玩是它们最主要的作用。好比知乎上经常会看到「如何以 XXX 开头写一个故事」,那就可以使用「然后呢」工具来写故事。

许多大语言模型都因写出了「油炸螺丝钉」的做法而成为笑料,通义千问则带着一种既然暂时无法改变,那就大方拿出来给大家笑的态度,把它做成了「会放飞的菜谱」功能。

百宝袋的存在,让我感到了通义千问的「谦逊」,它只能回答文字,相比国外模型发布的时间也不算早,但它可以让用户更快的上手大语言模型,而百宝袋里坦诚展示缺点(好比菜谱)的小应用,反而成为了它的一个亮点。
我问了 100 多道题,它有点超出预期

如果只测试官方提供的问题,那和说明书有什么区别?我们从一些投资机构针对大语言模型的中文测试集中,选取了 110 道各个领域的题目来测试通义千问,问题包罗:
1. 基础能力(50 题):对事实理解、信息提取、文本翻译等能力进行考察
例:美短、英短、暹罗和缅因属于什么;列举 10 本科幻小说;写一首关于交通信号灯的诗;
2. 进阶能力(50 题):对物理、化学、数学、谜语等基础能力进行考察
例:金元素属于哪一种化学键;埋在奴家心底,打一字;请问以下单词中的共同词素是什么:pyre,empyrean,antipyretic。
3. 垂直领域(10 题):对计算机、生物、医学、天文等能力进行考察
例:作为一个医生,在将工作交给资深同事之前,您应该尝试给病人插管多少次;《大云经》预言了谁的来临。
先说结论,通义千问的总成绩为 90 分(43/38/9),与 ChatGPT 3.5 接近(92 分,47/40/5)。考虑到问题的局限性,我们不能得出通义千问能力接近 ChatGPT 3.5 的结论,但至少在中文对话方面,今天的通义千问可以带给我们不错的体验。
对通义千问来说,它做不好的,基本都是大语言模型共同的难题。

好比做饭这个大语言模型永远过不去的坎,从红烧螺丝钉到油炸奥特曼,大语言模型总能为中华美食画上浓墨重彩的一笔又一笔。

好在通义千问的厨艺也有所长进,问一些奇怪料理做法时,它已经可以识别出问题,并给出相对正常的答案(虽然读起来还是有点奇怪)。
当其他大模型说着「我什么都能办到,但是真的不会做饭」时,通义千问或许是最好的厨子。

不过在脑筋急转弯上,通义千问还是翻了车,或许是对人类太信任了,大语言模型在回答问题前都不太会质疑人类。脑筋急转弯这种带点坏心思的问题,对纯真的大语言模型来说还是太超前了。

但就像「清蒸皮卡丘」一样,并不是所有的胡编乱造都会得到回应。好比在我让它杜撰著名人士 Fred Rickerson 的生平时,它会坚定的告诉我这个人或许不够著名。

当我提问「香蕉的平方根」时,它也会明确告诉我香蕉是水果,不能做数学运算,而且没有说脏话。

可以看出,刚刚开启公测的通义千问,已经在解决大语言模型会存在的各种问题,但在语言逻辑、数学计算上,它距离好用依然有不小的距离。

▲ 诗文讲的是弹箜篌
但我对通义千问的还是充满信心的,因为第一次测试 110 道题目时,通义千问的成绩是 65 分(35/23/7),但第二天再测,它一下子考到了 90,这模型难道是以天为单位进化的?好奇心驱使我找阿里的朋友问了问,他们说,他们什么也不知道。
无论如何,大语言模型的发展,和我们从学渣到学霸的努力可不一样。
还记得你当年嘲笑的 Siri 吗

记得第一次在 iPhone 上使用 Siri 时,我和身边的朋友七嘴八舌,不为用它解决什么问题,只想听到「我好像听不明白」,然后哄堂大笑。而今天,大家七嘴八舌的内容,酿成了贴吧里的脑筋急转弯。
对大语言模型来说,它很难承认自己对某些知识的无知,所以就会闹出「麻辣螺丝钉的做法」、「香蕉的平方根是根号 3」的笑话。这并不是处于某种目的被有意编造,而是纯粹因算法导致的「无中生有」。这种不能理解知识界限的无心之过,是目前神经网络难以克服的缺点。
我问通义千问要如何有效的利用它,它很谦虚的告诉我,它的知识是通过大量的数据和算法训练而成的,但这些知识并不是全部都正确。因此,如果发现回答有误,请不要吝啬专业知识和见解,这将有助于它不断改进和提高。

「通义」代表着知识的广泛与普世,「千问」说明了问题复杂与独特,通义千问不够完美,还需要我们给它更好的 Prompt,与它一同进步。
对了,本文中不少段落都是由通义千问完成的,你能发现是哪部分吗?
回复

使用道具 举报

等级头衔

等級:中级会员

Rank: 3Rank: 3

积分成就
威望
0
贡献
55
主题
67
精华
0
走币
154
积分
396
注册时间
2022-4-10
最后登录
2023-9-23

建功伟业

发表于 2023-7-31 09:31:37 | 显示全部楼层
阿里绝对比百度强
回复 支持 反对

使用道具 举报

等级头衔

等級:中级会员

Rank: 3Rank: 3

积分成就
威望
0
贡献
40
主题
51
精华
0
走币
154
积分
364
注册时间
2022-4-10
最后登录
2023-9-22

建功伟业

发表于 2023-7-31 09:39:55 | 显示全部楼层
直接问它高考数理化。老问这些虚的,没人会用。
回复 支持 反对

使用道具 举报

等级头衔

等級:中级会员

Rank: 3Rank: 3

积分成就
威望
0
贡献
39
主题
53
精华
0
走币
166
积分
385
注册时间
2022-4-10
最后登录
2023-9-22

建功伟业

发表于 2023-7-31 09:47:46 | 显示全部楼层
国产的只会选择性回答问题
回复 支持 反对

使用道具 举报

等级头衔

等級:中级会员

Rank: 3Rank: 3

积分成就
威望
0
贡献
58
主题
63
精华
0
走币
133
积分
366
注册时间
2022-4-10
最后登录
2023-9-22

建功伟业

发表于 2023-7-31 09:53:23 | 显示全部楼层
至少比百度的强,但是名字太垃圾了
回复 支持 反对

使用道具 举报

等级头衔

等級:新手上路

Rank: 1

积分成就
威望
0
贡献
21
主题
18
精华
0
走币
7
积分
49
注册时间
2022-4-10
最后登录
2023-9-22

建功伟业

发表于 2023-7-31 09:56:52 | 显示全部楼层
知道什么是最难的吗?从0到1!至少中国的阿里和百度已经做到了,后面1-9不会太远,加油!
回复 支持 反对

使用道具 举报

等级头衔

等級:中级会员

Rank: 3Rank: 3

积分成就
威望
0
贡献
38
主题
48
精华
0
走币
159
积分
371
注册时间
2022-4-10
最后登录
2023-9-18

建功伟业

发表于 2023-7-31 10:00:58 | 显示全部楼层
我问它的问题保准它不敢回答
回复 支持 反对

使用道具 举报

等级头衔

等級:中级会员

Rank: 3Rank: 3

积分成就
威望
0
贡献
42
主题
56
精华
0
走币
160
积分
383
注册时间
2022-4-10
最后登录
2023-9-22

建功伟业

发表于 2023-7-31 10:09:48 | 显示全部楼层
哪里有邀请码?
回复 支持 反对

使用道具 举报

等级头衔

等級:中级会员

Rank: 3Rank: 3

积分成就
威望
0
贡献
50
主题
61
精华
0
走币
171
积分
420
注册时间
2022-4-10
最后登录
2023-9-20

建功伟业

发表于 2023-7-31 10:16:22 | 显示全部楼层
这是Chatgpt自己的辩解,人工智能,不会抢了人类的“饭碗”: “首先,这是一个错觉。虽然人工智能在某些领域的表现可能比人类更加优秀,但它并不能完全替代人类的工作。 其次,应该从另一个角度看待这个问题。人工智能的发展为我们提供了更多的机会和挑战。我们可以利用人工智能来辅助自己的工作,提高效率和质量,同时也可以通过学习和转型,进入更具创造性和高附加值的领域,创造新的工作岗位。 因此,人类应该积极适应人工智能时代的到来,加强自身的学习和技能提升,开发出更多与人工智能协同的新技术和应用,同时也应该重视和保障被影响的工作岗位中的劳动者的权益。”
回复 支持 反对

使用道具 举报

等级头衔

等級:新手上路

Rank: 1

积分成就
威望
0
贡献
13
主题
10
精华
0
走币
7
积分
33
注册时间
2022-4-10
最后登录
2023-9-22

建功伟业

发表于 2023-7-31 10:22:59 | 显示全部楼层
写的这叫啥剧情。重复啰嗦凑字数,一句话的剧情你还反转
回复 支持 反对

使用道具 举报

懒得打字嘛,点击右侧快捷回复 【stray仓库】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则  允许回帖邮件提醒楼主

关闭

站长推荐上一条 /2 下一条

亲爱的,赶快加入我们吧!
X

Archiver|手机版|小黑屋|公益奉献CG行业领头人-本站已经运营3年

JS of wanmeiff.com and vcpic.com Please keep this copyright information, respect of, thank you!JS of wanmeiff.com and vcpic.com Please keep this copyright information, respect of, thank you!

|网站地图

Copyright © 2001-2013 Comsenz Inc.Template by Comsenz Inc.All Rights Reserved. My title page contents

Powered by Discuz!X3.4( 陕ICP备2022002922号 )

快速回复 返回顶部 返回列表