澎湃Logo
下载客户端

登录

无障碍
  • +1

微信版大语言模型来了:跨时空对话李白、教你高情商说话

2022-10-14 15:49
来源:澎湃新闻·澎湃号·湃客
字号

原创 关注前沿科技 量子位 收录于合集#微信 2 个 #大模型 6 个

鱼羊 梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

大规模语言模型,微信版,来了!

并且甫一登场,就没藏着掖着:

论文、API接口、在线试玩网站……一条龙全都齐备。

续写文本、阅读理解等常规任务就不说了,这个名叫WeLM的AI,竟然直接让我和李白跨时空聊起了杜甫:

我:现在有一首关于你的歌,其中一句歌词是「要是能重来,我要选李白」,请问你自己有什么看法?

李白:我要选杜甫。这还不算完,WeLM甚至还治好了我不会聊天的毛病,分分钟教会我如何高情商说话。

这么一个AI,参数量不算大,目前处于百亿水平。

但值得关注的是,实验结果显示,它在18个中文语言任务里,效果堪比参数量是其25倍的模型。

是不是有点手痒想上手一试了?先奉上链接,咱们再仔细说说,这波微信是怎么做到的。

体验链接:https://welm.weixin.qq.com/docs/playground/

API接口:https://welm.weixin.qq.com/docs/api/

论文地址:https://arxiv.org/abs/2209.10372

「学富五车」的大模型

微信语言大模型WeLM,全名Well-Read Language Model,也就是「学富五车的语言模型」。

在翻译任务上,WeLM不光可以做到基本的,甚至三语夹杂也难不倒它。

在文本续写任务上,只需给出开头就能生成适应不同风格的文本。

这种多语言、多任务能力是怎么做到的?

其实WeLM与著名的GPT-3是同类,都是自回归解码器结构,微信团队选择这种结构就是看中其在海量数据中掌握无穷范式的能力。

在具体实现方法上,WeLM还有两项特色。

一是采用RoPE相对位置编码,与传统的固定位置编码相比能更好处理长文本,比如理解整篇文章甚至整本书。

二是使用62k个token的SentencePiece并保留其中的空格和Tab,这样更有利于下游任务。

使用这些方法,WeLM总共设计了从13亿到100亿参数的三个版本,可按需调用。

其中100亿参数的满血版WeLM在14项中文任务中整体表现超过同大小的模型,甚至在零样本任务上超过比它大25倍的模型。

这其中最大的秘诀就是精心准备的高质量训练数据上充分训练,也就是「学富五车」的含义所在。

高质量训练数据包括从Common Crawl下载的近两年中文网页、大量书籍、新闻、论坛数据和学术论文。

收集到的数据总量超过10TB,其中包含750G英文数据,中文中夹杂的英日韩语为了语义连贯也全部保留。

不过这还不算完,需要经过清洗、去重等一系列步骤才能算得上是高质量数据。

首先是去除噪声和脏数据,结合使用规则和模型检测后,超过87%的数据被过滤。

再利用SimHash算法去重,进一步过滤掉40%的数据。

接下来要去除一切和测评相关的数据,保证公平性,以 17-gram 为检测重复粒度再次过滤了0.15%的数据。

一系列处理后留下的数据量为262B tokens,最后再对这些数据进行不同比重的采样,使数据平滑分布在各个话题上。

对于预训练,团队认为当今多数大模型的训练都不够充分,WeLM 100亿参数版的训练量基本与1750亿的GPT-3相当(300B tokens),在128张A100上训练用了大概24天时间。

为了保证训练效率,WeLM在训练过程中还使用了完全可原地复现的形式,不管发生任何问题都能从最近的checkpoint恢复。

自1750亿参数的GPT-3之后,语言模型规模越来越大,到今年谷歌的PaLM已经达到5400亿,中文大模型同样有这个趋势。

可以看出微信团队选择了另一条路线,以高质量训练数据和高效训练做到「四两拨千斤」的效果。

到这一步WeLM已经有了不错的表现,不过接下来这个步骤再次将其零样本泛化能力提到新的高度。

研究团队针对76个数据集各人工撰写10-20个Prompt,将原任务中的文本关系的标签和输入信息转化成流畅通顺的自然语言形式,更符合自回归语言模型的训练形式。

使用这些Prompt对模型微调后,相当于让模型学会了面对多样的Prompt该做什么。如果遇到相似Prompt形式的全新任务,也可以有更稳定的表现。

实验证明,在全量数据上微调后的模型在新的NLP任务上具备更优秀的零样本迁移能力,同时也使得微调变为一项一劳永逸的工作。

最后,研究团队还测试了WeLM的三个额外能力。

通过提供示例,WeLM可以对自己的决策作出解释,不过这种能力不太稳定,还需要进一步探索。

通过简单提问,WeLM可以对结果进行自我纠正和检查能力,为后续提高性能提供了可能方向。

WeLM还表现出一定的记忆能力,如果输入内容完美匹配前文,即使内容很长、出现频次很低,模型依然可以准确的生成剩下的部分。

最后再来总结一下,WeLM精通中文的同时掌握英日韩等多种外语、可以通过少样本或零样本学习执行全新任务,同时以合理尺寸做到与25倍参数量的模型相媲美使用成本较低,总之就是奔着实用性和大规模落地去的。

同步开放在线体验与API,也是希望有想法的开发者能方便的用起来,让WeLM大模型真正实用的工具。

WeLM怎么用

具体来说,WeLM线上Demo目前释出的功能包括:对话-采访、阅读理解、翻译、改写、续写以及自由任务。

在正式开始跟WeLM玩耍之前,记得要先给模型扔一段简单的「范文」,也就是「prompt」。

在线网站会给出一些默认的prompt,你也可以自行修改设计。需要遵循的设计原则是:

第一,描述清楚;第二,例子具备代表性(多个例子更好)。

以文本分类任务为例,prompt应该长这样:

其中的技巧包括,首先,把分类任务用自然语言清晰地表达出来,在上面这个示例中,「微博」即为输入,「类别」即为输出。

其次,在第一句的指令型描述中,需要把可能的分类结果都列出来。

最后,如果效果不佳,可以尝试加入更多例子,让WeLM更清楚你到底想要做怎样的任务。

另外,正如前文所说,WeLM拥有零样本学习能力。

所以直接把它当作问答搜索引擎来用,也不是不行(手动狗头)。

如果你还想得到更多样化的生成结果,token数量、temperature等参数均可调整。

更重要的一点是,WeLM已开放API接口 。也就是说,如果身为开发者的你想在自己的App里用上这个大模型,填写调查问卷注册即可。

One More Thing

说起来,这样的大模型要是真的落地应用了,妈妈岂不是再也不用担心我因为不会聊天而母胎solo ?

比如说……

你还有什么有趣的脑洞?大胆招呼起来~

— 完 —

原标题:《微信版大语言模型来了:跨时空对话李白、教你高情商说话,API在线试玩全都有》

阅读原文

    哆哆女性网徇私枉法海盗王电视剧现在播放梦见好多蛇谷歌翻译器起名字厉害的大师起名字姓温的近期好看的电视剧傅子遇黑暗血时代笔趣阁起商标名是专门网站制作周易起公司名字吗算阴命免费阅读全文命大型餐饮网站设计公司北京手机卡号蝴蝶效应电影天堂申请网上银行易经宝宝取名起名大全八卦算命起名凉茶店起什么名字好永城一汽大众电话网站建设商城模板教育网络推广营销起名免费网周易起名起名网游戏免费取名梦婷名字的解释和意义门牙种植一颗要多少钱西安智德通品牌推广营销有限公司微信情侣网名情侣专用运动品牌起名淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻不负春光新的一天从800个哈欠开始有个姐真把千机伞做出来了国产伟哥去年销售近13亿充个话费竟沦为间接洗钱工具重庆警方辟谣“男子杀人焚尸”男子给前妻转账 现任妻子起诉要回春分繁花正当时呼北高速交通事故已致14人死亡杨洋拄拐现身医院月嫂回应掌掴婴儿是在赶虫子男孩疑遭霸凌 家长讨说法被踢出群因自嘲式简历走红的教授更新简介网友建议重庆地铁不准乘客携带菜筐清明节放假3天调休1天郑州一火锅店爆改成麻辣烫店19岁小伙救下5人后溺亡 多方发声两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#青海通报栏杆断裂小学生跌落住进ICU代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了当地回应沈阳致3死车祸车主疑毒驾武汉大学樱花即将进入盛花期张立群任西安交通大学校长为江西彩礼“减负”的“试婚人”网友洛杉矶偶遇贾玲倪萍分享减重40斤方法男孩8年未见母亲被告知被遗忘小米汽车超级工厂正式揭幕周杰伦一审败诉网易特朗普谈“凯特王妃P图照”考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼恒大被罚41.75亿到底怎么缴男子持台球杆殴打2名女店员被抓校方回应护栏损坏小学生课间坠楼外国人感慨凌晨的中国很安全火箭最近9战8胜1负王树国3次鞠躬告别西交大师生房客欠租失踪 房东直发愁萧美琴窜访捷克 外交部回应山西省委原副书记商黎光被逮捕阿根廷将发行1万与2万面值的纸币英国王室又一合照被质疑P图男子被猫抓伤后确诊“猫抓病”

    哆哆女性网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化