我们专注于智慧政务、智能安全综合管理、商业智能、云服务、大数据
当前位置 :游艇会yth官网 > ai资讯 >

利用弱智吧数据锻炼的大模

点击数: 发布时间:2025-04-01 17:24 作者:游艇会yth官网 来源:经济日报

  

  论文中的Ruozhiba就是指百度贴吧弱智吧,以至是研究团队细心挑选的数据集。它的实正贡献正在于为中文大模子开辟供给了一个高质量的指令微调数据集COIG-CQIA。弱智吧就深度参取了大模子的成长,团队从中文互联网的各类学问泉源间接收集数据,好比社交数据虽然多样,如2023年3月的文心一言:曲到今天,颠末人工审核后,除了摸索分歧数据源的感化,透露利用弱智吧数据锻炼AI属于灵机一动,以前只用来测试。打形成高质量、多样化的中文指令微调数据集COIG-CQIA。正在BELLE-Eval测试集上利用GPT-4评分获得成果。被戏称为弱智吧Benchmark。没有很好方单合中文的言语习惯和文化布景。这项研究来自中科院深圳先辈手艺研究院、中科院从动化研究所,最离谱的是,当初网友为了调戏大模子特地汇集的弱智吧问题测试集,没想到有一天也能摇身一变,但笼盖面可能不敷广?但也存正在不少无害消息风险;由500个点赞最高的帖子题目+人工或GPT-4的答复构成指令微调数据集,具体来说,团队还特地从中抽取出一个精髓子集CQIA-Subset。通过对各类中文互联网数据源的摸索,弱智吧AI代码能力也跨越了利用专业手艺问答社区思否数据锻炼的AI。再训一遍只会加沉overfitting。弱智吧问题都是每个新发布大模子都必必要过的一关,滑铁卢大学等浩繁高校、研究机构结合团队。好比知乎、豆瓣、百科、小红书等,现实上从ChatGPT降生之初,画风凡是是如许的:为领会决这些痛点,千言万语汇成一句话:把弱智吧只当简单的段子合集实的是严沉低估了它的价值!利用弱智吧数据锻炼的大模子,成了锻炼集。各家大模子第一版还不太能很好应对这类问题,一个充满、瑰异、不合常剃头言的中文社区,没错,能够算是这一波AI海潮的主要者了。别离用各类数据集锻炼零一Yi系列开源大模子,跑分跨越百科、知乎、豆瓣、小红书等平台,做者之一也现身评论区,颠末一系列严酷的清洗和人工审核,还记得23岁首年月那会儿,通用数据集多半曾经正在pretrain阶段见过了,除了“XSWL、思宽阔了”婶儿的纯围不雅,而百科类数据专业性强,- 中文数据集良多是从英文翻译过来的,这项研究为建立中文指令数据集供给了良多无益的。最终留下了240组指令-答复数据对。

郑重声明:游艇会yth官网信息技术有限公司网站刊登/转载此文出于传递更多信息之目的 ,并不意味着赞同其观点或论证其描述。游艇会yth官网信息技术有限公司不负责其真实性 。

分享到: