商汤电话纪要

jst13141919 2023-04-24 07:47

$商汤-W(HK|00020)$  

商汤AI专家交流 20230418

心鑫干诚 心鑫干诚 2023-04-22 10:38 发表于北京
Q:商汤大装置部门现在算力情况A:目前有接近3万片A100芯片,目前全部用来做大模型,大模型做完后这些算力已经 全部sold out。现在还在购买更多的A100H100算力,同时在积极的做国产化适配。华 为昇腾寒武纪590,基本初步看都达到70%的A100算力。在我们1800亿参数的大模型 推理环节上,还有有点挑战。目前我们的自研芯片两次流片后停下来了,目前和智算联 盟厂商合作开发,寒武纪 天数,壁韧。Q:1800 亿参数的大模型目前国产化是什么情况A:目前我们的大模型还不太稳定,模型训练完后,放在A100 上推理,10句话大概正确 率在 7 句左右,590 大概在 3~4 句,华为的卡大概 1~2 句左右。Q:这个是什么原因导致的A:主要是我们还没有掌握能够完全涌现出一个泛化性足够强的大模型的能力,国内厂 商大部分也没掌握,我们只能跟着别人的方式,比如说我们堆一万张以上的A100,然后 得到一些好的结果,然后就是数据微调。用上国产化芯片,你跟它进行多轮对话,就是 上面说的结果,具体原因也还没有找到。或者我们觉得还是我们工艺上的问题,我们的 预训练数据集没有openai的丰富和质量高,所以目前可能向下容错的空间就小了。Q:第一个大模型是用A100训练的吗A:目前训练目前用的A100,训练好的模型放到寒武纪和昇腾上去跑了测试。Q:寒武纪590给了多少张卡来测试,测试结果怎么看呢A:大概1000多张。目前我们的模型即便用A100来推理,我们现在模型的泛化性也不 是特别的足够,也还存在一些问题,这些问题还是存在于与训练上,可能做的不够好, 所以导致即使用了 A100本身也没有做到完美。Q:A100 的结果如何评判的呢A:我们做了几组数据测试,比如说有限命题下的连续对话,数学,写诗词、猜字这种 都没有太大的问题,更细分的话实际效果不尽如人意,没有达到100%,有70%左右能够 达到泛化性还不错的情况。现在也还在调优,目前先基于A100来调优。Q:所以目前是用A100训练模型还没有稳定的情况下,重新编译放到寒武纪590的卡去 跑测试吗?A:是的,目前用同一数据集去做,连续对话10次,A100有7次能够返回还不错的结果, 寒武纪大概 3 次。Q:你们如何看待这个现象呢A:第一呢,我们目前也是照猫画虎,现在只能严格按照别人的工艺来做,采用相应的 条件才能浮现出不错的效果。第二就是涌现智能这件事,可能需要数据集跟芯片充分配 合,当你数据集不够好,在其他芯片上得到的效果可能会更差。目前我们用的也是英文 开源的预料在训练(也就是A100有过适配),说白了就是我们这个技术本身对工艺掌 握的还不够彻底。Q:目前在模型还没有稳定的情况下,寒武纪的卡可以把语言类大模型跑起来,但是还 没有达到A100的准确度是吗?A:是的,能跑出一些结果来,至少10次里面有3次以上给出来的结果还是不错的,只 不过还需要多一些时间去调优,理解它的性能,比如在模型里该怎么去用,另外就是预 训练数据集的建设,我们用的也是海外数据集和多模态的数据集。Q:华为的卡具体怎么样A:在我们的模型上表现比寒武纪差一些,10条大概一两条吧。华为自己适配可能比我 们好一些Q:现在就是说换一套硬件,适配也没有调优,先跑起来看一下结果是吗A:对,现在就是简单粗暴的方法在跑,后面还有硬件的协调性,软硬件的结合,还有 就是对工艺的掌握。Q:从视觉类和对话类,寒武纪是都测吗?A:目前是大模型对话类,视觉类目前生产图片一类的要求不高,寒武纪上一代的卡已 经在我们书生大模型里面用了,大概 300~400亿参数,这部分已经可以替代掉了。Q:海光的卡有试过吗A:我这边还没接触过Q:寒武纪对现在的结果有什么反馈A:他们两条,一个是说自己芯片能力上已经比较强的了,还是适配要再做;第二是说 我们在预训练数据集上对他们开放不够,他们想一起参与开发。Q:往后怎么看国产化A:我们还能买到卡,但是GPT现在对算力需求太高了,所以还是很需要国产的。另外 做智算中心的时候ZF是有要求的,最终是要达到50%的国产化率。Q:华为对目前结果是什么反馈A:他们比较直接,说他们自己跑的还不错,可能我们技术不太行一类的。反正后来也 没有谈成合作。内部也有一些沟通和判断,如果在最极限的情况下,因为我们一直听说 华为的卡能达到70%A100,但我们测下来还是有差距,最极限情况下可能深度合作一下, 看看完全用另一套系统会是什么样子。Q:目前对华为和寒武纪态度是一样的?A:寒武纪会稍微好一点,寒武纪没有那么强势,还有他的芯片能力只是目前初步跑出 来一般,但我觉得结果还可以,至少能用。而且去年年底的时候,我们跟寒武纪还申请 了科技部算力中心的专项,所以是有一些深度合作绑定的。Q:你们拿到590到得到结果花了多长时间A:也就这一两个月吧,去掉刚开始做模型的阶段,可能时间更短一些。具体我不清楚, 我是听了汇报说的是590可以用,有一定的替代,把结果给老板们看了。我觉得适配的 再多一些,就可以卖了,毕竟现在很多市场对泛化的能力要求不高。而且现在我们9~10 月预购的芯片算力也卖完了,市场还是很缺货的。Q:那就是要谈深入合作了是吧A:对,现在就卡在这里,之前跟另一家说好要深入合作,结果芯片年底才能出来,寒 武纪已经能用了,市场现在就是你有大模型,你有算力就能卖出去,而且还是溢价比较 高的情况。Q:另一家的芯片确定能用吗A:年底才能出来,也不确定能不能用,适配也要时间。现在是市场最好的时候,我们 现在想的是怎么样快速供货,做出规模化来。我们3万片A100的算力,两个月不到就 全卖完了。Q:细分看一下各方面表现,大模型是需要多卡分布式计算,显存、多卡互联、分布式 技术,稳定性怎么样A:第一点,多卡协同和分布式上,目前国产芯片里面是第一档,因为只有它能在大模 型框架下去跑这个模型。第二点在芯片通信环节上,我们没有进行特别细的对比,现在 看起来是可以通过一些软件调优的方式去优化,在多模态领域跟他上一代的卡对比了一 下,比上一代还是强了不少。Q:国内其他的国产卡目前适配怎么样A:智算联盟主要就是华为壁韧寒武纪,就这三家给的多一点。大模型来以后,主要 就是适配的寒武纪新的590这张卡。按照经验判断,以往的卡在大模型上也是用不上的。 以前在多模态上跑,可能都比不上寒武纪,大模型上就更不用说了。Q:那就是说寒武纪是比较领先的A:寒武纪应该是最领先的,从我们的角度来说。像没有深度合作和调优的情况下,可 以拿来就用了。华为这种应该也能用,但是需要再深度合作。Q:垂类和多模态的小模型,寒武纪表现怎么样A:之前一代在书生大模型上就可以用,这个目前不是一个要求很高的很难的一个方向。Q:涌现这个现象的本质原因,以及成本到底有多高呢A:我们认为涌现本质是复杂系统的能力,涌现是基于内容情境的学习下,模型够大塑 造了足够多的参数,也就是塑造了足够复杂的环境。维度越高,环境越复杂,然后再到 数据进行训练学习,从我们自己来看,在这么复杂的环境下,必然会去高速迭代,出现 一定的规律性,这种规律性不一定有意义,但也会产生一定的突变。这种突变可能就展 现为智能的水平。Q:出现涌现的成本该如何判断,会降低吗A:以GPT4为例,强化学习这个过程没有带来模型的显著提升,模型能力核心还是对于 训练数据集的优化。这个验证了我们的一个判断,涌现出智能最终的是在预训练阶段就 让他获得一个足够复杂的推理能力,他就可能涌现出智能,其他都是锦上添花的。Q:这里也会有一个模型参数量的概念吧,比如你孩子入学是由年龄要求的,不太可能 让3岁的孩子掌握复杂的知识,也就是模型参数量要支撑涌现的话,需要多少参数量, 之前论文基本到几百亿到千亿以上才有可能A:首先智能是没有一个统一的判断,但是要我们说能够连续进行有意义的对话,,并 且在对话过程中能够体现出自主性的,我们认为千亿参数是比较保底的。几百亿参数的 模型我们也做过,负担的MOSS模型,128张卡,也能涌现出一些能力,但是稍微问一问 强度大一点的就不行了,所以上线三天就下了。Q:就是这个问题,模型的智商和参数量的关系,目前看至少千亿能达到一个还行的智 商。垂直类呢,垂类应用的数据质量很高,模型参数量会有什么要求A:对,垂类应用数据集质量会高很多,因为是垂类应用,所以对泛化要求比较低的, 因为不会问一些奇怪的问题,哪怕问了,回答错了,客户也不在意。我个人保守一点, 如果为几家三甲医院做个模型,我觉得数百亿就可以了。如果为医疗联合体做的话,那 至少得千亿。好在每个医院都想要自己的垂类模型,目前我们做的都是数百亿接近千亿 的参数。Q:数百亿参数也不小了,也不是一张A100能够做的事了A:对,这种垂类也是集群化的。Q:也就是说这种垂类的,能涌现出智能的,也是高算力要求的,只不过没有ChatGPT那么多,但也不少,从算力卡选择上还是 A100 H100 590 这样的卡A:是的Q:从您的角度判断,假设深度合作的话,寒武纪590能达到什么样的性能A:理想情况下,一年以内可以达到A100 50~70%水平,就可以大规模使用了,现在是30 左右,我觉得这个差距是能追的。另外我们觉得还是数据集的问题,我们还是拿的英 文的开源数据集,国内就是没有好的数据集预训练,导致了一些问题。现在做垂类也是 这个原因,找一个好点的数据集来训练大模型。Q:那就是垂类的大模型,590是可以用的A:理论上是可以的,数据集质量好,卡也可以跑上千亿参数的大模型。
PS:如若内容对您有所帮助,请记得点赞、在看、转发,您的鼓励是对我的肯定,也是我最大的动力源泉!本纪要来自于网络,若纪要所属机构认为不便传播,请添加微信联系我删除纪要!如若造成不便,请多包涵!风险提示:文中涉及的行业和个股观点仅供参考,不做任何买卖依据,仅做逻辑参考,请注意风险!!
追加内容

本文作者可以追加内容哦 !

上一篇 & 下一篇