< 返回新闻公共列表
阿里云智能集团副总裁韩鸿源,谈云计算加速AI爆发
发布时间:2024-06-07 09:14:50
主持人:尊敬的来宾,女士们、先生们,专家学者,开发者,企业家们,大家上午好。
欢迎莅临2024AI智领者峰会,我是来自阿里云的AI主持人通义。很高兴在我国全国的经济性经济中心城市和国家创新型城市,粤港澳大湾区核心城市深圳与大家相遇。45年前深圳市建立经济特区,作为中国改革开放的窗口,创造了举世瞩目的深圳速度。创新是深圳这座城市的特点,特质和品牌,如今,当人工智能科技的浪潮席卷而来,我们见证了AI如何以前所未有的速度重塑了经济和生活,这座城市也正在以科技创新之际,拓展创新之路,最终呈高质量发展之效。今天,我们从这里出发,共话人工智能大模型的实践方向和应用的未来,加速推动大湾区乃至全国快速探索出一条适合自己的智能化创新之路。首先,有请阿里云智能集团副总裁、公共云首席解决方案架构师韩鸿源带来开场演讲云计算加速AI爆发。掌声欢迎。欢迎大家来到AI智领者峰会会场,我来简单向大家介绍一下我们在云和AI方向的发展和未来发展方向的一些看法。首先,先回顾一下云计算一个发展过程,从2006年云计算诞生开始,其实云计算经历一个快速发展的迭代过程,云和云上承载的应用相互促进,形成今天非常蓬勃云计算整个的趋势,在这个趋势上来讲,回顾一下过程里面几个关键的时间段,最开始的时候,其实云计算承载的是把线下的这些IT技术能力搬到云上去,降低成本和方便管理能力这些方面的提升,当然到今天为止其实很多人认为云计算还是停留在这个阶段上,但实际上云计算经过了其他很多快速发展的阶段,比如走过了初期的管理能力提升和降低成本阶段之后,云上诞生了像云原生这样的新的开发范式。这个新的开发范式加速很多应用的迭代和能力的提升,包括也促进云计算本身的一些发展,在云原生技术普及之后,其实下一个阶段里面诞生很多先进架构的需求,这个需求来自于当越来越多的关键业务系统承载在云上的时候,对云计算提出了更多的要求,这个时候可以看到在云上做这些高可用容灾各方向的这些发展,包括架构上怎么更好支撑这些业务系统,保证业务系统连续性和可靠性的同时,能够提升运行效率,提出很多新的挑战,同时很多新兴的公司体会到云计算带来新的好处,就是传统行业里当要做业务连续性和高可用性的时候,其实是一个非常高的门槛,但是当结合云计算做这件事情的时候,通过软件定义的方式非常简单在非常小的规模下使用到具有高可靠性,高可用性这些基础设施,来构建自己业务系统和保证业务系统的连续运行。走过这个阶段之后,后续是一个全球化的蓬勃发展,尤其是当国内企业参与到全球化进程中的时候带来很多新的变化,就是在近几年的全球化里面其实云计算面临很多的挑战,比如像合规、数据主权相关的话题,当云计算面临挑战的时候,大家一起做了非常多的工作之后,解决掉了这方面绝大部分的担心,所以也促成了全球化的蓬勃发展,促成了国内企业出海非常蓬勃的发展。走过这个阶段之后,最近这两年大家看到生成式AI的爆发和带来一些新的需求,在这个阶段里。就是大家今天最关心的情况,不管是大模型还是其他的生成式AI,带来了新的基础设施和基础能力的需求,同时也为应用带来新的发展机会。我们预计在下个阶段里面随着人工智能技术的持续发展和成本的持续降低,人工智能会走到一个无处不在的状态,这是未来新的发展阶段,我们今天努力去帮助大家一起去走向这个阶段,铺平走向这个阶段所有的技术能力和技术手段方面的准备。回到现在说的生成式AI爆发阶段上,大家可以感受的到是说,今天在生成式AI爆发的阶段里面,其实云计算帮助生成式AI做到让所有人可以非常容易使用到这些技术手段,包括技术能力方面的提升,让大家可以有效地去运行所有技术负载。我这里列了一下,从计算、数据、开发、部署各个方向来讲,今天的生成式AI对所有的技术能力提出非常多新的挑战,这些挑战包括计算能力提升到今天大家看到的EFLOP(音)级别的能力需求,包括持续运行一个训练任务,可能需要运行周或者月级别的时长才能让它拿到有效的结果。数据方面来讲其实是TB、PB级的数据会成为常态参与到所有的密集计算过程里,才能产生想要的结果来。在开发过程里,很多时候模型的探索是面临着非常多的技术基础工作,这些工作里面其实怎么样高效开展工作,也是需要有一个有效平台支撑它的运转。最后,实际上今天大家可以看到,通过这边提供一些信息,今天绝大部分跟AI相关的工作,其实是承载在云上的,绝大部分组织使用了这些云的能力,也是通过在云上使用更有效地让它们发挥作用的。作为一个云计算公司,在我们的平台上持续在追求一个极致的性能和弹性方向上的持续提升,来有效地支撑刚才提到不管存储计算网络还是软件能力层面各个方面的提升需求。结合这几个方面来看,我简单汇报一下我们在计算、存储、网络、大数据几个方向的一些进展。可以看到,虽然经过十几年的发展,但今天阿里云在每年每个阶段里面持续提升自己的技术能力,包括在AI方向上,我们自研自己的服务器,在自己的集群里面去探索更大规模集群下能够有效运行计算负载。存储方向来讲,怎么让存储不成为AI训练和所有AI工作的瓶颈,去提升它的运行效率。在网络方面怎么样能够去更有效地让更大的集群有机结合起来,更好有效地开展工作。数据库和大数据方面来讲其实更多承载大家看到更偏传统一些的负载,但是当它跟AI做结合的时候,当新的应用在AI方向上做了更多事情的时候,也会对这些技术能力提出很多新的要求,我们也配合这些能力做了非常多新的提升,包括数据库响应每年双十一和所有促销活动里面的业务压力,包括像大数据里面流失去处理每秒钟几亿次,每秒钟几亿TB级的这种存储量。除了这些之外今天还有一个新的趋势,云计算逐渐走向serverless化,任何AT系统运转不可能没有服务器,serverless讲的不是没有服务器,是服务器对用户的使用没有感知。就是当你去使用这些云上服务能力的时候,并不需要感知这些物理服务器的存在,不需要感知这些物理存在情况下,可以更有效地使用这个服务,这样会大大简化企业使用IT计算能力的难度和方便大家开发新的应用。这是我们现在新的追求方向,今天大家感受AI的使用也是serverless的方式,大家去调云上所有这些AI服务的时候,你不会知道这个服务运行在什么样的服务器上,你也不需要关注这个服务运行在什么样的服务器上,你去使用这个服务有效地满足业务需求就好了。结合这点之后,现在看到一个新的发展方向,在传统意义上,大家一般会认为云计算组成是由基础设施和一些软件层技术去实现的。但是现在随着人工智能一步一步的发展,我们觉得今天需要把另外一个因素引进到技术站里面来,就是模型及服务的服务能力。这个服务能力有一个很大的变化,和以前比起来有很大的区别,以前大家永德不管是IaaS、PaaS都是传统大家使用的计算能力,这些更偏传统计算机架构下有效执行的能力。但是当走到今天以模型和AI为中心的时候带来一个新的变化,神经网络会成为计算能力一个基础的组成部分,神经网络的计算方式跟以前的传统机器指令的执行方式间会有很大的差异,结合这个新的计算方式引入会带来很多新的变化,资源池的变化,管理方式的变化,技术能力组织的变化,所有这些变化加在一起其实今天看到的我们认为未来可能会从IaaS、PaaS走到IaaS、PaaS+MaaS三个方向,一起结合支撑业务系统和应用有效地运行和发展。说到这点之后,谈一下今天主要的话题,我这里画了一幅图,这个图画得比较简单,不是一个面面俱到地想覆盖一切的图。但是从诗意的角度来讲,今天非常热门大语言模型这个方向来讲,画这个图想说今天用户去使用这个模型的时候并不需要去掌握模型的原始训练所有的细节,这个图分了三个阶段,上面画了我们去承载不同的工作负载大家会是什么样的架构在做。从最左边开始,其实基础模型的训练,很多时候在今天来讲,大家可以感受得到从去年的百模大战到现在以后可能不再会有那么多的模型存在了,模型的竞争会越来越激烈,想训一个好的模型,想让市场上有竞争力不是那么容易的事情。其实往下走的时候,不管是对技术资源的需求、投入资金的要求,还有对技术能力的要求,这都会越来越高,这个方向来讲会经历一个比较残酷淘汰的过程。这个之后流程里面,在使用模型阶段里面,可以看成两个小段,以前当大语言模型刚出来的时候,大家非常喜欢做的一件事情就是模型微调,就是我针对特定的业务方向,希望能把我享有的领域支持注入模型里面,让模型按我希望的方式回答我的问题,去处理我给它的请求。但是这个需求今天不会是继续像以前那么强了,原因是什么?当基础模型泛化能力越来越强的时候,当它能够去做更多处理的时候,模型的微调有时候不一定是最好的选择。当然不管模型经不经过微调,最终可能走到下面真正用的时候,其实是走到推理服务的阶段,就你是一个基础模型也好,是一个定制模型也好,当你走到推理的时候是模型真正发挥作用的时候。在这个推理流程里,今天从应用侧去看的时候,不管今天访问的是任何一个AI的模型服务,本质上来讲它不是一个原始的推理服务。推理服务实际上通过API访问的,访问的时候实际上中间有很多串入环节的,当你访问的你认为是模型服务的时候,有可能里面有其他的处理流程在里面。我这里画了一下,这边有一些提示词的优化嵌入到里面去,也有像下面增强生成语料的提供结合在一起去做的,右侧画了一个示意的应用,这个应用除了使用AI能力之外,它还会像以前一样地去使用所有云上这些基础能力,不管是PaaS也好,还是IaaS也好,这可能是未来应用运行的大概形态。在这个形态来讲从用户侧来讲,更多还是关注在应用这一侧,怎么跟模型做好接口使用的作用,而不需要去关注太多模型内部到底怎么样把它训出来,因为使用一个基础模型不意味着你要去训练一个基础模型,你完全可以使用很多现成的服务,当你理解了更多原理的时候,可以让你更好使用这个模型,但是不意味着你要从头做起这些训练工作和基础工作。说到刚才几个阶段,PAI、灵骏简单和大家讲一下。PAI、灵骏是今天云计算基础设施级的基础能力,结合上层软件能力一体化的整体训练平台。在这个平台上,它会给以前的IT带来新的可以值得大家反思的地方,随着生成式AI的持续发展,今天有一个很大的变化,以前云计算把大家线下的负载搬到云机房里面去,可能改造或者不改造没有关系,云上也不会带来翻天覆地的变化,当今天要训练的模型大到可能需要万卡甚至于更多卡的时候,这个能力可能不是大家选一个机房,在里面把服务器把网络连上可以运载的状况,它已经变成了非常专业的工作领域,当你要优化大规模计算基础设施的时候,其实这个东西可能随着未来随着商业化分工的越来越强,会更多由云计算厂商承载,而不是由每一个客户搭建这个系统,因为毕竟大家在这块技术上是有分工的。说一些指标性的东西。今天计算里面用到的网络已经是每秒钟能够传递3.2个TBPS的数据,网络的延时都是个位数微妙级的,对存储的需求是几十TB的这种大B级吞吐量的需求,持续连续性不出现问题,或者出现问题不影响工作,至少达到几周的工作才能确保大参数模型有效地得到训练。说完训练相关的事情,下一步模型使用有两个典型的链路,模型的推理,其实推理这件事情本质是一个原始的操作,真正去用模型的时候,其实用户完全可以选择基于这种技术模型喂给它相应的提示词,喂给它相应希望能够知道的上下文也好,让它更好的运转。另外一点在模型使用过程中有很多技巧性的东西,或者有很多的技术环节可以帮助大家让模型发挥作用。下面那条线模型的定制其实不意味着要改模型参数,很多时候的定制其实怎么样更有效地让模型在一个更好的环境里去运行的时候能够发挥出你想要的效果来。这块来讲新的一些发展趋势包括智能体的做法,包括结合RAG去做知识管理的做法,现在逐步经过很多探索之后,今天的很多应用逐渐走向成熟。这一块在客户业务系统里面来讲,可以更简单有效使用这些模型的能力,通过这些更灵活的方式结合,能够让它更好地发挥作用。再往下,模型会是一个非常丰富的生态,在今天来讲,在我们的平台上,去支持大家去运行的模型包括自己自产的模型,这里列出来所有通义系列的模型,包括千问,包括有通义的多模态万象的模型还有通义的VR视觉和语言结合的模型。除了这个之外,我们的平台今天是一个开放的运行方式,它的承载能力可以去支持三方的这些模型和经过调整的垂直模型的有效运行。今天大家比拼模型之外,还要比拼模型的服务能力。模型服务这件事来讲,我们提供有效运行模型的平台,是帮大家更有效更低成本地让模型能够发挥它应该发挥的作用。除了这两点之外,还有更重要一条怎么样跟开发者社区有效地结合起来,能够为大家提供一个可以在模型上更方便地开展工作,更方便地获取模型和把自己的成果发布出来的平台。这是下面列出来这些,像model scope平台,今天国外的huggingface平台,结合在一起是为大家提供一个更好的持续发展下去的生态环境。在自己研究模型这件事来讲,有一个很重要的原因,就是当我搭建前面大家看到的这些有效的训练也好,推理也好的平台的时候,它总要有一个载体验证它的效果是不是可以有效运转,所以我们自己的通义模型是一个很好的证明,我们今天搭建的所有这些平台级的能力,可以有效去训练出好的模型来和让好的模型在上面提供好的服务能力。这边可以看到通义其实品牌的发布是2022年的9月份,通义千问大语言模型发布是2023年4月份。当时刚发布的时候,早期用户可以体会到初级版本一些不成熟的地方,但是后续做了非常多模型的迭代。到去年8月的时候通义模型相对能力比较完整了,到去年10月份的时候,通义2.0发布之后,这个模型能力其实已经完全具备今天主流的先进模型能力。除了这个方向之外,我们今天也在做的一件事情,我们在提供商业模型的同时,其实提供非常多开源的贡献,通义今天可能是市场上开放的参数最大最完整最成体系的模型系列,就是我们从7B的模型开始开源,到后来7B、14B,一直迭代到72B。包括今年4月份我们其实开放千亿级参数的通义的千问模型。在开放的体系里可以发现,整个社区里面,通义开源模型的下载量和使用量非常高,尤其国内的很多用户,包括很多海外用户里面,通义的开源模型有非常好的用户基础和非常好的口碑存在。除了这个之外,通义模型商业版本,我们自己在持续发展的模型也在不停的发展,今年5月份的时候上个月在北京开峰会的时候发布通义千问2.5的版本,这个版本标志着模型的能力进入到了下一个非常高性能的阶段,大家如果有兴趣尽可能尝试新版本,其实还是能持续给大家带来一些新的惊喜。商业模型本身,魔搭社区,这个社区是我们为主导去组建的一个开放社区。这个社区欢迎大家加入,欢迎大家在这个社区上面使用包括反馈大家的相关意见,包括在上面去上传自己的模型,去下载别人提供的模型,大家一起促成整个模型的开放生态,未来更有效,更蓬勃的发展下去,让整个AI的环境得到更蓬勃的发展。我们的看法。今天在云上去结合我的生成式AI模型服务能力,构建新一代的应用,或者去改造现有的应用里面加入更多的智能能力,这个可能是我们目前最希望和大家一起探讨和持续发展的方向,希望后续能跟大家有更多的机会,在这件事情上展开更多的合作。谢谢大家!