
拿下中国 AI 云市集第一后,阿里云又大开说了。
征引第三方机构 Omdia 数据,中国 AI 云市集限度达到 223 亿元,阿里云占比 35.8% 位列第一。

围绕这一卓著地位的时间根基,阿里云的弹性预计、集群、容器、东说念主工智能平台等时间居品崇拜东说念主来了场 AI Infra 共享会。
AI 全栈云预计、10 万 GPU 拼巨型运算器、AI 落地避坑指南……
不错说,这场 AI Infra 共享会,阿里云不仅亮了算力和 AI 落地的真功夫,连行业痛点也没藏着掖着,来望望具体说了些啥。
民众全栈的 AI 云
率先,阿里云这个全栈 AI 云预计选手,照实把 IaaS、PaaS 到 MaaS 的时间架子搭得挺规整。能从算力底座一齐顺到 AI 应用,给企业递上一套端到端处治决策。
阿里云在民众 29 个地域运营 89 个可用区,在它家居品生态里,深度和会了预计、存储与 AI 才能,
比如,在存储范围,还有行将发布的 OSS向量 Bucket,存储老本大降。
此外,Tablestore 查千亿级数据更是快到按毫秒算。

在物流、医疗这些范围,阿里云也照实帮部分客户把后果提了提、老本压了压,给行业数字化转型助推了一把。
10 万 GPU 集群高效互联
接下来是集群。摩尔定律逐步失效?阿里云早有 Plan B。
用香农定律,阿里云不错把 10 万张 GPU 拼成一个巨型运算器,构建了大限度的预计集群。
这就不再是传统收罗连合 CPU 作念输入输出,而是通过高速互联,将数万个 GPU 构成一个补救的超等运算器,共同完成单一任务。
阿里云的预计崇拜东说念主暗意,这个转机,就像从单个火箭到用数百个火箭绑缚辐射的星舰,底层科学表面没变,但工程的复杂度呈指数级增长。

集群限度越来越大,那么如何保证这台超等预计机高效认知地运转呢?
亲和性息争机制至关弥留。
亲和度息争机制确保任务被分拨到最接近的 GPU 上,能最大规则地减少通讯延长,幸免性能衰减。

同期,当集群限度达到上万以致十万卡时,故障率会权贵擢升,一个万卡任务可能每十几分钟就会遭受一次故障。因此,构建这套秒级的多层级故障监控和感知系统,收尾故障的快速发现和任务的无缝迁徙,就成为了保险大限度考验连气儿性的要道。
容器,AI 原生底座
容器干事是一种云预计时间干事,中枢是通过"容器"这一按序化时间单位,收尾软件应用的高效部署、运转与管制。

它不错将软件运转所需的代码、依赖库、成立文献等中枢组件封装在全部,变成孤苦的容器实例。这些实例具备环境裂缝特色,能在不同的干事器操作系统(如 Linux、Windows)或预计环境(土产货干事器、云霄干事器)中保捏一致的运转情景,幸免在土产货能跑、换环境就报错的兼容性问题。

在 AI 期间,容器时间也饰演着"云上操作系统"的变装,尤其是在 GPU 期间,应用齐长在容器上。
容器不仅能匡助企业擢升资源运用率(把小红书的 CPU 运用率从 10% 拉到 50% 以上),更成为了 AI 应用按序化拜托的器具。
阿里云容器干事 ACK ( Alibaba Cloud Container Service for Kubernetes ) 就像一个干事器端的安卓系统,朝上守旧着模子考验、数据处理、推理干事等各种 AI 应用,向下则高效地息争和管制着包括灵骏智能预计集群、CPU/GPU 算力、存储和收罗在内的底层资源。

从数据处理到模子考验,再到推理干事,容器流畅了 AI 招引的全经由。
举例,阿里云开源的息争器 Koordinator 通过部队、优先级等细密化息争计谋,最大规则地挖掘 GPU 后劲,擢升考验后果。

兴味的是,阿里云容器的开源时间,还被 OpenAI 继承过。
2021 年, OpenAI 将其 Kubernetes 集群推广到惊东说念主的 7500 个节点以支捏 GPT-3、DALL · E 等大模子考验时,遭受了一个要道挑战:
别离式考验任务需要通盘预计单位同期启动,不然就会堕入"部分息争、合座卡死"的僵局。
为了处治这个问题,OpenAI 继承了 Kubernetes 的 Coscheduling(协同息争)插件。
而这个至关弥留的插件,其中枢时间和想想最早恰是由阿里云的工程师们孝敬给社区的。
从后果到涌现
聊完底层的算力、存储和容器干事,则投入了如何匡助 AI 落地的要道法子。
企业用 AI,说白了就图俩:后果和惊喜(窒碍)。
前者是 AI 援救写作、编程的基础价值,后者则是模子超出预期的才能跃迁,比如精确预判业务需求的要道陡然。
为了让这俩需求落地,阿里云把涌现拆成了三档:预考验决定"基础本事",后考验崇拜"专项技巧",业务涌现则依赖数据飞轮的"高下文守旧"。

阿里云有 16 年历史的 DataWorks 也升级成了 AI 搭档,能处理多模态数据还能追本穷源,帮算法工程师处治改完模子却不知说念改了哪的贫穷。

在这场共享会的临了,阿里云团队谈到,AI Agent 当今还处在试错期。现时仍面对三大挑战:
驱散确定性不及
推理过程难可视化
老本偏高
但阿里云已入辖下手处治这一问题,比如优化沙箱环境,改日将支捏 AI 自主完成数据可视化、工业制图等复杂任务,为其搭建可控操作空间。
临了还聊到具身智能、后考验、寰球模子等话题。
整场共享下来,不错看出在 AI 这场马拉松里,阿里云不仅想跑快,还想把赛说念修得更宽更稳。
一键三连「点赞」「转发」「留意心」
迎接在计划区留住你的成见!
— 完 —
� � 年度科技风向标「2025 东说念主工智能年度榜单」评比报名开启啦!咱们正在寻找 AI+ 期间领航者 点击了解信服
❤️� � 企业、居品、东说念主物 3 大维度,共建设了 5 类奖项,迎接企业报名参与 � �
一键关爱 � � 点亮星标
科技前沿施展逐日见开云kaiyun
