首页
人工智能
网络安全
手机
搜索
登录
搜索
golden81
累计撰写
154
篇文章
累计收到
0
条评论
首页
栏目
首页
人工智能
网络安全
手机
包含标签 【虚拟化】 的文章
2025-4-24
超融合虚拟化和容器环境 GPU 支持性能测试:基于 NVIDIA T4 与 A30
我们在 DeepSeek 解决方案文章中提到,SmartX AI 基础设施支持虚拟化及容器环境下的两种 GPU 使用方式,即 GPU 直通与 vGPU,为多种大模型应用场景提供灵活、高性能的 GPU 资源。 为帮助用户进一步了解 SmartX 超融合 GPU 直通与 vGPU 功能的性能表现, 近期我们基于两款 GPU 卡(NVIDIA T4 和 A30),测试了 SmartX 超融合在虚拟化和容器环境(采用 SMTX Kubernetes 服务)下基于多种 AI 测试工具的具体性能,并与物理机/裸金属环境的性能进行对比。 重要结论: 在虚拟化和容器(SKS 和 Docker)环境下,SmartX 超融合采用 GPU 直通与 vGPU 功能,均可为两款 GPU 卡提供良好的性能支持,在多个模型测试中获得接近物理机环境的性能(基本在 90%-110% 范围内浮动)。 物理机、超融合虚拟化、SKS、裸金属 Kubernetes 支持 GPU 的性能表现差异不明显,验证了 SmartX 超融合虚拟化和容器环境均可为 GPU 应用场景提供良好的性能支持。 1 基于 NVIDIA T4 的性能测试 1.1 测试目标 测试 SmartX 超融合在虚拟化、容器环境下采用 GPU 直通和 vGPU 功能的性能表现(vGPU 采用不同的切分方式,验证 vGPU 算力的切分是否线性,以及多实例环境下的性能表现)。 对比物理机和裸金属环境下,SmartX 超融合在虚拟化、容器环境下 GPU 的等算力池化方案损耗情况。 综合 GPU 算力利用率和算力分配的灵活度,讨论基于 SmartX 超融合最佳的 GPU 算力使用方案。 1.2 测试环境 1.2.1 测试硬件 以物理 GPU 所在节点为例: 1.2.2 基础平台软件及版本 1.2.3 测试工具及版本 (1)TensorFlow Benchmark TensorFlow Benchmark 是一个开源的基准测试框架,包含了 PerfZero 和 scripts/tf_cnn_benchmarks。本次测试主要采用 PerfZero,PerfZero 是 TensorFlow 基准测试框架中最先进且全面的子项目,提供吞吐量、延迟、内存使用等详细的性能指标,支持自定义测试场景和指标。本次测试主要关注 PerfZero Throughput(吞吐量)的输出结果,包括每秒处理的样本数量(exp_per_second),以及模型在每秒内平均能处理的样本数量(avg_exp_per_second)。这两个指标的单位均为 examples/sec,数据越大性能越好。其中,avg_exp_per_second 是在所有迭代完成后计算得出的平均值,能够反映模型的整体性能表现。而通过观察 exp_per_second 的变化,我们可以进一步分析模型性能在不同阶段的波动情况,从而为性能优化提供有力依据。 (2)AI Benchmark AI Benchmark 是一个开源 Python 库,用于评估各种硬件平台(包括 CPU、GPU 和 TPU)的 AI 性能。AI Benchmark 的输出结果通常包含总评分(Overall Score)以及各个单项测试的得分。本次测试主要关注 train score(训练得分) 、Inference(推理得分)和 Device AI Score,其中后者是前两项得分的总和,旨在衡量设备在训练和推理两个关键环节上的综合能力。分数越高,设备的 AI 处理能力越强。 (3)GPU Burn GPU Burn 是测试 GPU 稳定性和性能的压力测试工具,通过长时间让 GPU 运行密集计算任务,来测试显卡在高负载条件下的表现,从而评估显卡的散热能力、性能极限,以及在长时间高负荷下是否会出现问题(如崩溃、过热、降频等)。本次测试主要关注性能(FLOPS)的输出结果,GPU Burn 会输出浮点运算每秒(FLOPS)的值(单位:Gflop/s),表示 GPU 在测试期间执行的计算量,数值越大,代表 GPU 性能越好。 1.3 测试项目及步骤 ::: hljs-center 备注:16Q 表示该虚拟 GPU(vGPU)配备了 16GB 的显存,8Q 代表 8GB 显存,4Q 代表 4GB 显存。后缀 “Q” 标识这些 vGPU 使用的是 Q 系列切分方式。 ::: 1.4 测试结果 1.4.1 实测性能数据 1.4.2 单实例性能折损数据 为了更准确地计算和分析不同超融合环境相对于裸金属环境的性能损耗,将每个单实例测试项下的数值与物理机环境下的数值进行对比,计算每个配置相对于物理机环境的性能百分比,并据此得出性能损耗。 对于每个单实例测试项目,使用以下公式来计算性能百分比:性能百分比=(特定配置下的值/物理机环境下的值) * 100%。 性能损耗可以通过以下公式计算:性能损耗=100%-性能百分比 ::: hljs-center 负值表示超融合/裸金属 Kubernetes 环境中的性能数值高于物理机环境。 ::: 可以看到: 超融合 vGPU 能力表现: vGPU 的不同配置(4Q, 8Q, 16Q)在多数测试中能够提供接近裸金属水平的性能,基本在 90% 至 105% 的范围内波动,而不同 vGPU 配置之间的性能差异也较小。无论是在何种配置下,vGPU 都能有效地分配和利用资源,确保用户获得稳定的性能体验。 超融合 GPU 直通能力表现: VM GPU 直通功能在多项测试中表现优秀,尤其是在 AI Benchmark 和 PerfZero Rest56 模型测试中,超融合 GPU 直通性能与物理机环境基本持平,甚至有时还能超越。同样地,SKS GPU 直通性能也比较出色,尤其在 AI Benchmark 测试中的表现突出。 虚拟化环境 GPU 性能表现: 在以上基准测试中,大多数虚拟化环境支持 GPU 所达到的性能与物理机环境性能相当或略优,基本保持在物理机环境性能的 90% 至 110% 之间。在 GPU Burn 的测试中,虽然虚拟化环境的性能普遍略低于物理机环境,但性能损失控制在 10% 以内。 Kubernetes 环境 GPU 性能表现: 在 Kubernetes 环境中,无论是裸金属还是 SKS,GPU 支持能力都得到了充分验证。裸金属 Kubernetes 和 SKS 在大部分测试中表现优异,特别是在 AI Benchmark 测试中达到了最佳性能,而在其他两项测试中则与物理机环境基本持平或略有差距。 性能一致性: 总体而言,无论是虚拟化环境还是 Kubernetes 环境,SmartX 超融合 GPU 直通和 vGPU 功能在各种测试项目中展现出高度一致的性能表现,几乎所有关键指标均稳定在物理机环境的 90% 至 110% 区间内。 1.4.3 多实例并发测试数据 为了验证多实例并发场景下,vGPU 切分后各实例间资源分配是否均衡,以及多实例的并发性能与单实例性能有何区别,我们还测试了 8Q – 2 实例(2 个虚拟机/SKS 实例各占 8Q 资源)和 4Q – 4 实例(4 个虚拟机/SKS 实例各占 4Q 资源)场景下各实例的性能表现,并与 16Q 单实例场景性能进行对比。 实例间性能差异 = (实例 A – 实例 B )/ 实例 B 各实例占单实例环境性能比例 = 实例 N / 单实例环境性能(理论上,2 实例测试中各实例性能应为 16Q 单实例环境下性能的 50%,4 实例测试中各实例性能应为 16Q 单实例环境下性能的 25%) 并发性能总和/单实例环境性能 = (实例 A + 实例 B + … + 实例 N )/ 单实例环境性能 通过以上数据,可以看到: 实例间性能差异: 在不同环境和不同切分配置下,多实例测试中各实例间性能差异均在 10% 以下,绝大部分集中在 1%-5%,实例间性能差异较小,说明多实例场景下各实例性能表现稳定均衡,资源分配比较平均。 多实例测试与单实例测试性能差异: 在不同环境和切分配置下,多实例测试中各实例的性能表现与单实例环境的理论性能占比(50% 或 25%)基本吻合,部分测试中甚至超越了理论比例,表明各实例不仅能够有效利用 GPU 资源,而且在某些情况下还能实现更高效的资源利用。在并发性能方面,8Q 配置多实例在 PerfZero 和 AI Benchmark 并发测试中的表现要优于单实例环境;而在进行 GPU Burn 测试时,由于存在算力资源抢占的情况,并发性能之和仅达到单实例环境约 80%,说明不同的 vGPU 配置和不同的任务类型会对多实例性能产生一定影响。总体而言,无论是虚拟化还是容器环境,两种切分配置均表现出较高的 GPU 资源利用率。 1.5 重点测试结论 在大多数性能测试中,SmartX 超融合平台对 GPU 的多种使用模式性能表现与物理机环境基本相当,充分展示了 SmartX 原生虚拟化平台 ELF 和容器管理服务 SKS 的成熟度和可靠性。 使用 SmartX 超融合 vGPU 功能时,不同 vGPU 配置之间的性能差异较小,意味着各种资源划分方案都能有效地利用分配给它们的计算能力。多实例测试中,各实例间资源分配也比较均衡,在部分测试场景中多实例并发性能高于单实例环境,可提高 GPU 资源利用率。 SKS(GPU 直通和 vGPU)和裸金属 Kubernetes 支持 GPU 的性能与虚拟化和物理机环境差异不大,验证了 SmartX 超融合虚拟化和容器环境均可为 GPU 应用场景提供良好的性能支持。 2 基于 NVIDIA A30 的性能测试 2.1 测试目标 测试 SmartX 超融合虚拟化(采用 GPU 直通)搭配 Docker 支持 NVIDIA A30 GPU 卡的性能表现。 对比裸金属环境下(物理机+Docker),超融合虚拟化+Docker 支持 GPU 的等算力池化方案损耗情况。 2.2 测试环境 2.2.1 物理机环境配置 2.2.2 虚拟化环境配置 2.2.3 软件环境配置 Guest OS: Centos 7.9 Docker-CE: 26.1.4 Nvidia Driver: 535.183.06 Nvidia CUDA: 12.5 PyTorch: 24.07 2.2.4 测试工具和模型 使用 transformers-benchmarks 测试物理机/超融合+Docker 支持 GPU 卡的基准性能及不同模型下的性能表现。Transformer 是一种用于自然语言处理(NLP)的深度学习模型,通过自注意力机制(self-attention)来处理序列数据。本次测试用到的 AI 模型包括 BERT、GTP-2 和 T5,与 Transformer 关系如下: 2.3 测试项目及步骤 通过给定不同的参数,测试不同环境最佳的 AI 计算性能,包括以下几个方面: 计算性能: 测试 GPU 在 PyTorch 下的最大计算性能,统计单位为 TFLOPS(Tera Floating Point Operations Per Second),表示每秒能够执行的万亿次浮点运算,数值越大,代表性能越好。本次分别测试 16 位和 32 位浮点数下的性能。 显存性能: 测试 GPU 在 PyTorch 下的最大显存性能,统计单位为浮点数的传输带宽(GB/s),数值越大,代表性能越好。 BERT 模型测试: 训练 BERT(Large)模型并测试不同参数下的性能表现,统计单位为 TFLOPS。 GTP-2 模型测试: 训练 GTP-2(Medium)模型并测试不同参数下的性能表现,统计单位为 TFLOPS。 T5 模型测试: 训练 T5(Large)模型并测试不同参数下的性能表现,分别统计编码(Encoder)和解码(Decoder)的性能,统计单位为 TFLOPS。 注:BERT、GTP-2、T5 为单个 Layer 的性能测试,既自注意力机制和前馈神经网络,通过前向传播和反向传播的性能测量,可以了解模型在不同序列长度和批量大小下的计算效率。 2.4 测试结果 计算公式:性能折损 =(物理机环境性能 – 超融合虚拟化环境性能)/ 超融合虚拟化环境性能 ::: hljs-center 负值表示超融合虚拟化 + Docker 环境中的性能数值高于物理机 + Docker 环境。 ::: 可以看到,SmartX 超融合虚拟化 + Docker 环境支持 GPU 的性能表现,在计算性能、BERT、GPT-2、T5 模型测试中与物理机 + Docker 环境表现基本持平,在显存性能测试中与物理机 + Docker 环境差距在 10% 左右。 2.5 重点测试结论 在基于多种模型的测试中,SmartX 超融合虚拟化 + Docker 环境支持 GPU 的性能表现与物理机 + Docker 环境性能差异不明显,验证了 SmartX 超融合虚拟化 GPU 直通功能的可靠性能。 总结 通过测试可以看到,在虚拟化和容器(SKS 和 Docker)环境下,SmartX 超融合采用 GPU 直通与 vGPU 功能均可良好支持多款 GPU 卡,并在多个场景中获得接近物理机和裸金属 Kubernetes 的性能,为企业用户多种 AI 应用场景提供高性能、一致性的 IT 基础架构支持。
2025年-4月-24日
21 阅读
0 评论
人工智能
2025-4-23
微软AI CEO:通用人工智能或在5年内出现
4月5日,微软AICEO及DeepMind的联合创始人Mustafa Suleyman接受海外播客BigTechnology访谈,本次对话深入探讨了微软在AI领域的最新动向、战略思考以及对未来的展望以及与OpenAI的合作关系等话题。 Mustafa Suleyman坚称AI大模型的能力绝不可能已经见顶,“我们还有非常长的路要走”,尤其是在解决幻觉、提升准确性等“最后一英里”的难题上。预测AI将彻底改变搜索模式,使其变为对话式,白领工作将转向管理AI Agent。 此外,他还驳斥了关于缩减数据中心投入的报道,称微软仍在以惊人速度消耗资源。并形容与OpenAI的合作是长期的、极其成功的。 主持人:微软为何要打造一款升级版的、更具人情味的AI机器人,它将如何吸引用户?构建更个性化Copilot(具备更强记忆力、行动执行能力、购物助手乃至虚拟化身)的构想是如何一步步变为现实的?这种记忆能力能回溯多久,用户是否仍需反复提醒AI自己的信息?记忆功能与授权AI执行订票等实际操作之间是否存在关联,即信任是否是授权的前提?未来可能推出的虚拟化身功能,是否意味着我们将与某种形式的“数字人”进行交互? Mustafa Suleyman:我们正处于一个时代的关键转折点,从智能新纪元的第一阶段迈向全新的开端。过去,大家对聊天机器人的基础问答能力,也就是“智商”(IQ)印象深刻。早期用户更关注实用性,像数学或编码能力。但对于大多数消费者而言,机器人的交互语气,也就是“情商”(EQ)才是关键。比如是否礼貌、尊重、适时幽默,能否记住并正确使用用户名字,能否学习用户的纠正。 目前的记忆功能虽不完美,但意义重大。它能记住用户的关键信息,像家庭状况、背景经历,还能逐渐理解用户偏好,如交流风格、回答形式等。记忆是解锁全新AI使用方式的关键特性,让用户投入的时间和信息得以积累,深化与AI的独特连接。 当用户觉得AI足够了解自己时,才会更愿意授权它执行实际操作,比如用信用卡预订机票。我们期望AI能帮用户处理事务,减轻生活负担,这也是我从2010年创立DeepMind时就追求的目标。像Copilot现在能在Windows中控制鼠标、导航界面等,让数字生活更便捷。 虚拟化身功能就像“马麦酱”,有人喜欢,有人不喜欢。对部分用户来说,有独特名字、形象、表情和个性的虚拟化身会让交互更像人与人对话,我们在测试中也发现它能改变交互体验。不过,也有人偏爱纯文本或图像/视频交互。目前这还在实验阶段,但预示了未来方向,我们可能会与个人AI伴侣建立深厚、持久的关系。 主持人:面对Amazon、OpenAI、Google(DeepMind)等巨头都在布局相似的AI伴侣领域,微软将如何实现差异化?仅仅依靠AI更具个性化、更富人情味的特质吗?这是否意味着未来用户会像挑选商品一样,根据个人偏好选择不同的AI伴侣?考虑到用户可能与AI建立深厚情感连接(如Replica用户与其AI结婚的案例),微软是否为此做好了准备,将如何设定和坚守伦理界限?在平衡AI能力(如减少拒绝执行指令)与安全、防止滥用(如生成名人图像或被诱导产生不当言论)方面,微软将如何在坚守自身价值观的同时保持竞争力? Mustafa Suleyman:我们的差异化策略在于侧重塑造AI的个性和语气,让用户感觉像在和熟悉、友善、乐于助人且支持自己的人交流,还能反映用户的个人价值观,随时间学习并体现用户偏好。同时,我们非常重视安全可控,让AI正直、简单,避免卷入争议,保持礼貌、尊重和不偏不倚,能呈现争议双方观点。 未来用户确实会根据个人偏好选择AI伴侣,AI会像贴心伙伴一样适应用户。从用户反馈能看出,他们已经和AI伴侣建立了真实的情感连接。比如有67岁用户在Copilot帮助下修理家门、学习刷漆技巧等。 对于AI的边界,我们不会开发诱导深度情感的产品。我们有实时分类器检测不当互动,一旦发现会及时制止。例如和Copilot说“我爱你”,它会礼貌岔开话题。 在平衡AI能力与安全方面,初期设定拒绝机制是有必要的。我们会审视限制是否恰当,不会盲目放宽限制。接下来要考虑赋予Copilot在浏览器中执行操作的自主权大小,要谨慎、稳健推进。 主持人:除了个性化,微软还发布了AI播客、深度研究、笔记页面、Copilot搜索等一系列功能,这些更新背后是否存在一个清晰、全面的战略?或者说这一切仍然是围绕塑造AI个性展开?构建如此主动、全能的AI助手为何如此困难,尽管许多公司都有此愿景?当前AI领域存在关于模型本身与基于模型的产品哪个更重要的辩论,您认为模型的发展是否已接近瓶颈,导致重心必须转向产品开发?尤其是在预训练方面,通过不断扩大模型规模的方式是否已显示出收益递减?路透社报道称微软缩减数据中心租约计划,这是否与您声称仍在通过扩大规模看到成果相矛盾,又是否与OpenAI开始同Oracle等其他公司合作有关?既然扩大规模能带来价值,为何微软自身反而专注于构建规模较小的模型,而不是像合作伙伴OpenAI那样利用微软的计算资源追求最大模型?对于个性化的新AI产品而言,推理能力本身相较于模型规模的重要性如何?推理所需的计算量真的远超训练吗?运行AI服务(如生成娱乐图片、辅助订票)的高昂成本与其产生的价值是否匹配?这股AI热潮是否会因成本过高而难以为继? Mustafa Suleyman:这些功能的核心都是帮助用户完成任务。IQ和EQ关乎智能与友善,但用户更关心AI能否编辑文档、生成播客、进行对话式互动等。未来电脑将从被动变为主动,提供建议、推送内容等,这是伙伴模式的重大变革。 构建主动、全能的AI助手非常困难,因为世界存在很多无法预见的边缘案例,我们还处于初级阶段。就像早期的GPT - 3或LaMDA,虽有缺陷,但也有惊艳时刻。经过迭代,记忆、个性化和行动功能已接近成功。 模型发展远未到瓶颈。以幻觉和引用问题为例,虽有改进但还需解决。每次模型迭代都有新技巧提升准确性,大规模采用往往在准确率大幅提升时发生。语音技术就是如此,现在已经很出色。 预训练阶段进展速度变慢,但计算投入只是调整到后训练阶段和推理时间,总投入未减少,模型能力仍在进步。 路透社关于微软缩减数据中心租约的报道不准确。很多只是早期探索性对话,未最终签署协议。我们持有部分合同选项以保留灵活性,同时在其他地区有实际投资,自2020年以来一直在大量消耗资源。 OpenAI与Oracle合作的说法不属实,OpenAI所有推理需求都通过我们满足,合作关系没有放缓。 我们与OpenAI有良好合作,他们进行前沿探索,我们则专注构建自己的MAI模型。因为前沿探索成本高,后续优化者能找到更高效、低成本的方法构建相似甚至更好的系统。 推理能力很重要,具备推理能力的模型学会了“如何学习”,能在执行前思考推演。推理确实消耗更多计算资源,但不是所有任务都需要这类模型,日常问题更偏爱快速结果。 从技术史来看,有用的技术会变得更便宜、易用和普及。AI领域也会如此,价格下降会带来高采用率,进而降低生产成本。目前AI服务虽有成本,但前景积极,许多应用会在生活中发挥重要作用。 主持人:鉴于微软和OpenAI都在努力构建相似的AIAgent产品,双方的合作关系未来将如何演变?是什么维系着OpenAI继续遵守约定?如果OpenAI真的宣布已达到AGI,根据合同条款,这会对双方的合作关系产生什么影响?微软最近参与了OpenAI高达400亿美元的新一轮融资,投资这笔资金的目的是什么,微软从中获得了什么?关于AGI的到来,您的预测是什么?您似乎比一些同行(如DemisHassabis)更为谨慎。 Mustafa Suleyman:我们和OpenAI的合作始于2019年,微软当时向其投资10亿美元,这将是科技史上非常成功的合作案例。双方关系很好,他们发展迅速,产品受欢迎。但他们是初创公司,有自己的优先事项,我们也有我们的,合作关系会随时间演变。不过我相信,这种合作对双方将继续互利共赢。 AGI的定义很模糊,如果真的创造出价值超越人类全部经济活动总和的东西,那将从根本上改变人类社会。我认为距离AGI还有相当距离,直觉上至少还需要十年左右,但也有可能在五年内发生。在此期间,我们会专注于构建出色的产品。 微软参与OpenAI新一轮融资是因为OpenAI越成功,我们就越成功。我们会成为该公司最大股东之一,还获得了重要的技术许可,他们也使用我们的基础设施和技术。 主持人:随着像Copilot这样的对话式AI产品日益普及,传统的搜索引擎将会变成什么样子?您过去似乎认为现有搜索模式存在弊端,未来的商业模式(尤其是广告)将如何适应这种转变?您对于人工智能可能颠覆白领工作的观点一直比较鲜明,甚至认为这种情况可能已经开始,您认为未来的工作模式将如何演变?考虑到AI对各行各业(如客户服务、软件工程、新闻、播客制作)的潜在冲击,您对当今年轻人在规划职业生涯时有何建议?在一个由个性化AI助手(可能内嵌广告)作为用户与企业互动中介的新时代,品牌将扮演何种角色,其自身会经历怎样的演变? Mustafa Suleyman:我觉得现在还普遍使用传统搜索挺奇怪的,未来搜索将发生根本性变革。用户不再浏览蓝色链接,而是直接向AI提问,AI提供凝练答案,还能呈现图片、地图和视频,用户可即时反馈,AI实时重新生成结果。 广告在未来商业模式中仍会很重要,我们要让广告更有质量、更个性化、更有价值,将其巧妙地整合到辅助体验中,找到对用户有益的平衡点。 AI对工作模式的影响是未来15年的重大转变。推理模型将成为廉价且充足的资源,未来工作流将围绕管理个人专属AIAgent展开,提升效率和创造力。我更倾向用“人工能力智能”(ACI)来评估技术对工作的影响。 给年轻人的职业建议是积极体验新兴AI工具,大胆尝试,保持开放心态,了解技术的局限性和可能犯的错误,形成对技术发展的客观认识。 在AI时代,品牌的重要性会更加凸显。信任包括实用性和情感两个维度,品牌在情感维度上能传递可靠感和熟悉感,值得信赖的品牌会更受用户青睐。
2025年-4月-23日
18 阅读
0 评论
网络安全