(导语)AI 运算能力又达到了一个全新的水平。
随着AI大模型加速迭代,智能算力成为稀缺资源,而算力作为人工智能发展的基石,是训练和推理过程中的核心能量消耗。传统上通用的计算资源很难满足这些大规模模型对计算能力的需求,因此拥有强大可靠AI算力基础平台显得尤为重要。
人工智能正在迅速向更多的领域拓展,并且许多传统企业已经开始利用云计算平台来改进他们在CPU上的AI应用程序。
例如,在高度复杂并且花费较长时间精确度极高的瑕疵检测领域,引入了CPU和其他电子产品组装体,用于构建跨越“云端—边缘—端”的人工智能缺陷检测系统。
比如亚信科技将其自家OCR-AIRPA方案中的CPU硬件平台运用其中,实现从双精度浮点(FP32)到定点数、标准量化(INT8/BF16)、在可接受的精确性损失下提升吞吐量并加快推理的过程。人工成本下降至原来的四分之一到三分之一,效率提升超过五倍甚至更多。
在处理人工智能制药领域至关重要的一种算法,AlphaFold2这类大型模型上,CPU也已“入群”。自去年开始,CPU便使得AlphaFold2端到端的吞吐量提升到了原来的23.11倍;如今,这数值又再次提升至204倍。
这些CPU都被称为英特尔®️至强®️可扩展处理器
为什么这些人工智能任务的推理只能被CPU执行,而不考虑使用图形处理器 (GPU) 或 AI 加速器来进行呢?
长期以来这里一直存在不少分歧。
据许多人看来,真正有效的AI技术通常都与一个公司至关重要的核心业务紧密相连。这类应用需要较高的推理能力,并且要求能够与它们所依赖的核心数据关联起来,这也意味着在部署AI系统时对安全性有着较高要求。因此,这类应用更倾向于本地化部署。
针对这一需求,结合了传统行业的特点,更熟悉AI技术并能轻松利用CPU的企业将受益于服务器端支持混合精度运算的方式。这种解决方案不仅提高了处理速度,并且由于其成本更低,因此对于满足自身要求的能力更强。
面对更多基于云计算的传统AI应用以及超大规模语言模型能够在CPU上实现有效利用,使用CPU加速AI成为事实证明了一条新的路径。数据中心中的这一比例表明英特尔® 至强® 可扩展处理器70%的推理工作运行于此。
最新消息表明,Intel的服务器CPU实现了再一次升级,该公司在12月15日发布了最新的第五代至强可扩展处理器。英特尔强调指出,新一代处理器专门设计用于加速人工智能应用,并且其性能更为强大。

人工智能正驱动着人和科技互动方式根本性的革命,这种变革的核心便是计算能力。
英特尔CEO基辛格(Pat Gelsinger)在2023英特尔ON技术创新大会表示:“在这个人工智能技术与产业数字化转型飞速发展的时代,英特尔一直秉持高度的责任感,为开发者助力,在人工智能的运用上,让AI无所不在,更易触达、可见且透明,其行为值得信赖。”
第五代至强 为AI加速
Intel第五代至强可扩展处理器共有64个核心,搭载了达320MB的L3缓存以及128MB的L2缓存。私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596相对于以往的产品而言,第六代产品在单核性能和核心数量上均有明显提升.与上一代处理器相比,功耗下其最终性能有近21%的提高,内存带宽则提升了16%,三级缓存容量更是达到了原来的3倍左右。

重要的是,每颗第九代酷睿处理器都集成有AI加速引擎,因此它能够胜任极高的AI计算任务。相比于前一代,其训练功能提升了29%,而推理能力更是增长了42%。
英特尔® 至强® 可扩展处理器的显著优势体现在对重要计算任务的处理能力方面。
Intel面向深度学习任务为第四代至强可扩展处理器带来了一项改进:矩阵化算力支持,旨在提高这些高性能处理器在处理AI负载方面的效率。
Amx是Intel®️处理器的专门化矩阵运算单位,就像是CPU里的 Tensor Cores,自第四代至强®可扩展处理器起就成为内置在CPU中的专有AI加速组件了。
第五代至强可扩展处理器采用英特尔AMX和英特尔AVX-512指令集,能与更快的内核以及更快速度的内存配搭,并且可以大幅提升生成式AI运行速度。
借助自然语言处理(NLP)在性能上取得的飞跃,这款全新可支持更快响应的人工智能助手、聊天机器人以及预测性文本和翻译等负载的工作负载,在参数量为200亿的大规模模型中,也能实现时延不超过100毫秒的目标。
据悉,在11.11期间,京东云便通过使用基于第五代英特尔® 至强® 可扩展处理器的全新一代服务器成功应对了业务增长。与先前一代服务器相比,新一代京东云服务器的整体性能提升了23%,AI计算机视觉推理能力增加了38%,Llama v2推理功能也提高了51%,能从容应对峰值访客数同比增涨170%、智能客服咨询量突破14亿次的压力挑战。

此外,英特尔® 第五代至强可扩展处理器在效能、运行效率、安全性及质量上都做出了全面改善,并为后辈产品提供兼容性支持,且具备硬件安全性和可信服务等功能。
阿里巴巴集团旗下的云服务供应商阿里云也在活动中对外公布了其实测体验成果,基于英特尔® 至强® 可扩展处理器及英特尔® AMX、英特尔® TDX加速引擎,阿里云推出了“生成式AI模型及数据保护”的创新实践,使其第八代ECS实例在实现全面性能加性和全能力提升后,更加稳固了安全保障,同时保持实例价格不变,惠及所有客户群体。
报告显示,在数据流程的全周期上,AI推理效能提升了25%,QAT和加解密功效也提升了20%;同时,数据库整体运行能力更是提升了25%,音视频效能提升了15%。

英特尔宣称,第五代至强® 可扩展处理器能以更强劲的动力为AI、数据存储系统、网络计算及科学运算任务提供超乎寻常的强大性能,并且每瓦时能源消耗可降低10%。
对先进AI模型实现原生加速
为了让处理器能够高效率地执行人工智能(AI)工作负载,英特尔将AI性能提升至“直接可用”的水平。
现在Intel AMX能够加速深度学习推理及训练,且支持流行的框架TensorFlow及PyTorch。在深度私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596学习开发者常用的框架内,Intel oneAPI深度神经网络库提供指令集层面的支持,开发者能够在不同硬件架构和供应商之间自由迁移代码,并利用芯片内置AI加速能力,大大提升开发效率。
当确保AI加速直接可用后,英特尔借助高性能开源深度学习框架OpenVINO™ 工具套件,帮助开发者实现了“一次开发、多平台部署”的目标。该工具集可以帮助开发者将训练好的模型从热门框架中转换和优化,并在多种英特尔硬件设备上快速实现,从而最大限度地提高已有的资源利用率。
OpenVINO™ 工具套件最新版本也增添了对大型语言模型(LLM)性能的增强,这使得它能够处理包含聊天机器人为用户服务、智能助手中自动执行任务以及支持代码生成等多种人工智能工作负载。

OpenVINO™ 工具套件2
通过一系列的技术改进,英特尔使开发人员可在短时间内调整优化深度学习模型,或是完成小型深度学习模型的训练工作,且无需显著增加硬件或系统的复杂性,就可达到与独立AI加速器相媲美的性能表现。
例如,利用先进的预训练大型语言模型,在这些模型上进行快速部署将变得可能。
用户可以从热门机器学习代码库Hugging Face中获取预训练模型LLaMA2,然后利用英特尔 PyTorch 和英特尔 Neural Compression等工具将其转换为半精度浮点数BF16或整数值INT8,以降低延迟后在PyTorch中进行部署。
Intel表示,为了紧紧跟上AI领 域的潮流,数百名软件开发人员正努力加强常见的模型加速功能,以便用户能在使用新软件更新的同时享受到最先进的AI模型支持。
已验证,第五代至强可扩展处理器的强悍实力目前已被部分厂商采用,在其提供的弹性计算实例中得到了体现。
目前,火山引擎依托自身独有的潮汐资源池能力,构建百万核弹性资源池,并以近似包月的花费提供按需使用体验,显著降低了上云成本。针对英特尔® 至强® 可扩展处理器第三代,火山引擎实现了整机算力提升39%及应用性能最高提升43%。

这只是个开端,我们预计不久将会有更多科技公司能从中获益于至强® 5系列处理器的速度和效能提升。
“新一代至强”已经出现
在未来的日子里,人工智能的产生和使用将随着需求而增长,我们能够期待到更多智能化的应用可以改善人们的生活方式。基于强大的计算技术基础,人类可以期待万物都能感知、连接以及智能化的时代将会飞速发展起来。
面对这样的势头,Intel正在全力以赴推进下一周期的酷睿处理器的研发,这将使人工智能处理更加专业化。
在最近公布的数据中心路线图中,Intel新一代至强处理器针对不同任务、应用场景,采用不同的处理核,其中高性能计算和AI任务对应的型号配备侧重性能输出的核P-Core,而面向高密度与横向扩展负载的应用场景则配备有更高能效的E-Core核,两种不同的核心架构并存的设计既满足用户对极致性能追求的同时也兼顾到绿色环保的需求。
未来,英特尔将以何种方式来推进晶体管与芯片效能的增长,在人工智能计算能力上又能有何提升?
期待着看清楚结果。
顶: 5286踩: 81868




评论专区