2016年成立的硅谷芯片公司Tachyum近日发布了一颗神奇的处理器,拥有超多核心、超高频率,功耗却非常低。
这颗处理器名为“Prodigy T16128”,号称全球第一颗“通用处理器”(universal processor),在单一硅片内集成了通用处理器、HPC高性能计算、AI人工智能、DML深度机器学习、可解释人工智能(Explainable AI)、生物人工智能(Bio AI)等不同模块,可简化编程模型和环境。
它拥有多达128个核心,64位,乱序执行,每时钟周期4个指令,每个核心有两个1024位矢量单元、一个4096位矩阵单元,支持虚拟化和高级RAS。
具体架构没披露,不知道是ARM、MIPS还是自研,但强调除了原生指令集,也可以跑x86、ARM、RISC-V,简直全能。
更惊人的是频率,可以轻松超过5GHz,最高达到5.7GHz。
官方宣称HPC算力90TFlops(每秒90万亿次),AI训练和推理算力高达12PFlops(每秒1.2亿亿次),相当于NVIDIA A100的2.4倍,并支持各种数据类型如FP64、FP32、TF32、BF16、Int8、FP8、TAI。
缓存具备64KB一级数据、64KB一级指令、128MB二三级,都支持ECC。
内存支持16通道的DDR5,最高频率7200MHz,单路最大容量8TB。
扩展链接支持64条PCIe 5.0,还有两个400G以太网接口。
制造工艺是5nm(估计台积电),64×84mm FCLGA封装,不算很庞大。
它还支持双路、四路并行,四路的话就是512核心、32TB DDR5内存、256条PCIe 5.0。
官方宣称,该处理器性能优于Intel至强(没有具体对比型号),但功耗仅有十分之一,单位性能售价也只有三分之一。
如果不需要128核心,同时也会有64核心的T864、32核心的T832不同版本,其他规格也有所简化。
Tachyum Prodigy T系列处理器预计明年投产,等着看跑分吧。
再看国产CPU的好消息。
龙芯中科宣布,基于龙芯LoongArch自研指令集架构的SylixOS V2.3.0嵌入式操作系统正式发布,这也是首个适配LoongArch架构的大型实时操作系统。
SylixOS经过多年的持续开发与改进,现已被广泛应用于电力电网、轨道交通、机器人、新能源等国家重要领域,是各个领域智能装备的基础核心软件,与LoongArch架构适配成功后将有效提升传统基础设施自主可控水平,为国产嵌入式领域发展保驾护航。
目前,SylixOS V2.3.0已全面支持基于LoongArch架构的龙芯3A、3B、3C、2K全系列处理器,同时已加入LoongArch体系结构代码,RealEvo-IDE 5.0也已加入LoongArch编译器。
SylixOS LoongArch体系结构代码有如下功能特性:
1、支持LoongArch32和LoongArch64,支持多核SMP和AMP;
2、根据LoongArch ABI(应用程序二进制接口)规则优化任务寄存器上下文保存,使得任务切换、中断响应更为迅速;
3、全面接管CPU异常并进行处理,用户无须关心如何处理CPU异常;
4、支持单精度和双精度的FPU(硬浮点协处理器);
5、支持MMU和CACHE,优化的TLB MISS重填处理,支持4K、16K、64K 页面大小;
6、实现非对齐内存访问仿真处理以支持非对齐内存访问;
7、支持内核模块、应用程序、共享库动态加载功能;
8、支持应用程序调试和调用栈回溯;
9、支持OpenMP并行计算、GCOV代码覆盖率分析;
10、支持ECS实时容器;
2020年,龙芯中科基于二十年的 CPU 研制和生态建设积累推出了龙芯自主指令系统架构LoongArch,其具有完全自主、技术先进、兼容生态三方面特点。
目前,龙芯中科业务已全部转向LoongArch架构,基于LA464处理器核,相继推出面向个人计算机、服务器等信息化领域的通用处理器龙芯3A5000/3B5000,面向服务器领域的16核通用处理器龙芯3C5000L;基于LA264处理器核,推出面向工控互联网应用、打印终端、BMC等应用场景的龙芯2K0500,以及面向多行业领域的龙芯2K1000LA。