1.Intel
产品规格
Intel典型案例分析
1)VPU(Vision Processing Unit)
Movidius Myriad 2(MA2450)芯片
Q2'16发布,2016年Intel芯片收购计算机视觉公司Movidius, Movidius Myriad MA2485 是Intel第一个用于深度神经网络推理的视觉处理单元芯片。
性能
处理器主频:600 MHz
内存:1 Gb LP-DDR2 DRAM with 32-bit interface, clocked at up to 533
算力:1 TOPS
操作温度范围:-40°C to 105°C
Movidius Myraid X(MA2485)芯片
Q1'20发布
性能
处理器主频:700 MHz
算力:4 TOPS
操作温度范围:-40°C to 105°C
行业组合
海思Hi3516/9 + Myraid X/Myriad 2,example
树莓派 + Myraid X/Myriad 2
大疆晓Spark无人机:联芯LC1860 + Myriad 2
intel工控机: Aaeon AI Core XM 2280 M.2 + Myraid X/Myriad 2
Azure Percept DK:i.MX8M + Myraid X
Neural Compute Stick 2 计算棒
硬件
处理器:Movidius Myriad X 视觉处理单元 (VPU)
支持的框架:TensorFlow、Caffe、Apache MXNet、开放神经网络交换 (ONNX)、PyTorch* 和 PaddlePaddle*,通过 ONNX 转换
软件
ntel Distribution of OpenVINO toolkit
支持的操作系统:
Ubuntu 16.04.3 LTS(64 位)
CentOS* 7.4(64 位)
Windows 10(64 位)
macOS 10.14.4(或更高版本)
Raspbian(仅限目标)
VEGA-340 Edge AI加速卡
2020年研华发布,板载4或8颗Intel®Movidius™Myriad™X VPU,PCIe x4接口,4x / 8x VPU,16 / 32 TOPS算力。
VEGA-330 Edge AI加速卡
研华发布,Intel Movidius Myriad X,AI加速模块,miniPCIe接口,1x / 2x VPU,4 / 8 TOPS算力。
VEGA-320 Edge AI加速卡
研华发布,Intel Movidius Myriad X,AI加速模块,M.2接口,1 x VPU,4 TOPS算力。
2)GPU(Graphics Processing Units)
Intel® Iris® Xe MAX
Intel® Server GPU
3)CPU
Intel® Xeon® Processors (至强)
适用于要求苛刻的应用程序的性能,具有大内存空间和 I/O 容量。
Intel® Core™ Processors(酷睿)
提供 CPU/GPU 性能、功率和价格的平衡(LGA 和 BGA 选项)。
Intel® Pentium® Processors(奔腾)
适用于 PC 客户端和嵌入式用例的物联网单一平台解决方案。
Intel® Celeron® Processors(赛扬)
适用于一般嵌入式应用程序或 PC 客户端用例的功能。包括英特尔® 超高清显卡。
Intel Atom® Processors(凌动)
低功耗计算和图形性能非常适合小尺寸设计和应用。
2.Nvidia
1)Embedded Module
image
Jetson Nano
一款小型 AI 计算机,具有运行现代 AI 工作负载、并行多个神经网络和同时处理来自多个高分辨率传感器的数据所需的性能和能效。这使其成为向嵌入式产品添加高级 AI 的完美入门级选项。
Jetson TX2 Series
NVIDIA Pascal™ GPU 架构拥有 256 个 NVIDIA® CUDA® 内核和高达 8 GB 的内存,可实现快速计算和推理。
提供高达 Jetson Nano 的 2.5 倍性能。Jetson TX2 NX 提供与 Jetson Nano 的引脚和外形兼容,而 Jetson TX2、TX2 4GB 和 TX2i 都共享原始 Jetson TX2 外形尺寸。坚固耐用的 Jetson TX2i 非常适合工业机器人和医疗设备等环境。
Jetson Xavier NX
提供算力高达 21 TOPS,使其成为嵌入式和边缘系统中高性能计算和 AI 的理想选择。可以获得 384 个 NVIDIA CUDA ®内核、48 个 Tensor 内核、6 个 Carmel ARM CPU 和两个 NVIDIA 深度学习加速器 (NVDLA) 引擎的性能。结合超过 59.7GB/s 的内存带宽、视频编码和解码,这些功能使 Jetson Xavier NX 成为并行运行多个现代神经网络并同时处理来自多个传感器的高分辨率数据的首选平台。
非常适合高性能人工智能系统,如商用机器人、医疗器械、智能相机、高分辨率传感器、自动光学检测、智能工厂和其他 AIoT 嵌入式系统。
Jetson AGX Xavier Series
具有处理对下一代机器人至关重要的视觉里程计、传感器融合、定位和映射、障碍物检测和路径规划算法的性能。在紧凑的外形中获得高达 32 TOPS 的峰值计算和 750 Gbps 的高速 I/O 的 GPU 工作站级性能。
2)GPU
RTX Series
名称
RTX 30 系列
RTX 20 系列
GTX 10 系列
GTX 9 系列
架构名称
Ampere安培
Turing图灵
Pascal帕斯卡
Maxwell麦克斯韦
流式多处理器
2x FP32
1x FP32
1x FP32
1x FP32
光线追踪核心
第 2 代
第一代
——
——
张量核心 (AI)
第 3 代
第 2 代
——
——
记忆
高达 24 GB GDDR6X
高达 11 GB GDDR6
高达 11 GB GDDR5X
高达 6 GB GDDR5
英伟达 DLSS
是的
是的
——
——
GeForce RTX 30 Series
名称
G EFORCE RTX 3090**
G EFORCE RTX 3080 Ti
G EFORCE RTX 3080
G EFORCE RTX 3070 Ti
G EFORCE RTX 3070
G EFORCE RTX 3060 Ti
G EFORCE RTX 3060
NVIDIA CUDA 核心
10496
10240
8704
6144
5888
4864
3584
升压时钟 (GHz)
1.70
1.67
1.71
1.77
1.73
1.67
1.78
内存大小
24GB
12GB
10 GB
8 GB
8 GB
8 GB
12GB
内存类型
GDDR6X
GDDR6X
GDDR6X
GDDR6X
GDDR6
GDDR6
GDDR6
TITAN RTX
NVIDIA ® TITAN RTX ™专为研究人员、开发人员和创作者而设计。它由 Turing ™架构提供支持,为PC 带来 130 Tensor TFLOP 的性能、576 个张量内核和 24 GB 的超快 GDDR6 内存。
3.寒武纪
1)AI芯片
思元290
寒武纪首颗AI训练芯片,采用创新性的MLUv02扩展架构,使用台积电7nm先进制程工艺制造,在一颗芯片上集成了高达460亿的晶体管。
性能
算力:512 TOPS (INT8)
视频解码:128 Streams 全高清视频
图片解码:3200 Frames/s 全高清图片
思元270
面向高能效比云端AI推理,采用寒武纪MLUv02架构,可支持视觉、语音、自然语言处理以及传统机器学习等多样化的人工智能应用,更为视觉应用集成了充裕的视频和图像编解码硬件单元。
性能
算力:128 TOPS (INT8)
思元220
MLU220是一款专门用于边缘计算应用场景的AI加速产品(边缘人工智能加速卡)。采用寒武纪MLUv02架构,产品集成4核ARM CORTEX A55,LPDDR4x内存及丰富的外围接口。
性能
算力:8 TOPS (INT8)
编解码能力: H.264 ,HEVC (H.265) ,VP8,VP9。
图片解码:JPEG, 最大图片分辨率8192 × 8192
4.华为
[图片上传失败...(image-baaac-1628837556428)]
1)AI芯片
昇腾310
昇腾310芯片采用华为自研的达芬奇架构,集成了丰富的计算单元,在各个领域得到广泛应用。随着全AI业务流程的加速,昇腾310芯片能够使智能系统的性能大幅提升,部署成本大幅降低。
性能:
算力:22 TOPS (INT8)
昇腾910
昇腾910是一款具有超高算力的AI处理器,其最大功耗为310W,采用华为自研的达芬奇架构,还集成了多个CPU、DVPP和任务调度器(Task Scheduler),因而具有自我管理能力,可以充分发挥其高算力的优势。
昇腾910集成了HCCS、PCIe 4.0和RoCE v2接口,为构建横向扩展(Scale Out)和纵向扩展(Scale Up)系统提供了灵活高效的方法。HCCS是华为自研的高速互联接口,片内RoCE可用于节点间直接互联。
性能:
算力:640 TOPS (INT8)
达芬奇架构
包括了三种基础计算资源: 矩阵计算单元(Cube Unit)、向量计算单元(Vector Unit)和标量计算单元(Scalar Unit)。这三种计算单元各司其职,形成了三条独立的执行流水线,在系统软件的统一调度下互相配合达到优化的计算效率。
image
计算单元
AI Core中的执行单元主要包括:Cube,Vector和Scalar,完成AI Core中不同类型的数据计算。
存储单元
AI Core中存在内部存储,AI Core需要把外部存储中的数据加载到内部存储中,才能完成相应的计算。AI Core的内部存储包括:L1 Buffer,L0 Buffer,Unified Buffer,GPR(General-Purpose Register:通用寄存器),SPR(Special-Purpose Register:专用寄存器)和Scalar Buffer。
为了配合AI Core中的数据传输和搬运,AI Core中还包含BIU(Bus Interface Unit),MTE1(Memory Transfer Engine,内存传输引擎),MTE2,MTE3。其中BIU为AI Core与总线交互的接口;MTE为数据搬运单元,完成不同Buffer之间的数据搬运。
控制单元
AI Core中的控制单元主要包括:系统控制模块(System Control),指令发射模块(Instr. Dispatch),矩阵运算队列(Cube Queue),向量运算队列(Vector Queue),存储转换队列(MTE Queue)等。系统控制模块负责指挥和协调AI Core的整体运行模式,配置参数和实现功耗控制等。当指令通过指令发射模块顺次发射出去后,根据指令的不同类型,将会分别被发送到矩阵运算队列、向量运算队列和存储转换队列。
2)Camera SOC
IPC
Hi3516EV200
行业专用2M/3M IP摄像机SOC
Hi3516EV300
行业专用3M/5M IP摄像机SOC
Hi3516DV200
行业专用4M IP摄像机SoC
AI-IPC
Hi3516CV500
行业专用AI 2M IP摄像机SOC
Hi3516DV300
行业专用AI 4M/5M IP摄像机SOC
Hi3516AV300
行业专用AI 5M/4K IP摄像机SOC
Hi3519AV100
行业专用AI 4K IP摄像机SOC
Hi3559AV100
行业专用AI 8K IP摄像机SOC
NVR
Hi3536DV100
专业4路1080P25 NVR SoC芯片
Hi3536CV100
专业8M/4M1080P25 NVR SoC芯片
Hi3535AV100
专业6路1080P30 智能NVR SoC芯片
DVR
Hi3520DV500
专业4路1080p AI DVR SoC芯片
Hi3521DV200
专业8路1080p AI DVR SoC芯片
Hi3531DV200
专业16路1080p AI DVR SoC芯片
5.Rockchip
1)Embedded SOC
产品列表
image
系列
消费级 0~80°C
商业级 -20~85°C
汽车级 -40~85°C
工业级 -40~85°C
RK3399系列
RK3399
RK3399K
RK3288系列
RK3288/W
RK3288K
RK3368系列
RK3368
PX5
PX30系列
PX30
PX30K
RK3358M
RK3358J
RK3308系列
RK3308/G/B/H
RK3308GK/RK3308K
RV1108系列
RV1108A/G
RV1108K1
RK1808系列
RK1808
RK1808K
RK3568
CPU:四核ARM Cortex-A55,高达2.0GHz
GPU
ARM G52 2EE
支持OpenGL ES 1.1/2.0/3.2,OpenCL 2.0,Vulkan 1.1
高性能专用 2D 处理器
编解码器
支持 4K 60fps H.265/H.264/VP9 解码器
支持 1080P 100fps H.265/H.264 编码器
支持 8M ISP with HDR
RK3399
CPU:双核 Cortex-A72 + 四核 Cortex-A53,64 位 CPU,频率高达 1.8GHz
GPU
Mali-T860 GPU、OpenGL ES1.1/2.0/3.0/3.1、OpenCL
支持AFBC(ARM 帧缓冲压缩)
编解码器
4K VP9 和 4K 10 位 H265/H264 视频解码器,最高 60fps
1080P 其他视频解码器(VC-1、MPEG-1/2/4、VP8)
用于 H.264 和 VP8 的 1080P 视频编码器
RK1808
CPU:高达 1.6GHz 的双 Cortex-A35
NPU
INT8 3 TOP / INT16 300 GOP / FP16 100 GFLOP
支持 OpenCL/VX
支持INT8、INT16
支持 TensorFlow、Caffe、ONNX、Darknet 模型
编解码器
1080p@60FPS H.264 解码器
1080p@30FPS H.264 编码器
RV1126
CPU
四核ARM Cortex-A7
RISC-V 微控制器
NPU
2.0Tops,支持INT8/INT16
2D Graphics Engine
支持旋转、x-mirror、y-mirror
支持阿尔法混合
支持按比例缩小/放大
编解码器
4K H.264/H.265 30fps 视频编码
3840 x 2160@30 fps+720p@30 fps 编码
4K H.264/H.265 30fps 视频解码器
3840 x 2160@30 编码 + 3840 x 2160@30 fps 解码
6.Silicon芯原
1)VPU(NPU)
Vivante VIP9400
性能
算力:49.16 TPOS INT8
PPU核数:32
时钟速度:1 GHz
框架支持
OpenCL、OpenVX
具有优先级设置的 PPU 和 NN 硬件加速器之间的并行处理
支持流行的视觉和深度学习框架:OpenCV、Caffe、Caffe2、TensorFlow、TensorFlowLite、ONNX、PyTorch、MXnet、Cognitive Toolkit、PaddlePaddle、Keras
VIP9400-MP4
性能
算力:196.64 TPOS INT8
PPU核数:32
时钟速度:1 GHz
框架支持
OpenCL、OpenVX
具有优先级设置的 PPU 和 NN 硬件加速器之间的并行处理
支持流行的视觉和深度学习框架:OpenCV、Caffe、Caffe2、TensorFlow、TensorFlowLite、ONNX、PyTorch、MXnet、Cognitive Toolkit、PaddlePaddle、Keras
7.联发科
1)AIOT芯片
聯發科技 AIoT 晶片組平台
i300 (MT8362)
专为音频/视频、信息亭、数字标牌和健身控制台应用而设计。
i500 (MT8385)
专为 AI/AR/VR 应用而设计
CPU:4 x Arm Cortex-A53, 4 x Arm Cortex-A73
GPU:Arm Mali-G72 MP3,800MHz
编码:H.264
解码:H.264, H.265 / HEVC, MPEG-1/2/4
ISP:16MP+16MP或25MP,30FPS
Wi-Fi:Wi-Fi 5 (a/b/g/n/ac)
BT:4.2
image
i700
具有高速边缘 AI 计算功能,可实现快速图像识别。
CPU:6xArm Cortex-A55, 2xArm Cortex-A75
GPU:IMG PowerVR GM 9446,970MHz
ISP:24MP+16MP或32MP,30FPS
APU:
内置双核 AI 专核,还加入了 AI 加速器(AI Accelerator)和 AI 人脸检测引擎(AI face detection engine)
支持联发科技 NeuroPilot SDK,可以完全兼容谷歌的 Android Neural Networks API(Android NNAPI)
支持TensorFlow、TF Lite、Caffe 和 Caffe2 等常用框架
基带:最高支持Cat.12
Wi-Fi:Wi-Fi 5 (a/b/g/n/ac)
BT:5.0
8.NXP
1)Embedded SOC
i.MX8M
CPU
4x Cortex-A53 @ 1.6GHz
Cortex-M4F @ 400MHz
编解码器
1080p60 H.264、VP8/1080p60 H.265、H.264、VP8、VP9视频
TPM
Trusted Platform Module (TPM) version 2.0