See Also Artificial_Intelligence

TensorRT

现在云端 AI 芯片发展遇到的最大挑战在于,在提供高性能计算的同时,让芯片保持处理新兴 AI 模型和算法的灵活性,这些任务需要一个通用的可编程平台和专门的指令来完成。

英伟达的 TensorRT 是一个 AI 算法模型的部署方案,与英特尔的 nGraph 类似,该方案是一个能将用不同框架打造的 AI 模型(比如 TensorFlow、Caffe、PaddlePaddle 等)更简单地部署到不同平台上的编译器。华为也号称有类似的接近方案。

1. NVIDIA TensorRT

NVIDIA TensorRT

TensorRT 是一款 AI 推理软件,可以大幅提升从云端到终端设备(包括无人驾驶汽车和机器人)的推理性能并降低成本。TensorRT 主要用于在生产环境中部署深度学习程序,它能够快速优化、验证并部署经过训练的神经网络,从而在超大型数据中心、嵌入式 GPU 或车用 GPU 平台上开展推理工作。借助它,开发者只需短短一天就能完成神经网络的训练,打造一个比其训练框架快 3 至 5 倍的可部署推理解决方案。

TensorRT 与英伟达 GPU 的结合能够基于所有的框架,为诸如图像和语音识别、自然语言处理、视觉搜索和个性化建议等人工智能服务提供超快速且高效的推理。

nvidia-ecosystem.png

1.1. Deep Learning Frameworks

https://developer.nvidia.com/deep-learning-software

2. NVIDIA TensorRT Inference Server

https://docs.nvidia.com/deeplearning/sdk/tensorrt-inference-server-guide/docs/

TensorRT Inference Server 是针对于互联网企业提供的工具,支持一个或者多个GPU的调用,支持所有的流行框架训练出来的模型,也能够动态处理。

这就能帮助大家建立一个流程,特别是以核心算法为中心的这些公司,不用再因为使用率、利用率等等事情费神。

除此之外,把模型仓库和引擎分开,整个项目管理起来更方便。

Yolov3 with tensorrt-inference-server

3. Reference