嵌入式AI 双周简报 (2017-10-17)
业界新闻
- 2017全国高性能学术年会 | 中国计算机学会
简评:HPC CHINA 2017 开幕在即,欢迎来澎峰科技的展台来玩,也欢迎来参加10月21日(第三天)上午的深度学习分论坛! - Intel Gears Up For FPGA Push | Timothy Prickett Morgan
简评:看英特尔如何发力 FPGA。从应用最广泛的 Xeon 系列到支持大多数数据中心的 Knights 系列以及转为深度学习推理加速的STRATIX FPGA系列,再到支持训练和推断的 Crest 家族系列。 - 华为Mate10 AI技术全盘点:专访华为软件工程部副总裁张宝峰 | 新智元
简评:余承东在慕尼黑发布了携带华为首款人工智能手机芯片——麒麟970的 HUAWEI Mate 10 系列。余承东认为:比 Mate 10 系列比 iPhone X 的人脸解锁更好,得益于 HiAI 移动计算架构,其 NPU(Neural Network Processing Unit)专用硬件处理单元赋能的摄像头能够智能识别多达13种场景和物体,从而根据对象的特点和属性自动调节参数设置,用更聪明的算法进行拍摄。此外,在电量、屏占比、厚度等方面全面对标 iPhone X。 - 共筑开放AI生态:ONNX模型标准得到华为、英特尔等更多厂商支持
简评:前不久继Facebook、微软联合推出 ONNX 标准,号称要解决开发框架碎片化后,更多厂商愿意支持。早前,Microsoft Cognitive Toolkit、PyTorch 和 Caffe2 均已宣布支持 ONNX。而就在今天,AMD、ARM、华为、IBM、英特尔、高通同时宣布支持 ONNX。 - NNVM Compiler: Open Compiler for AI Frameworks | tvmlang [blog]<br > 简评:陈天奇:我们今天发布了基于TVM工具链的深度学习编译器 NNVM compiler。支持将包括mxnet,pytorch,caffe2, coreml等在内的深度学习模型编译部署到硬件上并提供多级别联合优化。速度更快,部署更加轻量级。 支持包括树莓派,服务器和各种移动式设备和 cuda, opencl, metal, javascript以及其它各种后端。欢迎对于深度学习,编译原理,高性能计算,硬件加速有兴趣的同学一起加入dmlc推动领导开源项目社区。
论文
- Efficient Methods and Hardware for Deep Learning | Stanford Digital Repository [paper]
简评:Song Han的博士论文,不久前他获得斯坦福大学博士学位,一直致力于energy-efficient deep learning、机器学习和计算机架构的交叉领域,他曾提出的 Deep Compression 在不损失预测精度的前提下大幅压缩模型。同时参与设计了 EIE 项目(Efficient Inference Engine:a hardware architecture that can perform inference directly on the compressed sparse model, which saves memory bandwidth and results in significant speedup and energy saving)。 - [1710.02224] Dilated Recurrent Neural Networks
简评:众所周知,递归神经网络(RNNs)长序列的训练是一个艰巨任务。三个主要挑战:1)提取复杂的依赖关系;2)梯度消失和爆炸;3)高效并行化。作者介绍一种简单而有效的RNN连接结构:Dilated RNN,同时解决这些挑战。该结构特点是多分辨率dilated递归skip connection,并且可以与不同的RNN单元灵活组合。此外,dilated RNN显著减少了参数数量并提高训练效率,(即使有传统RNN单元的情况下)也能达到state-of-the-art的performance。最后作者详尽地论述提出的Dilated RNN比其他RNN架构的优势。 - [1710.02254] Lattice Recurrent Unit: Improving Convergence and Statistical Efficiency for Sequence Modeling [code]
简评:RNN在资源不足的情况下泛化性能弱。作者引入了称为晶格循环单元(LRU)的结构,以解决有限资源学习深层多层次复用模型的问题。作者与Grid-LSTM和Recurrent Highway网络相比,在四个公开数据集上的研究结果表明:LRU计算收敛率和统计效率值,同时语言模型的表达更准确。 - [1710.01992] Fast and Accurate Image Super-Resolution with Deep Laplacian Pyramid Networks
简评:卷积神经网络展示了对单一图像超分辨率高质量的重建效果。然而,现有方法往往需要大量的网络参数和需要大量计算负载以生成高精度超分辨率结果。作者提出了拉普拉斯算子金字塔超分辨率网络:在多个水平上网络逐步重建高分辨率图像。与现有方法相比,仅需低计算负载。此外作者利用在金字塔内的递归层以及共享参数,大大减少了参数数量。 - [1710.01878] To prune, or not to prune: exploring the efficacy of pruning for model compression
简评:作者探索模型剪枝的必要性,对同一个大模型分别剪枝成大而稀疏和小而稠密的模型,经测试(CNN,Stacked LSTM,C2C LSTM)发现稀疏大模型始终优于稠密模型,实现了在最小精度的损失下,减少了10倍的参数。
开源项目
- wichtounet/dll: Deep Learning Library (DLL) for C++ (ANNs, CNNs, RBMs, DBNs…) [blog]
简评:C++高性能深度学习库,类似keras,也是作者毕业论文的产物之后维护至今。 - wkentaro/labelme: Image Annotation Tool with Python
简评:Python图像可视化标记工具,支持分类图像检测和分割数据的标注。 - r4ghu/iOS-CoreML-Yolo: Almost Real-time Object Detection using Apple’s CoreML and YOLO v1 [blog]
简评:iOS平台CoreML/YOLO(v1)近实时目标检测。 - foolwood/benchmark_results: visual tracker benchmark results
简评:各种跟踪算法的benchmark。 - mikesart/gpuvis: GPU Trace Visualizer
简评:Gpuvis Linux GPU分析器是一个类似于在Windows系统上的GPUView。它旨在与trace-cmd捕获和帮助追踪Linux gpu和应用程序的性能问题。 - Microsoft/EdgeML: This repository provides code for machine learning algorithms for edge devices developed at Microsoft Research India.
简评:这个库包含两个算法 Bonsai 和 ProtoNN。这两个算法在训练传统监督学习问题时所需内存数量低于其他现代ML算法。训练模型可以装配到移动设备如物联网设备/传感器,并可完全离线地用于快速且准确的预测。 - peisuke/DeepLearningSpeedComparison: This repository is test code for comparison of several deep learning frameworks. [blog]
简评:CPU端热门深度学习框架的速度比较。 - PyTorch implementation of the Quasi-Recurrent Neural Network - up to 16 times faster than NVIDIA’s cuDNN LSTM’ | Salesforce
简评:@schelotto: 简单说一下,LSTM训练速度很慢的原因是backprop时三个gate以及memory cell都依赖于上一个时间点的预测,因此是无法并行的。quasi RNN取消了gate的时间依赖,并采用Highway-net的残差链接有选择性的更新hidden layer,从而大大加快了训练速度。
博文
- Small Deep Neural Networks - Their Advantages, and Their Design | Forrest Iandola, Kurt Keutzer
简评:视频来自youtube,由来自微软的的印度小哥讲解。 - 小鱼在家首席音频科学家邓滨:人工智能硬件设备中的语音前处理技术研究 | 将门创投
简评:小鱼在家首席音频科学家邓滨分享“人工智能硬件设备中的语音前处理技术研究”的内容回顾,主要探讨了语音前处理技术在人工智能硬件设备上所能发挥的作用,以及其不可替代的重要意义。 - Mixed-Precision Training of Deep Neural Networks | Parallel Forall [paper]
简评:这篇博客来自NVIDIA,讨论了混合精度对训练的影响,实验表明带尺度缩放的混合精度甚至能提升准确率(相比仅使用一种精度而言,如FP32)。 - Creating an IOS app with Core ML from scratch! | Gerardo Lopez Falcón
简评:从头开始搭建基于Core ML的IOS app。 - Investing in the future of retail with Standard Cognition
简评:Standard Cognition正预打造未来的零售体验,和Amazon Go的设想一样:购买完商品离开商店会自动支付,该技术使用计算机视觉、深度学习以及传感器融合等技术,彻底跳过传统收银结帐的过程。 - Training AI for Self-Driving Vehicles: the Challenge of Scale | Parallel Forall
简评:自驾车辆AI训练:规模化挑战。 - 自动驾驶的未来全靠它!揭秘固态激光雷达创业江湖 | 智东西
简评:主流观点认为,激光雷达已经成为自动驾驶不可或缺的关键传感器。市场上,Velodyne 64线的激光雷达“一达难求”,加价到10万美金也有公司照收不误。然而,这个旋转的大花盆正在迎来有力的竞争们——那些想让激光雷达不用转动的公司,正在悄然掀起一场固态激光雷达的暗战。 - Behind the Magic: How we built the ARKit Sudoku Solver | Brad Dwyer
简评:ARKit数独解谜App的魔法背后是如何开发的。 - Phone-Powered AI Spots Sick Plants With Remarkable Accuracy | WIRED
简评:智能手机AI应用帮农户检测植物病害。 - Real-time Performance RNN in the Browser | Curtis Hawthorne
[demo]
简评:浏览器里的实时Performance RNN钢琴协奏Demo。
Editor: 张先轶、袁帅
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。