嵌入式AI 双周简报 (2017-09-05)
业界新闻
- 如何评价华为海思麒麟970处理器? | 知乎</br> 简评:五个要点:CPU、GPU:重点是降功耗;ISP、DSP、Codec、协处理器;通讯基带:比「千兆 LTE」更快;10 纳米制程,比骁龙 835 还多的 55 亿个晶体管;NPU:首款内置在手机 SoC 中的人工智能芯片。
- Deep Learning的IR“之争” | 唐杉 StarryHeavensAbove</br> 简评:Google Tensorflow XLA (Accelerated Linear Algebra)就使用了LLVM IR(Intermediate Representation)。而它的“竞争对手”,刚刚发布的TVM/NNVM,则是“Tensor IR Stack for Deep Learning Systems”。IR是什么?为什么重要?我们一起来看看。
- 微软揭晓 Brainwave 人工智能系统,可实现超低延迟 | DeepTech深科技</br> 简评:今日,微软在 HotChips 大会上正式揭晓了 Brainwave 系统,该产品是微软加入人工智能硬件竞赛的首发产品。微软表示这款高速度、低延迟的 AI 专用芯片系统可以为机器学习开发者们提供超越 GPU 的性能。
- 一文看懂人工智能芯片的产业生态及竞争格局 | 雷锋网</br> 简评:本文从人工智能的芯片分类开始,较为详细的讲解了以Training层芯片生态到Inference on Cloud层芯片生态,再到Inference on Device层芯片生态下不同公司的大体技术选型,并代表性地提到了不少芯片公司。
- AR资深研究员Matt Miesnieks解读ARCore如何好过ARKit? | Matt Miesnieks ARC增强现实</br> 简评:如果你喜欢Android,你有一个Samsung S8或Pixel,那么别犹豫,直接去开发吧。里面的ARCore的视频Demo非常有趣,值得一看!
- Myriad X Moves Computer Vision and Deep Learning Down to the Bare-Metal video</br> 简评:Intel发布Movidius Myriad X VPU ,结合神经网络引擎加速影像处理
- Wave公司发布数据流处理架构DPU: 不含CPU,超越GPU 1000x | Nicole Hemsoth 新智元</br> 简评:Wave Computing 在日前举行的高性能芯片峰会Hot Chips上介绍了他们的数据流处理器产品DPU(Dataflow Processing Unit),加速神经网络训练,号称速度是GPU的1000x,训练GoogleNet 42万图像/秒。同时,DPU使用了不含CPU的架构,他们认为,数据流架构是有效训练高性能神经网络的唯一方式。
论文
- [1708.08917] CirCNN: Accelerating and Compressing Deep Neural Networks Using Block-CirculantWeight Matrices</br> 简评:为了解决网络剪枝压缩带来的问题(不规则的网络结构;增加重训难度;无法保证压缩率和准确率),文中提出一种基于块循环的模型CirCNN。该模型利用快速傅里叶变换实现矩阵乘,将计算复杂度从O(n^2)减少到O(nlogn),模型参数规模从O(n^2)减少到O(n)。作者在FPGA、ASIC等嵌入式处理器上进行测试,结果表明在忽略不计的准确率损失下,CirCNN架构可以达到6~102倍的能效提升。
- [1708.05963] Neural Networks Compression for Language Modeling</br> 简评:RNN、LSTM等字符集语言模型往往都有高维的空间,使用剪枝、量化、低秩分解等手段对模型进一步压缩,达到可以满足移动端inference的性能需求。
- [1707.06168] Channel Pruning for Accelerating Very Deep Neural Networks</br> 简评:本文提出一种通道级别可迭代剪枝算法加速超深网络,该方法结合基于通道选择的LASSO回归等技术,可应用到多层和多分支的网络。该方法兼容不同网络架构,在VGG-16网络上,实现了在仅有0.3%准确率的损失下达到5倍加速的结果,ResNet,Xception在仅有1.0%左右的准确率损失下也能达到2倍加速。代码公开!
开源项目
- YSQfastfd: A fast binary library for face detection and face landmark detection in images. No float point operations, especially suit for low cost ARM CPUs, The highest accuracy on FDDB among non deep learning methods</br> 简评:人脸检测标定库。没有浮点操作,主打低功耗!
- pytorch2caffe: Convert PyTorch model to Caffemodel</br> 简评:PyTorch写的代码要移植到Caffe生产环境?试试这个模型转换工具吧!
- ofxARCore: Experimental addon for openFrameworks to use ARCore on Android devices</br> 简评:Android平台基于Google ARCore的AR框架示例。
- deep-learning-HAR: Convolutional and LSTM networks to classify human activity</br> 简评:基于卷积和递归网络实现人类活动分类。
- pytorch-dpn-pretrained: Dual Path Networks (DPN) supporting pretrained weights converted from original MXNet implementation</br> 简评:用PyTorch实现双通道网络。
- Core-ML-Car-Recognition: A Car Recognition Framework for CoreML</br> 简评:使用CoreML识别汽车。
- Efficient-Deep-Learning: Related Paper of Efficient Deep Neural Networks</br> 简评:高性能深度学习文章集合。
博文
- Compressing deep neural nets | machinethink</br> 简评:本文将会结合MobileNet和网络剪枝等方法,将原本有400万参数的卷积网络压缩到300万参数。
- Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis | Apple</br> 简评:Siri是一个使用语音合成的私人助理。iOS11中,我们使用深度学习重塑Siri的声音,其产生的声音更加自然、流畅,也让Siri的个性表现出来。本文介绍了Siri声音背后的深度学习技术。
- CNN 模型压缩与加速算法综述 | 腾讯云</br> 简评:卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战,CNN模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。本文介绍了SqueezeNet到Deep Compression,再到XNOR-Net再到Distilling、MobileNet和ShuffleNet,算是一篇移动端模型加速的必看综述。
- Semantic Segmentation using Fully Convolutional Networks over the years | Meet Pragnesh Shah</br> 简评:全卷积语义分割综述。
- Object detection: an overview in the age of Deep Learning | Tryolabs Blog</br> 简评:物体检测的这些年,从R-CNN、fast R-CNN再到Faster RCNN,SSD和R-FCN。
Editor: 张先轶、袁帅
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。