嵌入式AI 双周简报 (2017-10-31)
业界新闻
- Bringing AMDGPUs to TVM Stack and NNVM Compiler with ROCm | TVMLANG
简评:TVM stack最新推出AMDGPU后端。可以直接通过nnvm compiler把各种深度学习框架模型编译到amd gcn的汇编代码进行最底层优化。由社区同学美国AMD的Aditya和日本的Masa贡献。 - 这么多做 AI 芯片的,NovuMind 吴韧做的有何不同? | 雷锋网
简评:NovuMind 创始人、前百度AI工程师吴韧近日表示将在年底推出第一款人工智能芯片产品NovuTensor,根据测试可以在5W的功率基础上进行每秒15万亿次浮点计算。 - 专访余凯:地平线完成Intel Capital领投的近亿美金A+轮融资,未来如何将嵌入式AI解决方案做到第一? | 雷锋网
简评:做芯片有三种商业模式,一是卖IP,如ARM;二是直接卖芯片,如英特尔;三则是提供芯片加算法的解决方案,如Mobileye。地平线选择的是第三种。 - Graphcore提出IPU基准:全面测试硬件运行机器学习应用能力 | 机器之心 [英文原文]
简评:智能芯片创业公司 Graphcore 推出的 IPU(智能处理单元)究竟实力如何?近日,该公司的开发人员使用 Poplar 应用库中的各种机器学习应用对 IPU、GPU 和 CPU 进行了性能对比。结果表明这种芯片的确可以像宣传的那样「提升 AI 应用 10 倍到 100 倍处理速度」。 - 英特尔Nervana发布强化学习库Coach:支持多种价值与策略优化算法 | 机器之心 [docs]
简评:开发 Coach 的动机是,通过掌控多核 CPU 处理的能力来训练、评估强化学习智能体,从而获得顶尖的结果。也是为了通过模块化设计和对 API 的简洁设定,提供简化新算法开发的沙盒。 - IBM低调发布革命性计算架构,竟可在内存上运行AI应用,“人工大脑三部曲”已进入第二阶段? | DeepTech
简评:10 月 24 日,IBM 研究人员实现了在内存计算技术上的一次重大突破。他们宣布发明了一种可以运行在 100 万个相变内存(Phase Change Memory,PCM 设备)上的无监督式机器学习算法,并且成功地在一系列未知数据流中发现了时间相关性。 - 2017安博会首日观感:以 AI 为界,安防三分天下 | 雷锋网
简评:传统思维模式下的安防软件是作为硬件产品附属品出现的,但从行业发展来看,硬件是安防行业的基础,而软件则决定着安防行业未来发展趋势。在这条发展之路上,AI可以说是安防的绝佳着陆场。
论文
- [1710.09829] Dynamic Routing Between Capsules [知乎] [雷锋网] [译文]
简评:本论文所研究的胶囊意为一组神经元,其激活向量反映了某类特定实体(可能是整体也可能是部分)的表征。本论文使用激活向量的模长来描述实体存在的概率,用激活向量的方向表征对应实例的参数。某一层级的活跃胶囊通过矩阵变换做出预测,预测结果会用来给更高层级的胶囊提供实例参数。当多个预测值达成一致时,一个高层级的胶囊就会被激活。论文中展示了差异化训练的多层胶囊系统可以在MNIST上达到当前最高水平的表现,在识别高度重叠的数字上也要比卷积网络要好得多。网络的实现中运用迭代的一致性路由机制:当低层级的胶囊的预测向量和高层级胶囊的激活向量有较大的标量积时,这个低层级胶囊就会倾向于向高层级胶囊输出。 - [1703.09039v2] Efficient Processing of Deep Neural Networks: A Tutorial and Survey
简评:本文既是一篇带有Tutoroal性质的概述。主要介绍了在设计DNN的架构时主要考虑的因素、评估不同的硬件实现的性能、硬件架构和平台之间的考虑以及最近的发展趋势。 - [1710.09282] A Survey of Model Compression and Acceleration for Deep Neural Networks [译文]
简评:本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,本论文对每一类方法的性能、相关应用、优势和缺陷等进行独到的分析。机器之心简要介绍了该论文,更详细的内容请查看原论文。
开源项目
- PavlosMelissinos/enet-keras: A keras implementation of ENet (work in progress) [paper]
简评:This is an implementation of ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation, ported from ENet-training (lua-torch) to keras. - senlinuc/caffe_ocr: 主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构
简评:caffe_ocr是一个对现有主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC的识别架构,并在数据准备、网络设计、调参等方面进行了诸多的实验。代码包含了对lstm、warp-ctc、multi-label等的适配和修改,还有基于inception、restnet、densenet的网络结构。代码是针对windows平台的,linux平台下只需要合并相关的修改到caffe代码中即可。 - plaidml/plaidml: PlaidML is a framework for making deep learning work everywhere. [ref]
简评:PlaidML:致力于跨平台开发部署的开源高性能深度学习框架,Mac上也可实现加速深度学习! - TuSimple/mx-maskrcnn: A MXNet implementation of Mask R-CNN [paper]
简评:使用MXNet框架实现的Mask RCNN,这个Mask RCNN的实现过程的大部分参考了mx-rcnn这个项目。 This repository is based largely on the mx-rcnn implementation of Faster RCNN available -bruinxiong/xception.mxnet: A MXNet implementation of Xception [paper]
简评:Xception的MXNet实现。 - bruinxiong/SENet.mxnet: A MXNet implementation of Squeeze-and-Excitation Networks (SE-ResNext, SE-Resnet) [paper]
简评:使用MXNet实现的SE-ResNeXt、SE-ResNet网络。Jie Hu等人用该网络结构赢得了2017年的ImageNet图像分类比赛。 - kuangliu/pytorch-fpn: Feature Pyramid Networks in PyTorch [paper]
简评:使用PyTorch实现的特征金字塔网络。 - mind/wheels: Performance-optimized wheels for TensorFlow (SSE, AVX, FMA, XLA, MPI)
简评:为TensorFlow专门优化的版本,其中主要优化手段包括:SSE、AVX、FMA、XLA和MPI等。
博文
- Air Measure™ | The AR Measuring ToolKit [video]
简评:AR的隔空测距技术可以有很多应用,这里的一个小视频就是在停车倒库移库上的应用。 - All of Apple’s Face-Tracking Tech Behind the iPhone X’s Animoji | WIRED [英文原文]
简评:苹果 Animoji 表情背后:面部识别技术如何一步步进化的? - 为什么SSD(Single Shot MultiBox Detector)对小目标的检测效果不好 | 知乎
简评:贴一个回答的部分:SSD是一种基于全卷积的网络的检测器,用不同层检测不同大小的物体。这中间有个矛盾,前面的featmap大,但semantic不够,后面的sematic够了,但经过太多的pooling,featmap太小了。要检测小物体,既需要一张足够大的featmap来提供更加精细的特征和做更加密集的采样,同时也需要足够的semantic meaning来与背景区分开。 - Building FPGA applications on AWS — and yes, for Deep Learning too | Medium
简评:现场可编程门阵列(FPGA)不是闪亮的新技术,第一个商业产品可以追溯到1985年。然而今天,我们将这四十年前的东西和前沿的深度学习结合起来了。
Editor: 张先轶、袁帅
本作品采用知识共享署名-相同方式共享 2.0 通用许可协议进行许可。