当前位置：首页 > 手游 > 曙光英雄

《人工智能半月刊》第五十七期（2018.7.30)

来源：网络时间：2023-08-28 12:51:18

导读Google Cloud Next 18大会召开，全新AutoML产品发布，AI客服规模化商用

重要事件点评

Google Cloud Next 18大会7月25日召开，谷歌云首席科学家李飞飞公布了一系列最新的人工智能产品进展，其中最核心的亮点有两个：

1、Cloud AutoML新增语言分类和翻译两大功能。很多媒体集团已经开始使用。

2、通过图灵测试的AI，现在可以投入商用了，谷歌现场展示了AI如何通过语音交流，完美的帮电商用户退货。

1、Cloud AutoML再添新功能

今年1月，Google发布Cloud AutoML，能够通过增强学习自动完成模型选择+超参数优化，即便用户不懂机器学习，也能训练出一个定制化的机器学习模型。本次大会上AutoML上线了两大新功能：

(1).AutoML Natural Language，可以解析文本的结构和意义。它可用于从文本文档、新闻或博文中提取有关人物、地点、事件等的信息。

(2).AutoML Translation，可使用最新的神经机器翻译技术将字符串翻译成任何支持的语言。

这些新功能，目前已经被一些媒体应用。例如赫斯特集团、日经集团、金融时报、彭博社等。Google Cloud AI研发主管李佳表示：至此，AutoML可以为各行业缺少AI经验的企业和开发者提供自动生成图像功能，语言分类功能和翻译功能。

2、接电话AI

谷歌云专门针对客服行业推出了“客服中心AI（Contact Center AI）”。它的任务，一是替人类客服接电话，二是帮人类客服更好地接电话。客服中心AI，与谷歌今年5月在I/O开发者大会上展示的打电话AI Duplex，可以说是兄弟产品，有很多共同的底层组件，但各自有不同的产品构成和目标。这个产品包含了谷歌云的对话式交互API Dialogflow的一系列升级，比如来自DeepMind WaveNet的语音合成，通过Dialogflow Phone Gateway获得了接打电话的功能。当用户打电话给客服中心，会先由虚拟助理来接，这个接电话AI会跟用户打招呼，回答用户的问题，独立完成一些任务。如果它搞不定，就会将电话转接给人类客服。谷歌以电商退换货为例展示了客服中心AI的能力。这个AI的接电话水平会比“充值请按1，查询请按2”高出一大截。

3、TPU 3.0上岗，众多API更新

谷歌云宣布，第三代TPU正式上岗了，进入Alpha内测阶段。TPU 3.0是谷歌在今年5月I/O大会上发布的，谷歌CEO Pichai说，它的性能比上一代高8倍，高达100 petaflops。除此之外，谷歌云的机器学习API们今天也迎来了一波更新。Cloud Vision API现在可以识别手写字体了，增加了对PDF和TIFF格式文件的支持，还支持产品搜索，增加了目标检测能力。Cloud Text-to-Speech API的语音合成能力也有提升，它现在支持用DeepMind推出的WaveNet来合成多个语种的声音，还能专门面向说话人的类型来优化。Cloud Speech-to-Text API，也就是语音识别API，获得了识别语种、在对话中识别不同说话人的能力。

上市公司动态

北部湾旅：公司证券简称将于2018年7月25日起变更为“新智认知”，证券代码保持不变

北部湾旅7月16日发布公告，经公司申请，并经上海证券交易所审核，公司证券简称将于2018年7月25日起由“北部湾旅”变更为“新智认知”，证券代码“603869”保持不变。

远方信息：收到控股孙公司慧景科技6名股东出具的《通知函》称，其控股子公司远方慧益作为收购方严重违反收购协议，并要求解除收购

远方信息7月18日发布公告，公司收到控股孙公司慧景科技6名股东出具的《通知函》称，其控股子公司远方慧益作为收购方严重违反收购协议，并要求解除收购。

中科曙光：2018年4月25日至公告日，公司及子公司累计收到尚未公告的与收益相关的政府补助11,102.65万元、与资产相关的政府补助3,030.00万元、国家课题经费3,811.84万元

中科曙光7月24日发布公告，公司2018年4月25日至公告日，公司及子公司累计收到尚未公告的与收益相关的政府补助11,102.65万元、与资产相关的政府补助3,030.00万元、国家课题经费3,811.84万元。

汉王科技：发布2018年半年度业绩快报，归母净利润2056.26万元，同比增长2.04%

汉王科技7月27日发布公告，发布2018年半年度业绩快报，归母净利润2056.26万元，同比增长2.04%。

行业新闻

巨头新动向

阿里新AI用于国土监测：山东国土执法引入阿里 AI 遥感分析

通过对比新旧两张卫星遥感照片，就能让所有违法用地与乱占耕地无所遁形。但以往这种遥感影像分析需要国土资源部门的监测专家利用人眼，在照片上一栋一栋建筑物逐一比对，这个过程可能耗时数月。通过使用阿里机器智能技术实验室深度学习团队开发的「卫星遥感及航空影像识别方案」，基于计算机视觉与深度学习框架，山东省淄博国土资源局在全国率先实现了实时的 AI 遥感影像自动分析，以及新增建筑与土地使用变化情况预警。通过大幅提高监察频率，让违法用地无处遁形，使耕地、基本农田得到及时、有效的保护。据阿里透露，未来该解决方案还将提供从原始卫星数据批量处理，到最终分析利用的端到端解决方案。

Facebook正在训练AI学会问路

AI不能独立地彻底理解人类的自然语言，自然也听不懂使用自然语言的指路，对于虚拟助手而言，仅仅能够对人类提出的问题做出简单的回应，这远远达不到要求。Facebook的人工智能研究室（FAIR）正在试图突破这一难关。要让人工智能系统理解人类语言，方法之一就是把语言和特定环境联系起来，以更加自然的方式来训练这些系统。就像婴儿最先学会说的是他们能看到摸到的东西一样，这种方式也被称为具体的人工智能，更偏向于在真实环境中学习，而不是通过大量的文本数据进行训练。FAIR的研究人员把这一新的研究课题称为Talk the Walk，他们通过一种新型的被称为MASC (Masked Attention for Spatial Convolution) 的注意力机制，让导航机器人专注于地图上正确的地方。这种方式使得在测试集上导航的准确率提高了一倍。

谷歌AI脑神经元绘制法登上Nature子刊：速度提升一个数量级

人类对于生物大脑的探索是永无止境的，模仿生物的人工智能是否可以帮助我们进行研究？最近，来自谷歌的研究人员提出了一种新的循环神经网络，它可以快速构建生物大脑的 3D 神经模型。谷歌称，新的方法可以「将连接组学提升一个数量级」。目前，该研究的论文已经发表在 Nature 子刊《Nature Methods》上。连接组学旨在综合描绘在神经系统中发现的神经网络结构，以更好地理解大脑的运作模式。这一过程需要对大脑组织进行纳米级的 3D 成像（通常使用电子显微镜），然后分析成像数据结果以追踪大脑的神经突触并识别单个突触连接。由于成像分辨率高，即使是一立方毫米的大脑组织也能产生 1000 多 TB 的数据！这些图像中的结构相当复杂、精细，因此大脑成像的主要瓶颈在于数据的自动解读，而非获取。

谷歌发布AutoGraph，自动将Python转化为TF计算图

近日，谷歌发布了一项新的 TensorFlow 工具「AutoGraph」，能将 print() 函数和其它 Python 代码转化为纯 TensorFlow 计算图代码。这一工具极大地加强了TensorFlow 在调用纯 Python 语句时的性能，开发者也不需要再用 TensorFlow 改写常用的 IF 和 While 等 Python 语句来提升运行效率。对于入门开发者而言，理解静态计算图是比较困难的，因此很容易引起开发者的困惑。AutoGraph 可以自动完成代码的转换，保持 Eager 编程的简易性，同时还提升了计算图执行的性能，同时连接起 Eager execution 和 Graph。AutoGraph 使用 Eager-style 的 Python 代码，然后将其转换成图生成代码，还可以使用源代码转换来覆写 Python 语言的任意部分，包括控制流、函数应用和分配，生成样板代码，重构惯用 Python，以使转换成图的过程变得简单。

打通所有数据壁垒！谷歌、微软、Facebook、Twitter宣布「数据传输计划」

7月21日，美国四家科技巨头——谷歌、微软、Facebook 和 Twitter 联合发布了一项新标准计划「数据传输计划」（Data Transfer Project），旨在为不同平台之间的数据迁移打造新的方式。在刚刚发布的谷歌开源博客中，谷歌将该项目描述为：让用户「直接将数据从一个服务迁移到另一个服务，无需下载和重新上传。」该系统当前版本支持图像、电子邮件、合同、日历和任务的数据迁移，这些数据通过谷歌、微软、Twitter、Flickr、Instagram、Remember the Milk 和 SmugMug 的公开 API 获取。其中很多种数据迁移可以使用其他方式完成，但是参与者希望该项目能够比传统 API 更加稳健、灵活。微软也在一篇相关博客中号召更多企业加入，该公司补充道：「可移植性（portability）和互操作性（interoperability）是云创新和竞争的关键。」

无人机+深度学习，英特尔AI技术高效助力文物保护

英特尔通过人工智能技术、深度学习技术、无人机技术等，实现了对于长城的保护与修缮。工作人员能够通过无人机近距离检测到长城的破损情况，获取高分辨率图像，帮助文保人员清晰、全面了解长城现状。根据无人机采集的数据，再快速分析处理上万张图片，并计算出破损的长度和宽度，规划修缮所需材料，并提供裂缝和塌方等破损的测量数据用于指导物理修缮。在 3D 模型损毁识别基础上，可以利用最新的 3D 模型对城墙缺损部位进行数字化修复，并据此对实际的长城修缮和维护提供指导和参考数据。仅仅 700 米的长城城墙，猎鹰无人机采集了上万张高分辨率图像，原始数据超过200GB，英特尔采用深度神经网络数学核心函数库，以及Tensorflow 等工具，高效地实现长城 3D 建模和数字化修复，并达到厘米级精度的效果。

你的灵魂画作都去哪儿了？“猜画小歌”背后的5000万组数据

“猜画小歌”是来自Google AI的一款小程序，这也是谷歌第一款微信小程序。用户可以和谷歌的AI组队，在有限的时间内进行速写。在每一轮体验中，用户需要在规定时间内勾勒出一幅日常用品的图画（比如狗、钟表或鞋子），AI“小歌”则需要在时间结束前猜出图画中的物体。据谷歌介绍，“猜画小歌”背后的技术主要是计算机视觉和神经网络，由来自Google AI的神经网络驱动。谷歌收集了五千万份不同的绘画，并且开源了数据库。这一数据集包含了来自全球100多个国家和地区人们的绘画数据，通过对其中从66个不同国家收集的100多个圆进行一些简单的几何分析，他们发现，不同国家的人习惯于不同的画圆方向：美国人喜欢逆时针画圆，美国人所画的圆中有86%是逆时针画的。恰恰相反，日本人更多习惯于顺时针画圆，据了解，日本，中国台湾，香港等基于中华文化的地区顺时针画圆的比例更高。

语音合成领域的首个完全端到端模型，百度提出并行音频波形生成模型ClariNet

语音合成（Text-to-Speech，TTS）是将自然语言文本转换成语音音频输出的技术，在 AI 时代的人机交互中扮演至关重要的角色。百度硅谷人工智能实验室最近提出了一种全新的基于 WaveNet 的并行音频波形（raw audio waveform）生成模型ClariNet，合成速度提升了数千倍，可以达到实时的十倍以上。此外，这也是语音合成领域第一个真正的端到端模型：单个神经网络，直接从文本到原始音频波形。对比 DeepMind 稍早提出的 Parallel WaveNet，ClariNet 中的概率分布蒸馏（probability density distillation）过程更加简单优美，直接闭式地（closed-form）来计算训练目标函数 KL 散度（KL divergence），大大简化了训练算法，并且使得蒸馏过程效率极高——通常 5 万次迭代后，就可以得到很好的结果。

技术新突破

为裸女自动穿上「比基尼」，借助GAN打造强劲的内容审核方法

互联网上的图像内容审核一直是很多人都非常关注的话题，而当前内容审核还需要很多人力操作。最近有研究者利用生成对抗网络以无监督的方式学习自动给裸体穿上比基尼，这样在不改变内容语义的情况下还能去除敏感信息。早期在裸露和淫秽内容审查的工作主要聚焦于检测敏感媒体文件中的身体部位，例如脸部、人体皮肤和乳头，而近期的研究使用当前最佳的表征学习方法，来自动学习可以辨别敏感内容和非敏感内容的特征以解决这个问题。这些研究仅关注执行二分类问题，使用分类结果来决定是否完全忽略访问的内容。但这样的方法可能有损种用户经验，因为其完整的内容，无论是图像还是视频帧都必须被删除或屏蔽。研究者提出了一种基于对抗训练的图像到图像转换的方法，其潜在地定位图像中的敏感部位，在保留其语义的同时覆盖它们，即给它们穿上合适的衣物。该方法可以转换敏感内容域 X（包含裸女的图像池）的一张图像 x 到非敏感内容域 Y（包含穿比基尼女人的图像池）的一张图像 y，其中敏感部位被比基尼覆盖，同时保留原始图像的语义。

英雄联盟如何指挥团战？AI决策得到实践应用

英雄联盟是一个需要默契团队配合的多人对战游戏。在瞬息万变的战斗中，如何做出正确的决策非常重要。最近，数据分析师 Philip Osborne 提出了一种利用人工智能技术提升英雄联盟中团队决策水平的方法，并将其开源。该方法不仅参考了大量真实游戏的统计结果，也将当前玩家的偏好计算在内。该项目由三部分组成，旨在将 MOBA 游戏《英雄联盟》的对战建模为马尔科夫决策过程，然后应用强化学习找到最佳决策，该决策还考虑到玩家的偏好，并超越了简单的「计分板」统计。该项目的目标为：确定本方是否可以根据游戏前情计算下一步最好的打法，然后根据真实比赛数据增加最终的胜率。

北邮成立人工智能研究院：整合全校AI资源，面向社会开展广泛合作

7月19日，北京邮电大学（北邮）创新研究院在该校宏福校区正式揭牌成立。作为创新研究五大研究方向之一，北京邮电大学人工智能研究院同时揭牌。据介绍，北邮人工智能研究院是学校打造研究院集群的重要举措，也是创新研究院优先启动建设的五大研究院之一，另外四个方向还包括物联网、信息功能材料、网络空间安全和军民融合技术。人工智能研究院以人工智能基础理论、认知计算技术与应用、知识推理技术与应用、智慧教育技术与服务为方向开展原创和应用研究，以“高精尖”、“产业化”为特色和目标，致力于形成有重要影响力的品牌技术和产品，建设一支具有国际一流学术水平和开发能力的研究队伍，成为人工智能领域知名的研究基地。据了解，北邮人工智能研究院未来将侧重视频监控、自然语言理解、AI+医疗，以及人工智能娱乐四大板块。

观色知喜怒：麻省理工成功开发情绪解读机器学习模型

麻省理工媒体实验室的研究人员开发出一种机器学习模型，它能让计算机像人一样自然地解读我们情绪。该模型能更好地捕捉细微的面部表情变化，从而更好地判断情绪。通过额外的数据训练，该模型在全新的人群中也能达到相同效果。在不断发展的「情感计算」领域，用于分析面部表情、解读我们的情绪、并做出相应反应的机器人和计算机不断被开发出来。传统的情感计算模型采用「一刀切」的概念。他们训练一组描述各种面部表情的图像，优化特征——比如微笑时嘴唇如何卷曲——并把这些特征映射到一组全新的图像中。在本文的研究中，研究人员将「多专家模型」(MoE) 技术与模型个性化技术结合在一起，这种技术有助于从个体中挖掘出更细粒度的面部表情数据。Rudovic 说，这是首次将两种技术结合到一起进行情感计算。

免责声明

本订阅号为安信证券股份有限公司（下称“安信证券”）研究中心胡又文团队的官方订阅号。本订阅号推送内容仅供安信证券客户中的专业投资者参考。为避免订阅号推送内容的风险等级与您的风险承受能力不匹配，若您并非安信证券的客户中的专业投资者，请勿使用本信息。安信证券不会因为任何机构或个人订阅本订阅号或者收到、阅读本订阅号推送内容而视为本公司的当然客户。

本订阅号推送内容仅供参考，不构成对任何人的投资建议，接收人应独立决策并自行承担风险。在任何情况下，本信息作者及其所在团队及安信证券不对任何人因使用本订阅号中的任何内容所引致的任何损失负任何责任。

本订阅号推送内容版权归安信证券所有，未经安信证券事先书面许可，任何机构或个人不得以任何形式删节、修改、复制、引用和转载，否则应承担相应责任。

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。E-MAIL:704559159@qq.com

标签：半月刊人工智能 30 五十七