科技网

当前位置: 首页 >IT

重磅2016AI巨头开源IP超级盘点To

IT
来源: 作者: 2019-04-25 19:56:25

2016年5月13日,Google Research宣布,世界准确度最高的自然语言解析器 SyntaxNet 开源。谷歌开源再进一步。据介绍,谷歌在该平台上训练的模型的语言理解准确率超过90%。 SyntaxNet 是一个在TensoFlow中运行的开源神经络框架,提供自然语言理解系统基础。谷歌公然了所有用用户自己的数据训练新SyntaxNet模型所需要的代码,和 谷歌已训练好的,可用于分析英语文本的模型 Paesey McParseface。

2016年 6月29日,谷歌推出 Wide Deep Learning,并将 TensorFlow API 开源,欢迎开发者使用这款最新的工具。同时开源的还有对 Wide Deep Learning 的实现,作为 arn 应用程序接口的一部分,让开发者也能自己训练模型。

8月25日, 谷歌开源了 TensorFlow 中用于文本信息提取并自动生成摘要的模型,特别善于长文本处理,这对自动处理海量信息十分有用。 自动文本摘要最典型的例子便是报导的标题自动生成,为了做好摘要,机器学习模型需要能够理解文档、提取重要信息,这些任务对计算机来讲都是极具挑战的,特别是在文档长度增加的情况下。

2016年 8月31日,谷歌宣布开源 TensorFlow 高级软件包 TF-Slim,能使用户快速准确地定义复杂模型,尤其是图像分类任务。自发布以来,TF-Slim 已得到长足发展,无论是络层、代价函数,还是评估标准,都增加了很多类型,训练和评估模型也有了很多便利的常规操作手段。这些手段使你在并行读取数据或者在多台机器上部署模型等大规模运行时,不必为细节操心。另外,谷歌研究员还制作了 TF-Slim 图象模型库,为很多广泛使用的图像分类模型提供了定义和训练脚本,这些都是使用标准的数据库写就的。TF-Slim 及其组成部分都已经在谷歌内部得到广泛的使用,很多升级也都整合进了 im。

2016年 9月13日,谷歌宣布开源大规模语言建模模型库,这项名为“探索RNN极限”的研究今年2月发表时就引发激论,如今姗姗来迟的开源更加引人瞩目。研究测试取得了极好的成绩,另外开源的数据库含有大约 10 亿英语单词,词汇有 80 万,大部分是数据。这是典型的产业研究,只有在谷歌这样的大公司才做得出来。这次开源也应该会像作者希望的那样,在机器翻译、语音辨认等领域起到推动作用。

2016年 9月23日,谷歌宣布开源图说生成系统 Show and Tell 最新版在 TensorFlow 上的模型。该系统采取编码器-解码器神经络架构,分类准确率达 93.9%,在遇到全新的场景时能够生成准确的新图说。谷歌表示,这说明该系统能够真正理解图象。

2016年9月28日,谷歌在官方博客上宣布,将含有800万个Youtube 视频URL 的视频数据库开源,视频总时长达到了50万个小时。一并发布的还有从包括了4800个知识图谱分类数据集中提取的视频级别标签。 这1数据库在范围和覆盖的种类上都比现有的视频数据库有显著提升。例如,较为著名的Sports-1M数据库,就只由100万个Youtube 视频和500个运动类目。谷歌官方博客上说,在视频的数量和种类上,Youtube-8M代表的是几近指数级的增长。

2016年10月1日,继前天发布800万视频数据集之后,谷歌又发布了图片数据库Open Images,包括了900万标注数据,标签种类超过6000种。谷歌在官方博客中写到,这比只具有1000个分类的ImageNet 更加贴近实际生活。对想要从零开始训练计算机视觉模型的人来讲,这些数据远远足够了。 就在 12月,谷歌还开源了 Open Images 并行下载工具的脚本,5 天速度最高超过 200 M。

2016年 12月 5日,DeepMind 宣布将其AI 核心平台 DeepMind Lab 开源。DeepMind 实验室把全部代码上传至 Github,供研究人员和开发者进行实验和研究。DeepMind Lab 这1平台将几个不同的 AI 研究领域整合至一个环境下,方便研究人员测试AI 智能体导航、记忆和3D成像等能力。值得一提的是,这些代码也包括 AlphaGO 的代码,谷歌希望以此增加 AI 能力的开放性,让更多开发者参与 AI 研究,观察其他开发者是不是能够挑战并打破 DeepMind 现在的纪录。

现在训练代码已经全部发布。 Github 链接:。

2016 年 8 月19日, Facebook AI 实验室(FAIR)宣布开源文本分析工具 fastText。fastText 既可以用于文本分类,又能用于学习辞汇向量表征。在文本分类的准确率上与一些经常使用的深度学习工具不相上下,但是在时间上却快很多――模型训练时间从几天减少到几秒。除文本分类,fastText 也能被用于学习词语的向量表征,Facebook 称 fastText 比常用的 Word2vec 等最先进的词态表征工具表现都要好得多。

Facebook 希望开源能加速计算机视觉的发展。不过,Facebook 并没有在自家产品中使用这些工具,像这样落实到具体应用前就开源,跟通常所说的“开源”有些不同。对此,Facebook 人工智能团队 FAIR 的负责人 Yann LeCun 曾表示,正是由于 FAIR 做基础的、不受制于公司短时间效益的研究,才能真正推动人工智能技术发展。

2016 年 9 月 27日,Facebook 宣布开放 AI 训练和测试环境 CommAI-env,可以用任何编程语言设置智能体。据介绍,CommAI-env 这个平台用于训练和评估 AI 系统,尤其是重视沟通和学习的 AI 系统。与用强化学习从玩游戏到下围棋都能做的 OpenAI Gym 不同,Facebook 的 CommAI-env 侧重基于沟通的训练和测试,这也是为了鼓励开发人员更好地打造能够沟通和学习的人工智能,呼应该公司的十年规划。Facebook 还表示,CommAI-env 会持续更新,并在成熟后举行比赛推进 AI 的开发。

在AI 测试环境方面,Facebook 还开源了 CommNet,这是一个让基于神经络的代理更好交互、实现合作而研发的模型,与 CommAI-env 配套。 12 月,Facebook 还开源了 TorchCraft ,在深度学习环境 Torch 与星际争霸之间搭起了桥梁,方便研究人员使用控制器,编写能够玩星际争霸游戏的智能代理。

11月 8日, Caffe作者、Facebook 研究员贾扬清在官方站上发文介绍了新的机器学习框架 Caffe2go,并表示在 接下来的几个月将其部分开源 Caffe2go 范围更小,训练速度更快,对计算性能要求较低,在上就行运行,已成为 Facebook 机器学习的核心技术。

OpenAI

创建于 2015 年底的非盈利机构 OpenAI 的成立打破了谷歌、Facebook 等巨头霸占 AI 领域的格局,但其创始人、特斯拉CEO马斯克多次发表人工智能威胁论。马斯克创建 OpenAI 目的何在?2016年 5 月 4日,OpenAI 发布了人工智能研究工具集 OpenAI Gym, 用于研发和比较强化学习算法,分析 OpenAI Gym 或可找出马斯克的真正动机。

文章激起了很多反响, 相对软硬件开源,OpenAI 从另一个侧面,对深度学习模型的实际部署提供了帮助。

2016年12月 4日,在今年 NIPS 大会召开的前一晚,OpenAI 发布了 Universe, 用于训练解决通用问题 AI 的基础架构。据悉 ,这是一个能在几乎所有环境中衡量和训练 AI 通用智能水平的开源平台,目标是让智能体能像人一样使用计算机。目前,Universe 已有1000种训练环境,由微软、英伟达等公司参与建设。 有了 Universe,任何程序都能被接入到 OpenAI Gym 的环境中。很快,OpenAI 还推出了 Mini World of Bits(MiniWoB),这个与

OpenAI Universe 配套的环境基准可以测试代理与常见页浏览器元素的交互能力,比如按钮、文本框、滑块。

微软开源:CNTK 升级版

根据 Github 2016 年度的《Octoverse 视察报告》,微软不仅是具有开源项目最多的公司,也是贡献人数最多的公司。

在人工智能方面,微软的开源项目有很多,包括 CNTK计算络工具包、DMTK分布式机器学习工具包,Send2vec语义相似映照器, 以及 CodaLab 研究平台(基于Web的开源平台,旨在通过其社区帮助解决数据导向的许多常见问题,从而促进机器学习和高性能计算的研究领域的发展)。

2016 年 10 月 27日,微软开源深度学习认知工具包 CNTK 升级版,其中最瞩目的功能是增加了 Python 绑定,支持增强学习。 新版的 CNTK 性能大幅提升,尤其是在多台机器上处理较大数据集的情况下能高速运行, 这种类型的大规模部署对于多GPU上的深度学习是不可或缺的,也是开发消费产品和专业产品的必须。

微软研究人员表示,在多服务器间运行的能力是一大进步。CNTK 升级版还包含了一些算法,用于将大规模数据处理的计算消耗降到最低。

2016 年 1月 15 日,百度公布了代码 Warp-CTC,能够让 AI 软件运行得更高效。说 Warp-CTC 知道的人 还少,百度语音辨认系统 Deep Speech 2 就是用它搭建的。百度位于硅谷的 AI 实验室主管 Adam Coates 在接受 Re-Work 采访时表示,他们在构建深度语音端对端系统的过程中发明了Warp-CTC 方法,进而使用 CTC 提高模型的可伸缩性。“由于没有类似的工具,我们决定将其分享给人们。它是一款很实用的工具,可以用到现有的AI框架中。现在有很多深度学习的开源软件,但是之前用于训练序列数据的端对端络一直很慢。我们在Warp-CTC上的投入是对“我们深信深度学习与高性能计算技术(HPC)的结合会有巨大潜力”的一种证明。”

2016 年 8 月 31日,百度宣布开源深度学习平台 PaddlePaddle。实际上,百度深度学习实验室在几年前就投入 Paddle Paddle 的开发,业内对这个 云端托管的分布式深度学习平台

对于序列输入、稀疏输入和大规模数据的模型训练有着良好的支持,支持GPU运算,支持数据并行和模型并行,仅需少许代码就能训练深度学习模型,大大下降了用户使用深度学习技术的成本。

百度发表论文,开源 DeepBench 基准测试, AI研究者和芯片制造商可以用它测试不同的芯片运行软件时的性能,尤其是哪款硬件加速深度学习性能最好。目前 DeepBench 只能测试深度学习的训练模型,能提供在3种 Nvidia GPU和一种 Intel Xeon Phi 处理器的基准化测试结果,未来还可能测试用于图像和语音辨认之类任务的“推理”模型。百度希望 DeepBench 能增进特定任务深度学习加速器的研发,“GPU明显不是终点,我们希望这能鼓励竞争”。

GitHub 最受欢迎的深度学习项目

最后,在这里附上一份非常有用的资料表:GitHub 最经常使用的 54 个深度学习项目,最后更新时间是今年 8 月。表格的整理人ID分别是 aymericdamien、lenck、pjreddie、vmarkovtsev、JohnAllen。

一款由Python实现的深度学习库,包括卷积神经络、递归神经络等。运行在Theano和TensorFlow之上

由学生主导的一个独立项目,重新实现了 DeepMind在2016发表于Nature论文 Mastering the game of Go with deep neural networks and tree search(用深度神经络和树搜索学习围棋) (Nature 529, , 28 Jan 2016)

运用深度神经络将涂鸦变成优雅的艺术品,从照片生成无缝纹理,转变图片风格,进行基于实例的提升,等等。(语义风格传递的实现)

轻巧、便携、灵活的分布式/移动深度学习框架,支持Python, R, Julia, Scala, Go, Java等等语言

智能计算的Numenta平台(Numenta Platform for Intelligent Computing,Nupic):一个脑启发式的计算智能和机器智能平台,基于皮层学习算法的生物精确神经络模型

一个 Python 库,用来定义、优化和模拟数学表达式计算,用于高效解决多维数组的计算问题

Matlab/Octave的深度学习工具箱。包括深度信念络、自动编码机、卷积神经络、卷积自动编码机和vanilla神经络等。每种方法都有入门示例

• 9分钟前 国美智慧家庭战略在事迹上的效益正在显现。日前,国美零售披露了其智能业务的数据,2018年智能产品交易总额(GMV)同比增长89%,在新业务增长项中,表现抢眼。自去年11月28日,国美发布自研、合作的电视、音响等多款智能产品。国美智能总经理徐燕松表示,要利用本身品牌力、供应链、渠道力和后服务等综合实力搭建开源平台,做智能

• 17小时前 近期,一批在中国各家互联公司工作的程序员在代码托管平台GitHub上建立了项目U,向互联公司的“996工作制”(朝九晚九,每周六天)等侵犯劳动者权利的企业制度发起了抗议,取得了程序员群体的大量支持,短时间内获了 20 万 star 和上万次 fork。(

说起搜索引擎,大家第一时间想到的会是谷歌、百度,不过他们主要面向消费级搜索,还有包括 Elastic search、Spunk等在内的主要专注于向企业客户销售搜索技术。4月10日,Elastic在北京举行大会,发布了Kibana中文版,旨在为中国客户提供更好地本地化服务。

• 1天前 雷锋 AI 科技评论按,目前人工智能和数据科学等领域的技术的火热,让作为这些领域研究的首选语言 python 成为了非常受欢迎的编程语言。作为当前最热门的编程语言之一,现在有关于 python 学习的书籍等资源特别多,但是这些资源良莠不齐,适合的读者群里也不一样。 今天,我们要给大家推荐一本适合具有其它编程语

• 4天前 图片来源:Google Cloud Blog【产业互联周报是由钛媒体TMTpost发布的特点产品,将整合本周最重要的企业级服务、云计算、大数据领域的前沿趋势、重磅政策及行研报告。】产业互联(IndustrialInternet)是从消费互联引伸出的概念,是指传统产业借力大数据、云计算、智能终端和络优势,来帮助

• 5天前 (原标题:裁员、补课、开源节流:详解TMD大盘整)张� 房宫一柳|文 宋玮|2019年开始,以一路高歌猛进为主旋律,借助移动互联势能一跃而起的小巨头们纷纭收窄战线、关注变现。这是难得的寂静时刻。既像大巨头面临资本市场和裁员影响压力,又像小公司一样面临现金流焦虑。作为创业公司阶段顶峰的TMD,日子其实不好过。有人评价

• 5天前 蓝鲸TMT频道4月12日讯,腾讯宣布开源三大开发工具:腾讯蓝鲸智云社区版“PaaS平台”及其调度编排SaaS“标准运维”、基于TARS框架开发的分布式NoSQL存储系统DCache。腾讯蓝鲸产品中心总监、T4工程师党受辉称,腾讯蓝鲸智云(简称:蓝鲸),是腾讯自研自用的一套用于构建企业研发运营一体化体系的PaaS开发框架

• 5天前 Rasa raises $13 million for open source conversational AI tools来自德国柏林的初创公司Rasa,为会话式人工智能开发了一个标准的基础设施层。该公司于今天宣布,它在由Accel领投的A轮融资中取得了1300万美元的投资,Basis Set Ventures、O

• 7天前 雷锋(公众号:雷锋) AI 科技评论按: 为了更好解决 TensorFlow 用户在使用不同种类的硬件(GPU、TPU、移动装备)时,由于多级别堆栈而致使的编译器与运行时毛病,谷歌近日开源了一个全新的中介码与编译器框架 MLIR。 在过去,若想解决多级别堆栈问题,则需要我们构建

• 7天前 国内家乐福继续变革 将门店电器拜托给国美销售4月10日消息,家乐福中国在上海宣布,与国美正式达成战略合作伙伴关系,国美将进驻家乐福在中国的200余家线下门店,推出“店中店”模式——将家乐福卖场中的电器区域交由国美来运营。在这些店中店中,消费者可以线下直接购买,也能通过国美APP买单。  据家乐福方面介绍

专注科技资讯挖掘,通过关键词过滤科技资讯,提高浏览效力10倍以上。 站定位极少数高效能人士,精准快速定位资讯,大大提高浏览效力。

慢病管理中心
痛经是怎么回事怎么办
脑动脉硬化怎么治疗

相关推荐