毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

想快速部署机器学习项目来看看几大主流机器

来源:语言识别 时间:2023/5/11
白癜风哪里治最好 https://jbk.familydoctor.com.cn/bjbdfyy/

雷锋网AI研习社按,日前,kdnuggets上的一篇文章对比了三大公司(谷歌、微软和亚马逊)提供的机器学习服务平台,对于想要启动机器学习项目的公司或是数据科学新手来说,提供了非常多的指导和建议。雷锋网AI研习社将原文编译整理如下:

对于大多数企业来说,机器学习就像航空航天一样遥远,听起来既昂贵,还需要高科技人才。从某种角度来说,如果你想建立一个像Netflix一样好的推荐系统,那确实是昂贵且困难。但是,目前这个复杂的领域有一个趋势:一切皆服务(everything-as-a-service)——无需太多投资,即可快速启动机器学习计划。如果你是数据科学的新手,想要抓住当下的机会,这将是一种正确的选择。

机器学习里最令人鼓舞的故事之一就是,一个日本农民,为了减轻他父母的工作负担,决定设计一个自动分拣黄瓜的系统。不像其他的大型公司,这个人并没有机器学习的专业知识,也没有很多预算,但是他努力学会了TensorFlow,并使用深度学习来识别不同种类的黄瓜。

通过使用机器学习云服务,你可以开始构建第一个工作的模型,只要一小个团队,就可以从机器学习的预测中获得有价值的信息。许多人已经讨论过不同的机器学习的策略。现在让我们来看看市场上最好的机器学习平台都有哪些服务。

什么是机器学习服务

机器学习服务(Machinelearningasaservice,MLaaS)包含机器学习大多数基础问题(比如数据预处理,模型训练,模型评估,以及预测)的全自动或者半自动云平台的总体定义。预测结果可以通过RESTAPI与内部的IT基础架构桥接。

Amazon机器学习服务,Azure机器学习和GoogleCloudAI是最领先的三个云MLaaS服务,允许在很少甚至没有数据科学专业知识的情况下进行快速模型训练和部署。如果你还没有数据科学团队,可以参看我们的另一篇文章,看看团队都需要拥有哪些技能的人才。

在本文中,我们将首先概述Amazon,Google和Microsoft的主要机器学习服务平台,并比较这些供应商所支持的机器学习API。这并不是如何使用这些平台的说明,而是在开始阅读平台的文档之前所需要做的功能调研。

针对定制化的预测分析任务的机器学习服务

使用AmazonML进行预测分析

亚马逊的机器学习服务有两个层面:用于预测分析的AmazonML和针对数据科学家设计的SageMaker。

AmazonMachineLearning是市场上最自动化的解决方案之一,最适合对处理效率敏感的操作。该服务可以加载来自多个来源的数据,包括AmazonRDS,AmazonRedshift,CSV文件等。所有数据的预处理操作都是自动执行的:包括确认哪些字段是分类标签,哪些是数字,而且不需要用户选择进一步的数据预处理方法(降维还是白化)。

AmazonML的预测能力限于三种:二分类,多分类,以及回归任务。也就是说,AmazonML服务不支持无监督的学习方法,用户必须在训练集中选择标记好的目标变量。而且,用户不需要知道任何机器学习方法,Amazon会在分析提供的数据之后自动选择机器学习方法。

这种高自动化的水平既是AmazonML的优势,也是劣势。如果您需要一个完全自动化,但是功能有限的解决方案,那么这个服务非常适合你。但是如果不是这样的话,你可以选择SageMaker。

AmazonSageMaker以及基于框架的服务

SageMaker是一个机器学习环境,通过提供快速建模和部署工具来简化数据科学家的工作。例如,它提供Jupyter来简化数据浏览和分析。Amazon也提供了内置的算法,针对分布式系统中的大型数据集和计算进行了优化。这些算法包括:

线性学习器,一种用于分类和回归的监督方法。用于稀疏数据集的分类和回归的分解机(FactorizationMachine)。XGBoost是一个有监督的提升树算法,通过结合简单算法的预测来提高分类,回归以及排序的预测精度。基于ResNet的图像分类,也可以应用于迁移学习。Seq2seq是用于预测序列的监督算法,可用于翻译句子,将句子总结为更短的词汇等。K-means是一种用于聚类任务的无监督学习方法。主成分分析(PCA),可以用于数据降维。隐含狄利克雷分布(LatentDirichletallocation)是用于文档归类的无监督方法。神经主题模型(Neuraltopicmodel,NTM)是一种无监督方法,它可以遍历文档,找出高频词汇,并根据内容定义文档的主题(用户不能预先定义主题的名称,但是可以设置话题的数量)。

SageMaker中内置的方法与Amazon推荐的MLAPI在很大程度上有交集,但在这里它允许数据科学家定制使用,并使用自己的数据集。

如果你不想使用这些功能,你也可以添加自己的方法,并通过SageMaker利用它的部署功能运行模型。或者也可以将SageMaker与TensorFlow或MXNet等深度学习库集成在一起。

一般来说,亚马逊的机器学习服务为经验丰富的数据科学家和只需要完成工作而不需深入准备数据集和建模的人都提供了足够的自由。对于那些已经使用亚马逊环境并且不打算转移到其他云供应商的公司来说,这是一个可靠的选择。

MicrosoftAzure机器学习工作室(MachineLearningStudio)

AzureMachineLearning意在为新手和经验丰富的数据科学家建立一个强大的工作空间。微软的机器学习产品功能与亚马逊的类似,但就目前而言,Azure的现成算法更加灵活。

Azure提供的服务可以分为两大类:AzureMachineLearningStudio和Bot服务。让我们首先了解一下AzureMLStudio,在之后介绍特定API和工具的部分时,回到Bot服务。

MLStudio是微软MLaaS的主要部分,几乎所有的AzureMLStudio中的操作都必须手动完成:包括浏览数据,预处理,选择方法,以及验证模型结果。

使用Azure进行机器学习的学习曲线可能比较陡,但是这也能使得用户对该领域的主要技术有更深入的了解。另一方面,AzureML支持图形界面,可以可视化工作流程中的每一个步骤。使用Azure的主要好处是可以使用各种算法。MLStudio支持大约种解决分类(包括二分类和多分类),异常检测,回归,推荐和文本分析方法。值得一提的是,该平台也支持一种聚类算法(K-means)。

AzureML的另一大部分是CortanaIntelligenceGallery。它是由社区提供的机器学习解决方案的集合,供数据科学家开发和利用。Azure对于从事机器学习的人来说是一个强大的工具。

Google预测API

Google在两个层面上提供AI服务:针对高级数据科学家的机器学习引擎,和高度自动化的Google预测API。不过,谷歌将在年4月30日停用预测API服务。

即将停用的预测API类似于AmazonML,只有两个很精简的方法,主要用于解决两个问题:分类(二类和多类)和回归。训练好的模型可以通过RESTAPI接口进行部署。

Google并没有公开预测中使用了哪些算法,也不能让工程师自定义模型。Google的环境最适合在紧迫的期限内进行机器学习,并推出初始版本的ML模型。然而这个产品并没有像谷歌所期望的那么受欢迎。

那么接替Google预测API的是什么呢?

Google云端机器学习引擎

预测API的高度自动化是以牺牲灵活性为代价的。GoogleMLEngine正好相反。它适用于经验丰富的数据科学家,非常的灵活,建议大家使用TensorFlow的云基础设施作为机器学习的驱动。GoogleMLEngine大体上与SageMaker相似。

TensorFlow是Google的另一个产品,它是一个开源机器学习库,包含各种数据科学工具,它并不是ML-as-a-service。它没有可视化界面,TensorFlow的学习曲线非常陡峭。但是,这个库也面向想要转向数据科学的软件工程师。TensorFlow非常强大,主要针对深度神经网络的任务。

基本上,TensorFlow和Google云服务结合,构成了三层服务模型,包括了基础架构服务和平台服务解决方案。

用一句话来总结机器学习服务平台:Azure是目前MLaaS市场上拥有功能最多的工具集,它涵盖了大多数与ML相关的任务,为构建自定义模型提供了一个可视化的界面,并且为那些不想深入了解数据科学的人提供了一套可靠的API。但是相较于亚马逊,它仍然缺乏自动化的能力。

Amazon,Microsoft,Google机器学习API的比较

除了成熟的平台之外,还可以使用高级的API。这些都是使用训练好的模型的服务,只需要将数据输入,就可以得到结果。API不需要机器学习的专业知识。目前,这三家厂商的API大致可以分为三类:

文本识别,翻译和文本分析图像+视频识别和相关分析其他,包括某些未分类服务

语音和文本处理API:Amazon

Amazon提供了多个针对文本分析中常见任务的API。这些API是高度自动化的,只需适当的整合就可以工作。

AmazonLex

LexAPI是为了能将聊天机器人嵌入到应用中而设计的,它包含了自动语音识别(ASR)和自然语言处理(NLP)的能力。这些都基于深度学习模型。API可以识别书面文本和语音,Lex接口允许将识别出的结果连接到各种后端解决方案。很显然,亚马逊鼓励使用自家的Lambda云环境。所以在订阅Lex服务之前,最好熟悉一下Lambda云环境。除了独立的应用程序之外,Lex目前也支持在FacebookMessenger,slack和Twilio部署聊天机器人。

AmazonTranscribe

Lex是一个复杂的以聊天机器人为导向的工具,而Transcribe仅应用于语音识别。该工具可以识别多个说话人,同时也能很好的识别低质量的音频,比如电话音频。这些功能使得这个API成为音频归档分类的一个很好的解决方案,也可以进一步为电话呼叫中心的数据文本分析提供支持。

AmazonPolly

Polly服务与Lex相反,它是将文本转换为语音,这能够使聊天机器人通过语音的方式回复,这个API并不会生成文本,只是让文本的发音更接近与人类。如果你曾经使用过Alexa,你就会知道这种声音是什么样的。目前,它支持25种语言的男性和女性的声音,主要是英语和西欧语言。一些语言有多种男性和女性的声音,所以甚至可以有多种选择。与Lex一样,建议将Polly与Lambda一起使用。

AmazonComprehend

Comprehend是另一个NLPAPI集。与Lex和Transcribe不同,它针对不同的文本分析任务而设计。目前,Comprehend支持:

实体提取(识别名字,日期,组织等等)关键短语检测语音识别情感分析(文本是积极,中立,还是消极)主题建模(通过分析关键字定义文本主题)

该服务可以帮助分析社交媒体的回复,评论,以及不适合手动分析的其他大型文本数据,比如Comprehend和Transcribe的组合将有助于分析客服的电话服务。

AmazonTranslate

就像名称所表达的一样,Translate服务是用来翻译文本的。Amazon声称,该服务使用的神经网络,与基于规则的翻译方法相比,能够提供更高的翻译质量。然而,目前版本只支持阿拉伯文、中文、法文、德文、葡萄牙文和西班牙文这六种语言与英文的互译。

语音和文本处理API:MicrosoftAzureCongnitiveServices

与亚马逊一样,微软也提供高级API:CongnitiveServices,可以与你的基础平台集成到一起来完成任务,并不需要任何数据科学的专业知识。

Speech

Speech集包含四个API,针对自然语言识别和一些其他任务使用了不同类型的自然语言处理(NLP)技术:

语音翻译APIBingSpeechAPI:文本和语音之间的互相转换说话人识别:可用于语音验证任务定制化的语音服务,可使用Azure的自然语言处理方法处理自己的数据和模型

Language

微软的LanguageAPI与AmazonComprehend类似,侧重于文本分析:

LanguageUnderstandingIntelligentService是一个分析文本意图,并将之转换为命令的API(例如「运行YouTube」,或者「打开客厅灯」等)用于情感分析和定义主题的文本分析APIBing拼写检查文本翻译APIWeb语言模型API,用于估计单词组合的概率,并实现单词的自动智能补全语言分析API,用于分句,标注词类,并将文本分成标记的短语

语音和本文处理API:Google云服务

虽然这套API与亚马逊、微软Azure的API相似,但也拥有一些独特和有趣的东西。

Dialogflow

现今各种聊天机器人已经成为趋势,Google也提供了一些服务。Dialogflow采用了NLP技术,旨在发现文本中表达的意图,并解释人想要什么。可以使用java,Node.js和Python为API调整和定制功能。

云端自然语言API

这其中的核心功能几乎与Amazon

转载请注明:http://www.0431gb208.com/sjszjzl/4555.html

  • 上一篇文章:
  • 下一篇文章: 没有了