字幕组双语原文:生成模型和判定模型的内部指南

翻译:AI研习社(季一帆)

雷锋字幕组是一个由 AI 爱好者组成的翻译团队,汇聚五百多位志愿者的力量,分享最新的海外AI资讯,交流关于人工智能技术领域的行业变革与技术创新的见解。

福州市卫生健康委员会称,隔离期间,周某出现相关临床症状,综合流行病学史、临床症状、实验室检测和影像学检查等,诊断为境外输入新冠肺炎确诊病例。目前,该病例已在福州肺科医院隔离治疗。

GAN生成对抗网络(GAN)同时训练生成器和判别器,具体而言,生成器生成一批样本,这些样本与真实数据集一起提供给判别器进行分类。

当天,福建中考开考。为确保考生顺利参加这场被疫情推迟的中考,福建教育主管部门要求考生提交健康申明卡及安全考试承诺书,并接受“八闽健康码”核验;属于需要做核酸检测的,应按时进行核酸检测;无法提供核酸检测阴性报告单(证明)的,将安排在备用隔离考场参加考试。

哪种模型需要较少的训练数据?1 哪种模型能够生成数据?2 什么时候使用某类模型? 哪种模型对异常值更敏感?2 哪种模型容易过拟合?1 哪种模型训练时间短?1 哪种模型直接学习条件概率?1 在不确定情况下,哪种模型更好?2 当特征存在关联时,哪种模型更好?2 哪种模型具有更好的可解释性?2 分类问题中,哪种模型准确率高?1 对于未标注数据使用哪种模型?2 如果是标注数据哪种模型更好?1 哪种模型简单,训练速度更快?1

它缺乏先验性,结构性和不确定性 黑盒子,变量之间的关系无法观测

福建现正进一步统筹推进常态化疫情防控和经济社会发展。在日前召开的福建省委常委会会议上,官方明确强调要持续加强境外入闽人员健康管理,做好中考期间疫情防控工作,统筹做好其他传染病防控。

如果在访问宠物商店之前,他们没有任何信息呢?也就是说只提供未标注的数据。这种情况下,Mark完全不知道该怎么做,Tony也判别不出什么(因为他不知道“猫”“狗”这两个类别),但至少Tony可以根据看到的猫和狗去画图,这难道不是巨大的优势吗?半监督就是如此。

在本文中,我们将讨论生成模型和判别模型之间的差异、形成原因及相关内容。

例如对于条件预测任务,判别模型表现显著优于生成模型,同时具有更好的正则性。

生成式模型所需的数据一般要比判别式模型更少。

给Mark两张照片,一张是猫,一张是狗,Mark要做出判断。他想到可以根以下条件进行判断:如果叫声是“喵喵”、眼睛是蓝色或绿色、具有褐色或黑色的条纹,则大概率会是猫。根据这样的简单规则,Mark可以容易的识别出猫或狗。

在常态化疫情防控下,福建深入实施产业增产增效行动和新一轮龙头企业行动,对有市场需求和竞争力的企业加强土地、资金、人才等要素支持,持续帮扶困难企业,加大力度扩大有效投资、提振消费、稳住外资外贸,加强重要民生保障。(完)

机器学习模型一般分为生成式和判别式两类,其中,生成式模型主要涉及建模操作,判别式模型一般用于分类问题。一般而言,生成式模型更具有解释力。

Mark的判断方法就是认真的观察,总结能够区分的特征,但过多的复杂特征会导致过拟合,但Tony不会遇到这种情况。

生成式机器学习则是通过训练学习使联合概率P(X,Y)最大化的模型参数。通常可以由P(Y)和P(X | Y)得到联合概率,当前前提是P(Y)和P(X | Y)条件独立。

在这种情况下,生成模型可能非常适合,而使用判别模型的化则会使问题复杂化,反之亦然。

假设只有猫狗两种宠物。如果一张图片上是蓝眼睛、棕色条纹的狗,那么Mark可能会将其标记为猫,但Tony可以判断出图片中一定是狗。

分类有时被称为判别模型,这有一定道理,毕竟分类模型就是要到输入实例的类别进行判断。

由于生成模型能够总结数据分布,因此可以根据输入变量分布生成新变量。

为更好的理解,试着以下几个问题:(1 判别式;2 生成式)

由福州市报告的该例新增境外输入确证病例,为50岁男子周某,中国住址为山西省忻州市。他7月9日乘美国联合航空公司航班UA79从纽约至东京,7月10日乘厦航航班MF810从东京至福州,抵达福州后,按规定进行隔离医学观察。

判别式机器学习在可能的输出选择中确定输出。该过程根据给定的数据进行训练,从而学习模型参数,以最大化联合概率P(X,Y)。

判别式机器学习训练模型在可能的输出选项中选择正确输出,通过训练学习使条件概率P(Y | X)最大化的模型参数。

模型并不是越大越好、参数越多越好。更新更多参数意味着更长的训练时间、内存和计算量。一般而言,判别式模型有更好的正则性。

如果Tony对猫和狗的特征了解的更多,他能够绘制出更详细准确的图画。但是,如果提供足够多的猫狗数据集,那么Mark会表现得更好。

无监督模型一般会对输入变量的分布进行学习,并能够根据输入分布创建或生成新的实例,类似这样的模型称为生成式模型。

至此,福建省累计报告境外输入确诊病例68例,其中已治愈出院66例,目前住院2例,无死亡病例;现有报告境外输入无症状感染者尚在接受集中隔离医学观察9例;现有报告境外输入疑似病例和本地疫情保持“清0”;尚有190名密切接触者正在接受医学观察。

对于变量分布已知的情况,如高斯分布。

在上述例子中,Mark就是判别式方法,而Tony代表生成式方法。

团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。

逻辑回归 随机森林 支持向量机 经典神经网络 最近邻

看这样一个例子:有Tony和Mark两个小朋友,他们要在宠物商店中分辨出小猫和小狗。对于宠物,我们假定它们包含颜色、大小、眼睛颜色、毛发长短和叫声等特征。

雷锋网版权文章,。详情见转载须知。

隐马尔科夫模型 朴素贝叶斯 贝叶斯网络 混合高斯模型

再看另一个例子,将语音分类为语言模型。

判别式方法重点在区别语言模型间的差异。无需学习语言就可实现语音分类。而生成式方法需要学习每种语言,根据学习到的知识进行分类。

Tony的任务可没这么简单。不是要他判断图片中是猫还是狗,而是要在两张白纸上画出猫和狗的样子。Tony能够画出猫和狗的样子,那么给他展示图片,他也很容易的区分出图中是猫还是狗。可以看到,相比Mark的方法,Tony的方法更加耗时。

如果,你也是位热爱分享的AI爱好者。欢迎与雷锋字幕组一起,学习新知,分享成长。

Next Post

加速布局中国市场外资私募总数已达30家

周三 4月 14 , 2021
进入9月以来,外资继续快马加鞭布局中国市场。9月2 […]