星空体育平台官网入口 寻找智能飞轮:从数据枯竭到多模态再到自生成

飞轮汽车零部件制造公司_汽车飞轮_飞轮汽车配件有限责任公司

前面我们提到AlphaGo是基于数据飞轮的,已经达到了前所未有的人工智能水平。它利用自己生成的数据来训练自己,并迅速达到围棋领域的高点,远远超过人类。但事实上,用数据飞轮来描述这个过程有点过于笼统了。数据飞轮是智能飞轮的一部分。我的一个从事人工智能算法工作的朋友经常形容自己的工作是一名大炼金师。按照这个比喻,什么是智能飞轮?基本上就是九转金丹的配方(算法)、炉子(算力)和材料(数据飞轮)的结合体。得到之后,有很大概率炼制出九变金丹,吃了之后,基本上就会立刻成仙。那么到底什么是智能飞轮呢?关键影响因素有哪些?新型智能飞轮更容易出现在哪些领域?

智能飞轮

汽车飞轮_飞轮汽车配件有限责任公司_飞轮汽车零部件制造公司

(AlphaGo的数据飞轮)

从纯粹的技术角度来看,智能飞轮与人们常提到的算力、算法、数据三要素有关。 (比技术更关键的是领域。参见:这里就不重复了。)算力基本靠资本,算法靠团队,数据更复杂。这不仅仅需要钱。

从智能飞轮的角度来看,算力确实是一座炼金炉。该算法确定轮子有多大或轮子类型。数据飞轮决定智能飞轮能否转动。比如AlphaGo已经开始旋转,但仅限于围棋; chatGPT 尚未开始旋转。如果那样的话,整个世界都会被翻过来,因为它的轮子太大了,涵盖了世界太多的方面。

算力算法其实和过去的其他业务场景是类似的。人工智能与其他人工智能的核心区别在于数据。坏消息是,由于生产和消费之间的不平衡,数据可能会很快枯竭。

如果我们把模型训练看成消费端,把人和物的一切行为看成生产端,那么消费的速度显然大于生成的速度。数十年积累的数据可以在几次培训课程中消耗掉。

飞轮汽车零部件制造公司_汽车飞轮_飞轮汽车配件有限责任公司

数据的产生并不像想象的那么容易。

有效数据从哪里来?

并非所有数据都对模型有用。比如我们训练小艾这样的唤醒词,如果你的数据量很大,但是都是铁岭人的,那么无论有多少数据,训练结果在广东肯定效果不好。

因此,数据首先要有效,其次才是海量。

对于人工智能背景下的数据,从形而上学和哲学的角度可能更容易抓住关键。

假设我们有一个“原始”世界。原始世界里只有本质,比如圆的周长、面积、原点等之间的规律关系。我们的现实世界其实就是本质的各种表现形式(希腊圣贤称之为:苍白复制品)。

如今星空体育app下载入口,大型模型利用大量真实数据来逆向逼近本质和原始世界。此时获得的真实表达类型越齐全,逼近距离无疑会越近。例如,给出的爬行动物类型越多,每种类型的特征越丰富,模型就越能找到爬行动物的本质部分并将其包含在内。仅提供一只鳄鱼或全部鳄鱼都很难接近爬行动物的本质。

汽车飞轮_飞轮汽车零部件制造公司_飞轮汽车配件有限责任公司

挑战在于大多数时候我们不知道它是爬行动物

这是智能飞轮面临的最大挑战。你可以花钱把过去的数据整理出来,交给模型。问题是接下来怎么办?

对于上面爬行动物的例子,如果后面的增量大部分是鳄鱼,它们就会和过去重叠。重叠对于近似自然没有多大帮助。如果帮助小了,智能就得不到提升,自然也就没有智能飞轮了。 (总是给鳄鱼会导致它不像鳄鱼,不是爬行动物的结果)

算法不能解决这个问题。

新算法更有可能放大轮子的尺寸或结构,这对于让它飞起来并没有太大帮助。它对构建更好的应用程序有很大帮助。

那么我们到哪里才能找到这种有助于接近本质和真实本质的多样化数据呢?

现在只有两个办法:一是加大征集范围和力度,也就是说要等待现实生产,但要更加完整;二是加大征集规模和力度。另一种是自生。让人工智能产生的数据助力人工智能的进化。前者对应的是多模态,而后者首先是领域本身的特征。

多模态能解决问题吗?

2010年左右开始的人工智能浪潮是从多模态开始的。虽然不同的创业者往往从不同的维度入手,但最大的两个分支:视觉和语音,依赖于声、光、电、热、磁等几个关键的感知维度。声音和光。需要补充的是,声音不仅仅是普通的识别,还包括声纹、噪音检测、故障检测等。光不仅是人脸识别,还可以利用红外来检查物品的质量和问题,深度相机可以用于感知三维场景。等待。

传感器的低成本和更高的精度是多模态的基础。

多模态肯定可以解决数据的定量问题,但不能解决定性问题。

从数量上来说,每天只需一定数量的摄像头就能获取大量的信息。

但从质量上来说,部署不同维度的传感器就有多少维度的信息。如果你真的想获得这些信息,单靠自己的话,就需要慢慢部署和积累。依靠合作比较困难,因为数据交易和流通本身就很难,所有权、使用权也很难。没有把握。因此,多模态可以帮助慢慢解决长轴上的问题,但注定需要非常大的成本和时间,而且无法辅助启动智能飞轮。

这与大排量汽车配备小供油管非常相似。无论多么努力地供应燃料,都不够。

数据可以自己生成吗?

自我生成的数据存在一个悖论。

如果元稹和精华配合全套规则生成数据,精华的表达就足够了。这样,你产生的数据就会是多样的、有意义的,这对智能飞轮肯定有帮助。但如果规则是局部的,就会产生大量的重复数据,相当于原始类别中的垃圾数据。从他们那里只能返回部分规则和本质。

这时,问题的关键就变成了去哪里寻找一种随机性,并且这种随机性的结果在现场或者特定的范围内是真实的。如果你创建一些爬行动物的数据,它必须和蛇或者其他东西一样,包括恐龙,否则就会污染爬行动物的概念。

从这个角度看待大型模型的幻觉是有启发性的,提供了原始的可能性。但这种错觉对于构建虚拟世界很有用,但对于现实问题却无用。如果让它产生幻觉,可能会有一个智能飞轮,但没有人知道它会飞到哪里。

汽车飞轮_飞轮汽车配件有限责任公司_飞轮汽车零部件制造公司

(这种虚幻的缺点在数据生成情况下可能不是真正的缺点)

那么AlphaGo为何如此优秀呢?

因为AlphaGo的规则是明确的,任何符合围棋规则的尝试都是真理的一部分。这时,“幻象”其实有助于穷尽可能性。

从这里我们可以总结出数据自生成的关键:“幻觉”+规则。为了实现目标,当然最终还有目标的反馈,比如成功或失败。幻觉加规则可以快速产生结果并提供结果的快速反馈,这对于数据生成非常关键。

下一个AlphaGo在哪里?

那么有没有其他领域符合这个特点,可以像AlphaGo一样激活智能飞轮呢?

从前面的描述我们可以发现,这个领域的特点是前端加载,但与算法和数据的现状关系不大。

满足这个特性,就意味着更有可能快速炼制出九变金丹。

除了游戏之外,我立刻想到的就是编程。

编译器等确保编程规则足够清晰,使其几乎不可能。

在很多场景下,测试驱动开发可以用来定义最终结果是否正确。

过去的数据量足以点燃第一把火。性能、稳定性等非功能指标也可以定量测量。

编程的难点在于,当一个新领域到来时,必须能够将这种模糊性的需求描述成一个可衡量的数值目标。这样,软件产品就会成为一个是非明确的系统。在这种情况下,各种内部构造可以完成模型。

如果这是真的,那么程序员行业肯定会面临巨大的变革。

这并不是说这个职业会被淘汰,而是工作的内涵将与过去有很大不同。

医疗救治情况如何?虽然本账号的很多读者都会关注这个领域,但遗憾的是,医疗并不是一个有智能飞轮的领域。需要的是通过算法等进步一点一点的推动。 (这并不是说人工智能不会帮助它。类似沃森的系统肯定不会出现。)

由于疾病本身并不十分清楚,“幻想”和规则无法产生有效的数据。根据这样的模拟数据做一个模型,然后指导真人去治疗病人,然后在反馈中进行修正,这是不可靠的。光谱。反馈的成本也太高了。也许人类都死了,还不足以验证幻象。

企业运营管理状况如何?这有部分可能。

这似乎有点矛盾。理论上,医院也是一种企业。为什么医院做不到,企业却可以?

因为企业内部存在很大差异,既有封闭的系统,也有开放的复杂系统。

企业中的场景和任务实际上是在封闭和开放之间连续的。例如,总是有诸如送货员和首席执行官之类的工作。前者是封闭式的,后者是开放式的。那么,不同企业不同工种的比例是不同的。例如,工厂或清洁公司可能更加封闭,而大学可能更加开放。

该比率决定了组织的性质。

这导致在很多接近封闭场景的情况下都可以找到最优解。关键是要明确边界。推到极端的话,其实和Go是一样的。例如,即使你不使用大规模物流模型来寻找最优配送,你仍然可以使用算法来解决它(求解器),因为它有明确的边界。

最后想说的是,自反性明显的领域会比较困难,比如股票交易。从理论上讲,股票与游戏非常相似。数据非常充足,获取数据并不困难。符合规则的结果立即得到反馈。但股市的反射性是如此明显,以至于它几乎没有规则。这种情况下,AlphaGo意义上的智能飞轮就没用了,需要换一个视角和方法。

概括

结论是,智能飞轮的存在是一个领域特征,与计算能力和算法关系不大。如果字段不对,飞轮就没有数据。没有数据飞轮的时候,适合傻打,通过多模态融合逐步积累。这也意味着星空体育app官方下载,那些在长尾曲线中具有智能飞轮效应的,对应我们在XX中提到的系统型超级应用,将会跑在前面。对于纯大型模型的开发者星空综合体育app下载,他们负责主导;对于系统型超级应用的开发者来说,核心是找到智能飞轮的区域并相应地部署策略;对于长尾曲线上的应用,快速输出是更适合的体验。人工智能的未来格局越来越清晰。

本文来自微信公众号,作者:老李花一三,36氪经授权发布。

关键词:

客户评论

我要评论