发布日期:2026-03-09 08:23 点击次数:142

一场对于“具身智能”的变革,正在以前所未有的速率席卷而来。
从文本到图像,从二维到三维,东谈主工智能的触角正不断延迟,基于文本和图像处理的开源模子已无法得志具身智能对三维空间感知和动态交互的需求,这使得自主研发底层模子成为行业发展的例必遴荐,而多模态交融则是驱动这场变革的中枢引擎。
机器东谈主不再是冰冷的机械,而是具备感知、意会、交互身手的智能体,它们正以前所未有的速率融入咱们的生存,重塑着产业的领域。而这场变革的中枢驱能源,无疑是多模态技艺的崛起。
本期专访,雷峰网对话了凭空动点董事长兼CEO刘耀东,他们基于对行业痛点的深远意会,自主研发了一套针对3D数据处理的底层模子LYDIA。也因此领有了更大的自主性和率先上风。更值得关切的是,跟着多模态技艺的不断演进,图像识别、动作驱动等技艺之间的交融正在加快,这不仅将推进机器东谈主感知身手的跃迁,也将激发通盘行业的技艺迭代和市集推广。
凭空动点入局空间计较多年,基于在动作捕捉领域的案例累积,公司不仅领有无数、高精度、高质地的动作数据,也在络续产出更多的优质数据,为东谈主形机器东谈主动作历练提供依托。
在与刘耀东的访谈过程中,咱们深入判辨了凭空动点的技艺阶梯、市集计谋,以及对行业将来趋势的研判,看他们技艺奈何落地,奈何惩办行业禁绝,奋发为读者呈现一个更明晰、更全面的产业图景。
以下是媒体与刘耀东的对谈实录,雷峰网在不改变情愿的情况下作念了剪辑和转念:
• 全球范围内,是否有其他公司也在探索空间计较与生成式AI的勾通? 凭空动点在这一领域的竞争上风是什么?
咱们确信,凭借深厚的技艺积淀,咱们在空间计较领域领有显耀的竞争上风。伊始,从技艺储备的广度而言,咱们或为全球唯独一家同期具备光学、无标志以及大模子技艺的空间计较惩办决策提供商。这种跨领域的技艺整称身手,使咱们得以在多个重要技艺维度协同发力,构建起独有的轮廓上风。
其次,在技艺储备的深度方面,咱们亦有超卓进展。以机器东谈主视觉为例,咱们自主研发的双目次像头图像传感器,为硬件性能提供了坚实保险。在算法层面,咱们到手兑现了从传统无标志算法到 SLAM 算法的迭代升级,显耀擢升了定位与建模的精度与成果。此外,在数据累积方面,固然咱们无法确知其他竞争敌手的数据限度,但咱们对自身的数据累积情况了如指掌。恰是基于海量的数据资源,咱们到手历练出了高性能的动作大模子,这充分印证了咱们在数据驱动方面的率先地位,也进一步平稳了咱们在技艺广度和深度上的上风。

第三个上风则源于咱们过往丰富的到手教化。正如大家在视频中所见,咱们曾为多种花式的机器东谈主提供技艺赋能,涵盖了从具备突出身手的机器东谈主到能够精确操作文献的机器东谈主等多种类型。这些实践教化不仅见证了通盘机器东谈主行业的发展历程,更为咱们累积了难得的行业常识和技艺决窍(know-how)。对于技艺公司而言,这种教化储备至关紧迫,它能够匡助咱们更深入地意会行业需求,更快速地惩办技艺禁绝,并推进技艺更正。因此,咱们认为,这些过往的到手教化亦然咱们紧迫的竞争上风之一。
• 新发布的具身智能接洽技艺,与利亚德现存光电业务之间,在协同效应和将来发展方面有哪些后劲?
利亚德集团的业务板块广受关切,其中,智能自满板块专注于各类屏幕的研发与制造,咱们将其定位为居品型公司;文旅夜游板块则侧重于景不雅亮化和业态打造,咱们将其视为超大限度集成劳动商。
凭空动点则专注于AI与空间计较技艺的研发,以往咱们将其界说为技艺型公司,如今,咱们通过将居品、场景与技艺交互精粹勾通,串联起了一个更为雄壮的故事。

将来,若是咱们能够将这些技艺应用于具身智能领域,不管是接纳机器东谈主照旧其他载体,这个模式的逻辑依然竖立,即通过技艺串联起不同的应用场景。此外,就机器东谈主自己而言,我认为利亚德集团在光电自满领域的屏幕技艺,也可能在机器东谈主领域证据紧迫作用。举例,今天展示的这款机器东谈主,其头部就配备了多个屏幕,这大要预示着自满技艺在机器东谈主领域应用的将来趋势。咱们信托,这些技艺协同效应将为集团的合座发展带来新的增长能源。
• 从今天的演讲来看,空间计较技艺贯穿着机器东谈主的领导松手和环境感知等多个层面。这种意会是否准确?空间计较技艺在软件层面的存在,以突出对硬件层面的驱动作用,是否组成了一个完满的技艺闭环?
咱们不错这么意会:空间计较这项技艺,固然从复杂性角度而言并非极其艰深,但其价值却突出独有。
一个直不雅的例子是,当苹果公司发布Vision Pro时,‘空间计较’这个主意才委果进入大家视线。尽管这项技艺的发祥并非苹果,但苹果的哄骗让东谈主们执意到,通过指导头显开拓,咱们似乎不错进入一个数字寰球,并通过手势兑现多样投屏和交互操作。这在一定进度上印证了咱们之前所提到的,空间计较技艺动作一种软件层面的用具,能够将物理寰球的交互与数字寰球贯穿起来。
恰是那时,咱们厚实到空间计较技艺初次兑现了东谈主类实体寰球与数字寰球的委果联通。正如咱们开场视频中所展示的那样,空间计较技艺贯穿着凭空与现实,并促进两者之间的互动。它具备将数字孪生等凭空主意与现实寰球进行双向交互的身手,而这恰是其独有的价值所在。”
从技艺发祥来看,空间计较的主意最早可追溯至2000年代初,是麻省理工学院Simon Greenwold 在其2003 年的论文中引入的一个术语。需要明确的是,空间计较并非一项单一技艺,而是一个主意,近似于‘机灵城市’。
机灵城市并非单一技艺,而是多种技艺的整合。通常,要兑现空间计较,需要实足的算法、算力以及传感器交融等多种技艺的协同。尽管该主意在建议之初就激发了闲居关切,但由于那时的技艺条目尚不熟练,空间计较并未得到闲居应用。
直到频年来,跟着接洽技艺的进步,空间计较才再次进入东谈主们的视线。就全球范围而言,空间计较技艺的发展历程粗犷如斯。而对于利亚德集团来说,咱们早些年一直在进行动作捕捉技艺的研究,随后渐渐演进到空间计较领域。
• 跟着蚁集实验室的竖立,将来该实验室的主要研究场所将聚焦于哪些领域?同期,其具体应用场景又将涵盖哪些方面?”
对于蚁集实验室将来的发展场所,履行上我和姜博士(松延能源独创东谈主、董事长姜哲源)王人已有所说起。伊始,姜博士强调了咱们将共同构建全球最大的高精度数据库,这一数据库将基于咱们绵绵不断产生的机器东谈主历练数据,而非传统的东谈主形数据。这不仅对他们公司自己有价值,对通盘产业而言也具有紧迫真义。正如刚才记者一又友所言,这个数据库并非只劳动于一家公司,一朝变成,它将不错劳动于通盘接洽企业。
其次,咱们将重点关切SLAM(即时定位与舆图构建)算法的研发,这对于擢升机器东谈主的‘眼睛’至关紧迫。面前,机器东谈主厂商在空间感知身手方面主要接纳两种技艺阶梯:机器视觉和红外雷达。咱们更倾向于机器视觉,因为咱们在早期进行动作捕捉时就无数接纳了录像头。因此,咱们将与融合方在SLAM算法方面进行深入融合,并取得更多打破。
以上是短期内两边将效率惩办的问题。从永久来看,咱们的诡计是推进机器东谈主走进家庭。这可能是一个交替渐进的过程,因为家庭环境的容错率相对较低,而B端(企业端)的容错率则相对较高。正如我之前与其他媒体一又友所斟酌的,松延能源公司的愿景是让机器东谈主走进千门万户,成为东谈主们的‘保姆’。。咱们面前正在匡助他们进行泛化历练,即让机器东谈主具备切菜、洗碗、放弃物品等身手。这仍是超越了底层技艺层面,转向了具体的应用型历练。
因此,咱们的蚁集实验室初期将围绕上述两到三个场所张开研究,将来将凭证履行需求进行转念。
• 在遴荐融合伙伴时的方法和要求是什么?更侧重于其业务的履走运作模式,照旧更垂青独创东谈主的个东谈主特点和理念?
一般来说,咱们会从技艺融合伙伴的角度来谈更为合理。
第一,咱们但愿融合伙伴像松延能源(或其他暂未便表露称呼的公司)一样,在机器东谈主本色方面领有熟练的技艺和率先的实力。若是融合伙伴在机器东谈主硬件层面无法惩办实足多的问题,咱们的技艺就无法有用应用,这将豪侈两边的时辰。因此,咱们对融合伙伴的硬件基础有一定的要求。
第二,咱们但愿看到融合伙伴团队合座的技艺决心和实践力王人相比高。正如大家所看到的,咱们团队每年王人会发布技艺进展,包括旧年发布的大模子和本年发布的新址品。大家可能会以为咱们的成果很高,这源于咱们团队成员积极的心态和高效的实践力。因此,咱们但愿融合伙伴在节拍上与咱们保持一致。
第三,咱们但愿融合伙伴与咱们变成互补干系。也便是说,他们的上风领域赶巧是咱们不擅长的,而咱们擅长的领域他们则无需再参加元气心灵。咱们更倾向于遴荐能与咱们变成互补的融合伙伴,这么才能兑现资源的最大化利用。”
• 咱们为何遴荐与融合伙伴进行蚁集开发,而非自行竖立责任室或收购现存机器东谈主公司进行制作机器东谈主?
咱们遴荐融合伙伴模式,而非自行制造机器东谈主,主要基于以下几点考量:
第一,机器东谈主制造自己属于精密制造和高端制造领域,号称全球天花板行业,与汽车制造近似。不管是资金参加照旧技艺累积,咱们面前王人不具备独处制造机器东谈主的身手。若是强行进入,例必会溜达咱们有限的资源和元气心灵。
第二,咱们有明确的计谋定位,即‘不造机器东谈主,而是匡助融合伙伴造更好的机器东谈主’。这与华为‘不造车,而是匡助通盘汽车更智能’的理念相似。咱们不但愿与任何机器东谈主厂商变成竞争干系,而是但愿与通盘厂商融合,咱们接力于成为机器东谈主行业的赋能者,而非竞争者。
此外,还有一个身分促使咱们遴荐融合模式,并让咱们充满情感地参加其中。面前,网上有好多机器东谈主具身智能产业链图谱,详备列出了机器东谈主各个零部件的成本占比,举例丝杠、电机、轴承等。证券类媒体甚而会据此计较机器东谈主的毛利率。但我念念强调的是,这些硬件决定了机器东谈主身手的下限,即机器东谈主无法作念到什么。但是,机器东谈主身手的上限,举例通过算法让动作精度擢升0.1度所带来的价值,却很少被计较或喜爱。咱们认为,数据和算法是决定机器东谈主价值的重要身分,但面前尚未被老本和媒体充分厚实。咱们的价值和上风在于此,而这也将是机器东谈主委果进入产业链后所能体现的价值所在。固然硬件的反抗打身手和电机的承载身手也很紧迫,但这些王人是显性的。咱们更关切隐性的数据和算法价值,并但愿将其最大化。
• 若是要达到‘让机器东谈主进入千门万户,成为家庭助手’这一诡计节点,从现时建造数据库的时辰点来看,您认为咱们需要些许年的数据累积才能兑现这一诡计?
在探讨数据累积时辰之前,伊始需要明确数据库的限度。若是咱们以现时咱们所领有的数据库为基准,咱们有信心认为,面前咱们可能处于全球前三的率先地位。
其次,对于奈何界说动作数据,这自己便是一个复杂的问题。与文本或图像数据不同,动作数据的忖度方法并不解确。举例,(NLP)的数据量不错测量为单词数目,图像数据不错测量为像素数目和帧数,王人有明确的单元和方法。但对于动作数据,举例‘提起水瓶’这个动作,咱们应该奈何忖度?是测量骨重要角度、肌肉长度,照旧时辰帧率?每个东谈主的动作模式王人可能不同,这使得动作数据的复杂性远高于文本或图像数据。因此,动作数据的累积和界说,远比文生图的数据处理要复杂得多。
• 在东谈主形机器东谈主中,光学和算法的紧迫性体当今哪些方面?以及利亚德在这些重要算法领域,相较于同业业竞争敌手,具备哪些竞争上风?
针对机器东谈主领域,咱们提供的算法主要分为两大类别。第一类,咱们称之为‘空间感知’算法。这类算法通过录像头等传感器获得环境信息,使机器东谈主能够从视觉层面意会其所处的环境。在视觉意会的基础上,算法进一步处理图像,构建出三维空间模子。这其中,算法需要意会物体之间的干系,举例,细则机器东谈主与诡计物体之间的距离。
第二类算法,则专注于松手机器东谈主的肢体领导,并守护动作的厚实性。这类算法与机器东谈主本色的松手算法精粹耦合,举例,守护机器东谈主重点的算法。不同算法之间会产生协同作用。因此,咱们面前的中枢价值体当今两个方面:一是通过空间感知算法,兑现对环境的意会、判断和决策过程;二是通过肢体松手算法,兑现动作的遴荐、实践和保持过程。这两大类算法组成了咱们为机器东谈主领域提供的中枢惩办决策。
• 东谈主形机器东谈主在履行应用中,是否会面对场景适配的问题?也便是说,是否需要针对不同的应用场景进行定制化的转念?
对于东谈主形机器东谈主算法的泛化身手,我认为经过实足的数据历练、算法优化,并达到一定的量级之后,其泛化身手将显耀擢升,最终兑现跨场景的通用性。正如某位外洋众人所言,理念念现象是每个东谈主身边王人有一位机器东谈主助手,能够胜任多样场景下的任务,近似于智能体助手。
但是,面前全球范围内,大多数厂商王人采用了先聚焦特定场景的策略,在惩办特定场景下的问题后,再渐渐扩展至其他场景。这种模式在行业内广宽存在,即先深耕某个具体行业,待在该行业累积实足教化后再扩展至其他行业。举例,松延能源的诡计是径直进入家庭场景,但咱们认为,这仍然需要一个交替渐进的旅途,即先基于特定的行业场景,累积教化,再渐渐泛化到千门万户的多样工业和生存场景,这是一个例必的发展过程。
• 基于咱们与融合公司的斟酌,他们但愿东谈主形机器东谈主能够承担保姆等家庭劳动职责。那么,在传统的机器东谈主研发框架下,咱们的空间计较技艺在机器东谈主与环境及东谈主的交互方面,能够带来哪些更正和改变呢?
肤浅来说,咱们的价值体当今两个方面:一是环境感知和距离判断,二是交互松手和动作诡计。
正如咱们之前所斟酌的,中枢在于赋予机器东谈主感知空间并自主判断的身手。举例,在实验室中,咱们进行了以下实验:当领导机器东谈主寻找钥匙时,它伊始需要意会“钥匙”的主意。然后,通过图像网罗,机器东谈主需要在环境中定位钥匙的位置。在识别钥匙并定位后,机器东谈主需要诡计一系列行动,举例,奈何避让禁绝物到达诡计位置。接下来,机器东谈主需要细则采用何种交互面貌,举例,松手大臂、小臂、手部等重要,以及最终接纳何种结尾实践器(夹爪或灵巧手)来抓取钥匙。终末,机器东谈主还需要诡计奈何将钥匙带回。
这一完满的经由,体现了咱们的中枢价值。伊始,机器东谈主需要感知环境并判断诡计距离;其次,当需要进行交互时,机器东谈主需要松手自身的手部动作,并决定是否接纳类东谈主动作或机器东谈主动作,同期保持动作的机动性。这些过程王人体现了咱们的技艺上风。
• 咱们的动作大模子是否基于通用大模子进行调优?若是是,咱们主要接纳哪些通用大模子动作基座模子?在机器视觉技艺与视觉意会、视频生成等通用大模子之间,是否存在联动或化学响应?这种联动是否会扩大市集需求?
咱们确乎参考过开源模子,但并非全王人基于任何一家公司的底座。咱们在模仿和参考的基础上,融入了咱们自身的意会和更正。面前市面上公开的开源模子,主要侧重于文本和图像处理,缺少对3D数据处理的辅助。径直照搬这些模子,反而会干与咱们对三维信息的处理。因此,咱们遴荐了自主研发的阶梯。
在具身智能领域,图像识别、动作驱动以突出他接洽技艺例必存在杂乱。举例,Sora升级版体现了对图像意会和计较身手的显耀擢升,这无疑将极地面匡助机器视觉技艺进行物体判断,以寻找钥匙为例,当年机器东谈主需要破坏较永劫辰(可能3秒阁下)来判断钥匙的位置和界说。但跟着近似大模子技艺的出现,这一过程可能造谣到0.3秒,极地面擢升了成果。这种成果的擢升,加快了不同技艺之间的交融。
此外,现时大模子背后的数学公式与逻辑存在一定的关联性。若是OpenAI等公司的大模子升级,国内如盘古、阿里、腾讯以及国际LLAMA、谷歌等系列的大模子也会快速迭代,这些大模子的迭代,反过来会促进咱们在动作模子上的迭代。
因此,咱们认为技艺之间存在杂乱,技艺底层的数学逻辑也存在杂乱,这将推进技艺的不断迭代和擢升。
结语:
在此次专访中,咱们看到了凭空动点在机器东谈主感知领域的前瞻性布局和技艺实力,他们不仅在技艺上不断打破,更将眼神投向了更开阔的应用场景。从“多模态”到“具身”,咱们看到的是一场从感知到认识的跃迁,而这背后,是无数技艺东谈主对未下寰球的执着探索。
凭空动点无疑为行业提供了一个紧迫的参考样本。他们莫得遴荐肤浅的“拿来宗旨”,而是遴荐了更具挑战性的自研谈路,这不仅需要勇气,更需要对行业趋势的深远瞻念察。这大要也预示着,将来的竞争,将不再只是是技艺自己的较量,更是对行业意会、痛点主理和更正身手的轮廓比拼。
天然,具身智能的发展依然面对诸多挑战,从技艺到买卖化,从应用场景到伦理圭表,还有很长的路要走。但咱们信托,跟着技艺的不断熟练和生态的日益完善,具身智能必将开释出巨大的后劲,深远地改变咱们的生存和责任面貌。
这场变革才刚刚运行,而咱们正身处其中。将来,咱们还将络续关切具身智能领域的最新进展。