学 AR 到底学什么？我的 AR 之路反思与展望

“谁是我们的敌人？谁是我们的朋友？这个问题是革命的首要问题。”

反思

做为一个写了很多文章，一直在鼓吹 AR 的AR 神棍，我对 AR 的兴趣开始于 2015 年，那时刚入门 iOS 开发一年左右，正是 AR/VR 又一次火起来的时候，当时苹果也还没有拿出 ARKit，只好先学开发基础知识和 SceneKit。

从 ARKit 推出后，我就利用业余时间不停学习这个框架，并尝试写一些 Demo 和基础文章，学习相关数学基础，整整三年从 ARKit 1 跟着学到了 ARKit 3。

在这四五年里，看到了 AR/VR 行业经历了一个完整的泡沫周期：概念普及 --> 引人瞩目 --> 期望过高骗子横行 --> 热情下降 --> 无人问津。

到 2020 年中，虽然 AR 仍然没有火起来，但我已经在移动 AR 行业完整工作一年了，开发了 10 多个大大小小的 Demo 和几个完整的 AR 产品，对 iOS 平台的 ARKit 比较熟悉，对苹果新推出的 RealityKit 及 Unity 平台的 ARFoundation 也有一定了解。

但是，即使我在 AR 方面付出了这么多努力，有了不少经验，我却从没有认真深入思考过革命的首要问题：AR 到底需要学什么？用 AR 又该做什么？

AR 基本流程

要搞明白这些问题，就必须先来梳理一下 AR 的基本流程：

即时定位与地图映射（SimultaneousLocalizationAndMapping，SLAM）：依靠 VIO+IMU+CV+TOF 等技术，实现特征点提取，场景重建，平面识别，图片识别等功能；
场景感知和识别：依靠 CV 、ML 等技术，识别不同场景和其中的物体，比如 ARKit 已经能够识别桌子、椅子、墙面、天花板、人体等；
叠加 3D 图像和声音：依靠 3D 渲染技术，将虚拟的画面和声音，叠加在的场景中或者已识别的物体上。比如 ARKit 依赖于 SceneKit 提供渲染，而 Unity 则自己提供渲染（追踪和识别依然是对 ARKit 和 ARCore 的封装）；
多人协作与分享：依靠 GPS + 特征点 + 网络等技术，如苹果的MultipeerConnectivity + CollaborativeSession + WorldMap共享，2020年LocationAnchor，以及谷歌的云锚点等，实现多人共享 AR 效果。

能够同时把这些都做好，才是一个很完善的 AR 应用。至少，也要做好这四项中的两项，而不是目前很多只是将原来的 3D 内容简单改为 AR 形式。

考虑到第一项 SLAM 其实是 AR 平台或硬件提供的功能，实际上大部分 AR 应用只要做好后面三项中的两项，就是一个很棒的 AR APP 了。

AR 产品的方向

我心目中对于 AR 产品有几个经典例子：三维建模软件shapr 3D，身体解剖软件Complete Anatomy，和沙雕风格的らくがきAR（RakugakiAR）(即涂鸦 AR)

下面是shapr 3D的演示 Demo，直接用 LiDar 扫瞄房间，生成房间和家具的三维图纸，编辑后，再以 AR 方式预览：

身体解剖软件Complete Anatomy则将动作捕捉和人体解剖模型关联起来，让人更清楚看到人体的动作状态：

涂鸦 AR识别平面图形，将其变成 3D 物体，并以 AR 方式展现：

这几个 app 都做到了利用 CV+ML 来识别并提取场景中物体信息，并提供了有创意的或强大的 3D 渲染技术，来展现 AR 效果，这也是它们成功的原因。

当然，也可以类似Pokémon Go那样，依靠 GPS+3D 渲染，来制作多人 LBS 类 app。

“谁是我们的敌人？谁是我们的朋友？这个问题是革命的首要问题。”

反思

在这四五年里，看到了 AR/VR 行业经历了一个完整的泡沫周期：概念普及 --> 引人瞩目 --> 期望过高骗子横行 --> 热情下降 --> 无人问津。

AR 基本流程

要搞明白这些问题，就必须先来梳理一下 AR 的基本流程：

即时定位与地图映射（SimultaneousLocalizationAndMapping，SLAM）：依靠 VIO+IMU+CV+TOF 等技术，实现特征点提取，场景重建，平面识别，图片识别等功能；
场景感知和识别：依靠 CV 、ML 等技术，识别不同场景和其中的物体，比如 ARKit 已经能够识别桌子、椅子、墙面、天花板、人体等；
叠加 3D 图像和声音：依靠 3D 渲染技术，将虚拟的画面和声音，叠加在的场景中或者已识别的物体上。比如 ARKit 依赖于 SceneKit 提供渲染，而 Unity 则自己提供渲染（追踪和识别依然是对 ARKit 和 ARCore 的封装）；
多人协作与分享：依靠 GPS + 特征点 + 网络等技术，如苹果的MultipeerConnectivity + CollaborativeSession + WorldMap共享，2020年LocationAnchor，以及谷歌的云锚点等，实现多人共享 AR 效果。

能够同时把这些都做好，才是一个很完善的 AR 应用。至少，也要做好这四项中的两项，而不是目前很多只是将原来的 3D 内容简单改为 AR 形式。

考虑到第一项 SLAM 其实是 AR 平台或硬件提供的功能，实际上大部分 AR 应用只要做好后面三项中的两项，就是一个很棒的 AR APP 了。

AR 产品的方向

我心目中对于 AR 产品有几个经典例子：三维建模软件shapr 3D，身体解剖软件Complete Anatomy，和沙雕风格的らくがきAR（RakugakiAR）(即涂鸦 AR)

这几个 app 都做到了利用 CV+ML 来识别并提取场景中物体信息，并提供了有创意的或强大的 3D 渲染技术，来展现 AR 效果，这也是它们成功的原因。

当然，也可以类似Pokémon Go那样，依靠 GPS+3D 渲染，来制作多人 LBS 类 app。

“谁是我们的敌人？谁是我们的朋友？这个问题是革命的首要问题。”

反思

在这四五年里，看到了 AR/VR 行业经历了一个完整的泡沫周期：概念普及 --> 引人瞩目 --> 期望过高骗子横行 --> 热情下降 --> 无人问津。

AR 基本流程

要搞明白这些问题，就必须先来梳理一下 AR 的基本流程：

即时定位与地图映射（SimultaneousLocalizationAndMapping，SLAM）：依靠 VIO+IMU+CV+TOF 等技术，实现特征点提取，场景重建，平面识别，图片识别等功能；
场景感知和识别：依靠 CV 、ML 等技术，识别不同场景和其中的物体，比如 ARKit 已经能够识别桌子、椅子、墙面、天花板、人体等；
叠加 3D 图像和声音：依靠 3D 渲染技术，将虚拟的画面和声音，叠加在的场景中或者已识别的物体上。比如 ARKit 依赖于 SceneKit 提供渲染，而 Unity 则自己提供渲染（追踪和识别依然是对 ARKit 和 ARCore 的封装）；
多人协作与分享：依靠 GPS + 特征点 + 网络等技术，如苹果的MultipeerConnectivity + CollaborativeSession + WorldMap共享，2020年LocationAnchor，以及谷歌的云锚点等，实现多人共享 AR 效果。

能够同时把这些都做好，才是一个很完善的 AR 应用。至少，也要做好这四项中的两项，而不是目前很多只是将原来的 3D 内容简单改为 AR 形式。

考虑到第一项 SLAM 其实是 AR 平台或硬件提供的功能，实际上大部分 AR 应用只要做好后面三项中的两项，就是一个很棒的 AR APP 了。

AR 产品的方向

我心目中对于 AR 产品有几个经典例子：三维建模软件shapr 3D，身体解剖软件Complete Anatomy，和沙雕风格的らくがきAR（RakugakiAR）(即涂鸦 AR)

这几个 app 都做到了利用 CV+ML 来识别并提取场景中物体信息，并提供了有创意的或强大的 3D 渲染技术，来展现 AR 效果，这也是它们成功的原因。

当然，也可以类似Pokémon Go那样，依靠 GPS+3D 渲染，来制作多人 LBS 类 app。

剩余50%的内容订阅专栏后可查看

小专栏是一个专业人士的创作知识社区，在这里您可以看到各个领域最专业的专栏和观点。

邮箱登录

邮箱注册

反思

AR 基本流程

AR 产品的方向

反思

AR 基本流程

AR 产品的方向

反思

AR 基本流程

AR 产品的方向