你的工作学习AI助手:通义听悟,如何通过AI能力颠覆其他产品?

Super黄
1 评论 5345 浏览 21 收藏 29 分钟

在工作中,不少职场人都需要借助一定的软件来提高工作效率,比如结合通义听悟或飞书妙记的语音转文字功能,来辅助业务的进行。这篇文章里,作者就对通义听悟这款产品进行了拆解分析,不妨来看一下。

过去我是飞书妙记的重度用户,现在我几乎完全放弃它。

只是因为新产品的出现:通义听悟!

它将语音转文字的操作一键完成,转换准确率大幅提升,支持多种导出格式,更重要的是还具备强大的AI分析能力,实现智能提炼、总结等功能。

想象一下,复杂的工作可以被简化,重复的劳动可以被自动化,难以获取的价值可以被发掘。

下面让我带你一起,重新感受AI的力量 : )

Take Away:

  • 通义听悟如何利用AI能力,改善语音转文字的使用体验?
  • 通义听悟相较其他产品的独特优势在哪里?
  • 它的产品演化路径是怎样的?
  • 它的产品主体框架是什么?
  • 通义听悟可能的商业模式和发展前景?
  • 通义听悟产品迭代的几点建议

一、通义听悟Super已经重度使用了!

给大家看我的界面:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

很多音频文件我都是用通义听悟来处理,有哪些场景会用到呢?给大家说说几个典型的例子啊:

1. 听播客

我们现在时间有限,很多优秀的播客内容又想听,那怎么办呢?可以使用下面的方法来把音频文件导出来,丢给通义听悟,转成文字版本,还带有总结呢,方便多了:

将小宇宙的单集节目分享到微信里;

再用电脑浏览器打开单集节目的链接;

在播放按钮上右键,选择检查;

在右侧的源代码界面,找到Audio Src=“xxx”;

双击复制,打开一个新窗口,粘贴后打开该链接;

在播放器下面的三个小点按钮那点击一下,选择下载;

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

把这个mp3丢给通义听悟,几分钟,就可以开始看文字了。

2. 前采总结

我做访谈节目,有些会有个前采环节,相当于预先的采访,这里会产生2-3小时的对话内容,我习惯说把过程录音下来,然后回来丢给通义听悟,基于转文字之后,来做提炼总结。

甚至更进一步,我会把访谈内容导出成word,丢给Claude,请它来总结嘉宾的成长经历:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

以及给出对应的访谈提纲:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

这样能非常快速地帮助我们提炼内容,并且我们可以根据最后的内容做调整和修改。

有关我是如何用Claude来提高效率的,大家可以等我下一篇文章。

3. 视频&播客剪辑配合

因为每一期播客音频的时长会在2个小时以上,需要剪辑成40-50分钟的内容,就需要对着文字来做删减,我会先把视频里面的音频提取出来,丢给通义听悟,然后对着里面的文字做标注,方便回头用Audition来做删减:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

文字上标注蓝色的,是我会保留的内容,其他的会删掉。

这样在Audition操作的时候,就可以对照着看,快速的找到时间点做处理了。

4. 播客高亮和Shownotes提取

我做播客,习惯把一些精彩的对话片段放在音频一开头,吸引到听众。

怎么做呢?

通义听悟有一个功能叫实验室,里面会提取出一些值得关注的内容,根据我的几次测试,里面推荐的文字,不少确实是整段对话中的精彩片段!这就很省事了!

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

除此之外呢,通义听悟还有章节速览的功能,对于辅助我做好Shownotes颇有帮助,可以借助来快速找到对应的内容段落:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

二、为什么通义听悟可以取代飞书妙记

在是用通义听悟之前,我一直在用飞书妙记,飞书妙记的核心功能,也是视频/语音转文字,但我现在只会在需要分享给嘉宾的时候,才会回到飞书妙记上,因为目前通义听悟还不大能分享。

那在哪些点上,通义听悟做的比飞书妙记要好呢?

主要有三层:

  1. AI总结能力
  2. 用户体验层面
  3. 产品颗粒度

我们分别来讲讲。

1. AI总结能力

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

飞书妙记主体还是以语音转录为主,然后我们看右上方也提炼了一些关键词,点击之后相当于搜索关键词。

除此之外,几乎就没有了AI总结的能力。

那我们反过来看通义听悟,至少有这么几个AI能力:

1)关键词、全文摘要、章节速览、发言总结

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

分别从不同维度使用AI做了内容摘要。

2)问题回顾

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

打开后,它会对原文内容中的问题,做高亮显示。

我看了下,基本覆盖得很全面。

3)值得关注

提取了算法觉得一些重点的内容片段,鼠标移上去会出现浮窗,可以点回顾,正文会跳转到内容所在的位置,可以点摘取,会把语句复制到右侧的编辑区。

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

4)待办事项

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

会自动的提取出正文内容里可能需要代办的事项。

值得关注、待办事项两个区域,都可以自己手动新增记录。

5)翻译能力
你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

6)自定义专属词汇

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

如果希望有很多专有词汇,希望语音转的比较准确,可以自己增加。这个我倒是没用过,普通的转译已经挺准的了。

2. 用户体验层面

1)易用性角度

通义听悟支持微信小程序,并且可以从微信里直接读取文件。

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

而飞书妙记必须使用PC网页端才能上传文件,使得你的文件必须要首先同步到电脑上,就很麻烦了。

2)为了工作学习打造

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

因此右侧给了一半的编辑区域,可以把正文部分的内容一键摘取过来,也可以把标记的内容一键摘取。

编辑器也做的挺丰富的,基本的功能也都支持。

3)标注的部分会在时间轴上显示,方便用户查找

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

4)时间轴会显示所处的段落

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

5)导出格式友好

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

飞书妙记只支持飞书文档、TXT之类的,麻烦得很。通义听悟则直接支持主流的PDF、Word。

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

其他的还有不少细节,大家可以自己去挖掘一下。

3. 产品颗粒度

飞书妙记,如果你想使用,得注册飞书账号,并且必须是企业账号,这带来了使用门槛。

同时,飞书妙记是飞书All in One工具体系的其中一个模块,也让它的易用性收到了飞书整体系统的复杂度。

整体容量在免费版本里面,上限就是10个G:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

之前我使用,都经常需要删除内容来保留空间。

那通义听悟,则更加小巧灵活。因为它就是一个独立的产品,可以更加专注的做用户场景的优化。

之前是网页版,现在针对微信增加了小程序版,体验更加丝滑了。小程序使用微信手机接口授权就可以登录,使用门槛大幅降低。

容量空间只有2个G,但是呢,它打通了阿里云盘,在上传音视频界面里,可以选择直接从阿里云盘里面导入,这个时候是不占用空间的。

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

因为Super使用阿里云盘比较早,我的阿里云盘空间是1.79TB,足够足够了。

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

对我来讲,通义听悟+阿里云盘=免费的无限空间。

小结来看,飞书妙记只是针对飞书本身的应用场景,比如使用飞书在线会议时,可以一键转录成飞书妙记,并自动转写成文字,这是非常方便的。

但也恰巧是All in One限制了它,它并不是作为一个独立产品快速迭代更新的。使用飞书妙记有一两年的时间了吧,我几乎没有看到过它在什么地方有过更新。。。

但通义听悟有后发优势,独立团队开发,也瞄准了更加广阔的工作学习AI助手的场景,快速迭代,推出的功能也非常符合用户需求,加上AI的赋能,很快就有了不少黑科技的突破。

就我自己来讲,已经推荐了身边很多朋友使用:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

三、通义听悟产品演化

根据【三五环】《No.121 对谈志杰:从通义听悟看,当 AI 不再是工具,而是个人助手》;

志杰是阿里云通义听悟产品&研发负责人,根据播客内的交流,我们可以得知,通义听悟的诞生至少有这么几个大阶段:

  1. 构建技术底盘:招AI人才,做算法的研究等等,是一个纯技术打造的环节;
  2. 技术服务内部:阿里内部的呼叫中心会产生大量数据,如何用算法提供产品服务于场景的课题就产生了;
  3. 云端产品演化:基于阿里云,使用API输出技术,其他的B端企业就可以使用这一服务,别客户集成使用;
  4. 服务内部同事:公司同事出现例会,战略会,有音频整理的需求,就做了个网站,接着发现投资部门做背景调查也会用到,发布会会用到,年会的外籍员工比较多,也有“同声传译”的需求出现,加上大模型的出现,就开始变成产品化正式立项了。
  5. 免费产品公测:做一款ToC产品,搜集用户反馈,探索用户真正的需求。

我们看到这种演化过程,它就会更加像是,先有技术积累,逐步服务更多用户之后,进一步的扩展成C端产品,去搜集用户反馈,反过来看在具体的场景里要去突破什么技术要点:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

从目前可见的产品迭代来说,确实是如此,比如下面提到的PPT提取就很典型。

当然,我觉得这一章节里面,通义听悟的诉求绝不仅仅是持续的做好技术和产品的相互促进,其实他们的产品定位也非常的清晰“你的工作学习AI助手”,对于这个市场的渴望绝对是很强的。

当前能找到新市场增量的产品不多,有潜在的机会,放过太可惜了,所以我们也看到通义听悟在快速迭代,包括多个渠道的产品覆盖等等。从动作回推,市场化的欲望骗不了人。

另一方面,我们看完通义听悟的诞生和演化过程,也能理解,在战略上的思考,也直接决定了产品的大小:

飞书妙记是为了飞书服务的,通义听悟是从为客户服务,到为用户服务的独立产品,背靠阿里云、钉钉资源。结果似乎必然。

四、通义听悟产品设计

Super理解,通义听悟的技术层面,由下面的架构构成:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

技术层面不多说,我们来看看toC侧,它的整体产品框架设计:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

它的产品构成是:

  • 语音转写是地基
  • AI分析是高楼

怎么理解呢?

我们看到通义听悟,名称里的听悟,就是听了悟了,是先听再悟!

把听到的语音,转化成文字,然后就可以使用AI的能力对文字进行语义理解,再做各种黑科技操作。

因为日常工作和生活中,人类接受信息的方式,除了看就是听:

根据美国哈佛商学院有关研究人员的分析资料表明,人的大脑每天通过五种感官接受外部信息的比例分别为:视觉83%,听觉11%,嗅觉3.5%,触觉1.5%,味觉1%.

视觉信息包含大量细节,存储和处理成本很大。声音信息特别是人类的对话信息,则信息量小很多,AI好做处理,把声音信息处理好,能够解决大量的工作生活学习的场景,比如听课、听播客、对话等等。

所以在处理信息时,优先选择容易做的声音信息,是很正确的逻辑。

我们可以看到,通义听悟也可以处理视频,不过更多的是基于视频里的音频转录成文字后,基于时间点对视频上的进度做对应关联。

这是通义听悟的基本盘。也就是语音转写是地基的含义。

这个也是飞书妙记的基本盘,甚至说飞书妙记的绝大部分功能都体现在语音转写上面。

超越飞书妙记的通义听悟,发力就发力在了AI分析上。

我们前面提到的通义听悟之所以能够取代飞书妙记,就是在AI总结部分有很多发力。

AI分析是高楼。这座高楼使得通义听悟在使用体验上,远超飞书妙记。

除了上面说的这两点,通义听悟还有一个功能最近更新的很有意思:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

上传视频文件后,通义听悟将自动识别和总结视频中的PPT,你可以在视频下方阅读图文总结,点击图片全屏查看,还支持导出PPT文件哦!

我自己倒是用不上,但是看这个功能,对于上网课,学视频课程的,还是很有意义的。结合了视频中的图片识别、提取、关联、摘要总结、分段等。

也是彻底贯彻了通义听悟的slogan“你的工作学习AI助手

五、通义听悟的商业前景

我们首先要了解,通义听悟背靠阿里云,意味着有强大的AI技术积累和算力支持!这是其商业化的重要支撑!

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

2022年,阿里云在中国云市场占有率为36%,为市场最大者。

基于按使用量付费的模式,结合阿里云市场,可以快速打入到大客户。

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

另外,阿里的云钉一体,通义听悟可以与钉钉深度打通,成为协同办公场景下的智能产品,提高产品的附加值。

截至2022年9月30日,钉钉用户数破6亿人,企业组织数超过2300万家,付费DAU(日活用户数)突破1500万人。

嵌入到钉钉的会议里面还是有比较大的价值的,就看是用什么方式嵌入,以及企业的需求量多大了。

我自己是比较乐观的,特别是如果能够和云存储捆绑的话,就比较有增值服务的意义。

我们看腾讯会议就有类似的服务,按月收25元,包含了会议语音转文字等功能:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

以上是B端的市场前景。

在C端,通义听悟也非常有机会,目前是免费内测阶段,从公司重要Ai产品阶段出发,通义听悟完全可以继续用免费的C端逻辑,来继续快速打开市场,并且获得用户反馈,这样可以快速迭代产品,不断地占有更大的市场。

免费的逻辑,可以这么设计:

1)免费使用,但需要和现在一样积累转写时长。

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

2)转写时长可以增加获得难度,比如每天登录只能获得1小时转写时长,重度使用用户可以通过邀请好友获得转写时长,或者是付费进行购买转写时长。

利用稀缺资源卡脖子,关注用户的动作行为来评估产品对用户的重要程度,再持续的调整商业逻辑。

同时,从功能层面来说,目前在产品体验上是远超飞书,但是功能体验层面,或许不构成护城河,核心还是单纯的产品是否能够很强的解决用户的刚需,按照当前的情况,竞品包括飞书和腾讯会议,其转写功能是附着在主体(飞书、腾讯会议)本身的,脱离了主体,目前只剩下通义听悟可以单独去解决用户需求。

还是有比较大的先发市场机会的。

六、产品迭代方向

通义听悟目前在产品设计层面,主体框架已经比较稳定了,底层的大模型技术迭代,我们就不说了,下面从几个方面简单讲讲后续可以做的方向:

1)覆盖更多渠道:除了浏览器插件,增加iOS、安卓App覆盖,使得用户在应用商店搜索时,可以找到应用下载。

2)支持更多音频输入来源:目前仅限于本地上传音频文件,如果可以直接解析网页里的音频链接,会更加方便,比如BiBiGPT可以丢链接直接获得总结的结果:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

我们看播客、视频场景,是需要在通义听悟里面上传文件的,如果可以自动解析链接里的音视频内容,就有大幅简化了用户的操作流程。

3)打通云存储服务:除了阿里云盘,也可以增加更多云盘的支持,比如夸克网盘等常用的云盘,扩展用户场景,夸克也同样是阿里系产品。

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

4)用户体系打通:现在通义听悟是一个独立产品,也是个比较轻量化的产品,可以考虑和flomo一样,像水那样融入到其他产品里面。除了钉钉,也可以考虑找到有类似场景的产品融合。

5)提供个性化定制功能:当前支持用户自定义专有词汇,后面可以考虑增加不同的模型,比如美剧字幕模型、专业英语考试模型等等。

6)增加快捷键:可以增加一些快捷键,提高操作效率。

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

比如选择文案后弹出的窗口,我还需要移动鼠标去选择功能操作,这里可以增加一个快捷键,免去了移动鼠标的动作。

7)输出格式多样化:目前的输出还是以文字为主,可以考虑增加思维导图的模式,对于用户理解全文结构会更加清晰直观。

8)开放API接口:现在需要进入到帮助页面才能找到,可以在官网首页更加直观的展示入口,鼓励开发者调用。

9)探索新商业模式:除了常规的接口调用后付费模式、可能的付费购买转写时长模式,还可以增加比如企业的语音监测等模式。

10)国际化:面向东南亚、欧美、非洲市场,开拓海外。

七、总结

今天在即刻上看到吕立青放出来的腾讯会议截图,在会议摘要上已经做到不输通义听悟的程度了。技术上,不觉得通义听悟有很强的护城河:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

Super个人认为通义听悟比起飞书妙记、腾讯会议更厉害的一点,反而它是独立产品:

它是API,它是网页,它是小程序,它是App,它是水,可以流动在一切需要它的地方。也正是如此,它的技术架构反而能够无限聚焦在工作学习领域扩展:

你的工作学习AI助手:通义听悟,如何通过AI能力颠覆飞书妙记?(6000字)

不断在用户最有需求的地方延展自己的能力。

今天我们文章就在这里正式进入了尾声,来一段正式的总结吧:

数字化时代,语音转文字成为提高工作效率的利器。通义听悟作为新晋玩家,凭借独立产品的灵活迭代优势,在AI能力上不断突破,领先于同类产品。

然而技术迭代速度无止境,用户体验至上。通义听悟仍需在易用性、商业模式等方面不断优化,与用户场景和需求零距离贴合,才能在激烈竞争中脱颖而出。

期待通义听悟能继续发力AI,以“你的工作学习AI助手”为使命,助力用户提升工作学习效率,创造更大价值。也欢迎更多优秀产品加入这场让人类生活变得更美好的竞赛。

AI改变世界!

参考:【三五环】《No.121 对谈志杰:从通义听悟看,当 AI 不再是工具,而是个人助手》 包括产品演化,产品架构部分

专栏作家

Super黄,微信公众号:Super黄的念想,人人都是产品经理专栏作家。专注于深度产品拆解+商业分析。

本文原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
AI应用 语音转文字 通义听悟 飞书妙记
ToB企业如何系统地做好内容营销?
03-163792 浏览
ToB企业如何系统地做好内容营销?
太6了!我用1条500播放量的抖音作品,引流19个精准客户!内容引流的玩法技巧,首次公开
10-272924 浏览
太6了!我用1条500播放量的抖音作品,引流19个精准客户!内容引流的玩法技巧,首次公开
Axure教程:将Figma导入Axure
10-134646 浏览
Axure教程:将Figma导入Axure
牛逼的公司,前期都在构建『竞争壁垒』
04-263932 浏览
牛逼的公司,前期都在构建『竞争壁垒』
知识的黄金钥匙:IP授权的概念与成功技巧
09-15699 浏览
知识的黄金钥匙:IP授权的概念与成功技巧
评论
评论请登录
  1. 写的好,感谢分享。

    来自江西 回复