对比 4款AI 阅读工具,我找到了“阅读文档”的最佳助手

手动搜索和提炼信息时,我们常常遇到这些恼人的问题:
信息太多,而人的阅读速度是有上限的;
• 信息太杂,要对查找到的信息进行多次筛选和过滤;
• 信息太晦涩,看不懂,而你需要一个通俗的新手村友好版本;
• 信息涉及多个议题,要从线性的文章中梳理出树状的结构、网状的思维;
获取信息的质量和速度,决定了我们决策的质量。如果能够「秒读」千百篇文献、指南、政策、规定、招股书、访谈纪要,快速得到大纲或精华内容就好了。最近 ChatDOC、ChatPDF、Humata 等 AI 文档阅读助手就赋予了我们这种能力:直接和单个或多个文档对话,在一问一答之间,化信息为洞察。
图片
但是问题又来了,为什么有时候这类 AI 助手的回答表现很惊艳,有时候又差强人意?这跟 AI 工具本身的性能、技术原理有关,也跟我们的提问方式有关。本期文章将为你介绍:
1. AI 阅读工具测评;
2. 它们擅长的以及不擅长的;
3. 如何写出好的提示语(prompt)。
AI 阅读工具测评
我尝试了 4 款 AI 阅读工具,先说结论:ChatDOC 从准确度和产品功能上显著优于其他几款,如果是严肃的工作/研究场合使用,ChatDOC 是首选。
图片
准确度
准确度是首要指标。如果提取的信息有问题,反而会给信息处理工作带来更多麻烦。从数据的准确度上看,只有 ChatDOC 具有可用性
为了测试准确度,我分别在四个软件上传了同一份学术论文,对其中的实验数据进行提问。
What is the performance of BioBERT Fine-tuned on original data in dataset GAD?
原 PDF 中的实验数据为 84.14、92.53 和 88.13。对应的参考示例如下:
图片
ChatDOC 全部回答正确,并精准定位到了原文表格:
PandaGPT 找对了位置,但只给出了一个数据,数据还是错的:
图片
ChatPDF 不支持原文溯源,虽然找到了三个数,但给到的三个数据全部是错的:
Humata 干脆摆烂了,告诉我原文中没有这个数。
图片
▍丰富度
另一个比较刚需的场景是提炼、概括重点内容,因此对于上述文档,我又测试了一个摘要性问题:
总结一下这篇文章的主要内容。
结论是 ChatDOC、PandaGPT、Humata 的表现都不错,但 ChatPDF 给出的回答过于概括了。对应的参考示例如下:
ChatDOC:表现不错,给出了有信息量的摘要。
图片
ChatPDF:过于简略,对于了解文章的帮助不大。
Humata:表现不错,给出了有信息量的摘要。
图片
PandaGPT:表现不错,给出了有信息量的摘要。
图片
▍引用来源
许多 AI 问答类的产品,包括 New Bing,为了规避大语言模型可能的胡说八道,都做了列出引用来源的设计。
ChatDOC 的引用做得很精细,回答中每一句话的末尾都给出了来源,且能一一对应;Humata、PandaGPT 的回答整体给出了引用页码,但颗粒度比较粗;而 ChatPDF 暂时没有这样的设计。对应的参考示例如下:
ChatDOC:每一个回答的每一句话都会给出来源,且精确到段落。
图片
Humata、PandaGPT:对于包含数据的问答会给出来源,且精确到页;摘要、类比性质的问答,则不会给出来源。
ChatPDF:无。
▍多文档提问
ChatDOC、Humata 支持上传一个文件夹,对文件夹进行整体提问;ChatDOC 目前免费用户即可使用,而 Humata 是付费功能;ChatPDF、PandaGPT 暂不支持。
对应的参考示例如下:
ChatDOC 在操作上需在本地将文件收集到一个文件夹里,再整体上传。而体验上,ChatDOC 的多文档概要比较准确;在引用来源的处理上,给出了具体文档名称和页码。
图片
在操作上,Humata 免费版用户只能一个一个文件上传,付费用户支持多选文件上传。因为此功能仅付费会员可使用,所以我没有继续尝试。
图片
▍多轮追问
关于上下文记忆以及多轮追问,这几款产品提供了两种处理方式,分别是开启 Thread 进行追问或者直接在对话框里追问,默认记录上下文语境。
在 ChatDOC 中,你可以选择保留/不保留上下文。ChatDOC 采用了类似于 Twitter上的「Thread」的概念:你可以针对某一条回答点击多轮会话按钮,开启 Thread,这样的对话记录了关于这个问题的上下文。
图片
在多轮追问中,你还可以设定 AI 的自主度,是更自由的 Go Freely,还是严格按照文档回答。
图片
在单轮问题的主聊天框里,默认是不记录上下文的,每个请求都是单独的问答对。
其他三款产品没有 Thread 的设计,但 ChatPDF、Humata 明显是做了上下文记忆的,可以直接继续追问;而 PandaGPT 似乎没有记忆上下文的能力,无法追问。
对应的参考示例如下:
图片
ChatPDF
图片
Humata
图片
PandaGPT
这里就是仁者见仁智者见智了。ChatDOC、ChatPDF、Humata 都可以进行追问。ChatDOC 是针对某一问答进行追问,在 Thread 里保留关于此议题的所有语境;而 ChatPDF、Humata 则是自动保持几个问答之间的上下文,操作起来更直观,但问题在于轮次多了之后会遗漏早先的语境。
了解 AI 工具
为什么几款工具会存在这样的差异?首先我们要理解「输入」和「输出」的概念。
所谓的「与文档对话」,在每一次对 ChatDOC 们的提问时,实际上是将我们的问题和文档内容作为「输入」,传给了大语言模型的接口,由它返回给我们「输出」,也就是我们在聊天中得到的解答。
目前由于大语言模型的 token 记忆限制(e.g. ChatGPT 的限制为 4096 个 token,约 3000 词;其他大语言模型目前的 token 限制一般在 2000-8000 之间),当我们提问时,ChatDOC 们无法将整篇文章的内容和我们的提问都输入进去,而是根据问题的语义,匹配相关度高的文章片段,传送给大语言模型的 API,得到最终答案。
也就是说,基于我们的提问,ChatDOC 们并非在整篇文章里进行检索,而是在最相关的片段里寻找答案。由此我们便可以总结一下 ChatDOC 的优缺点,做到趋利避害了。
▍ChatDOC 们擅长的任务
ChatDOC 们擅长处理基于「重点内容」的相关任务,包括但不限于:
1. 生成摘要,提炼重点。根据近似度匹配,它们擅长理解你的需求,并据此提炼重点。比如:
介绍本论文的主要内容;
总结说话人 A 的主要观点;
介绍该公司的投资策略及业务侧重点有何转变;
进行周度/阅读的数据整理。
2. 阐释概念,解释步骤。大语言模型接受过世界知识的训练,能够提供良好的背景信息补充和专业解释。比如:
「灾难性遗忘」是什么意思?
什么是大语言模型?
开一家淘宝店铺需要哪几个步骤?(你还可以通过多轮追问,让它阐释子步骤,从而在同一个主题下生成、组织和优化内容。)
3. 选中内容,智能分析。给到大语言模型的输入会完全囊括选中内容,因此 AI 能充分理解问题的上下文。比如:
选中个股数据,并输入「请对该只股票近期的数据表现进行点评」。
选中实验数据结果,并输入「请总结该实验结果的数据结论」。
4. 用结构化的形式呈现信息。让它帮你整理关于某一话题的信息,以表格或者大纲的形式列出。这个步骤实际上是在进行语义匹配的搜索,将碎片化的信息围绕几个关键词凝结起来,并以结构化的形式呈现。
分析一下基金投资策略的优缺点,打上标签,并以 markdown 表格的形式输出。
请依次告诉我这篇招股书的行业背景、核心技术、市场地位、公司历史沿革、主要财务指标、股东情况,用大纲列表的形式输出。
▍暂不擅长
而由于前文所述的记忆限制, ChatDOC 们暂不擅长精确的「全文定位」任务。比如寻找某个数据在原文中的精确位置(⌘Command-F 更能帮你达到这一目的),或者选中某条法规,让它列出这条法规在哪些文中的页数出现过。
✏️
Prompt 写作指南
在 ChatDOC 们擅长的任务中,我们也可以通过优化提示语(Prompt)获得更理想的答案。以下是几个亲测有效的方法:
▍指示要明确
尽可能地减少解释空间,限制 AI 的操作范围。比如明确列出你希望 AI 帮你总结的字段,明确需要注意的细节,明确输出的格式。比如:
请使用小红书流行的文案风格概括总结这篇文章。小红书的风格,特点是:
1. 引人入胜的标题;
2. 每个段落中包含表情符号;
3. 在末尾添加相关标签;
请确保原文的意思保持不变。
▍把任务分解
把一个大的问题拆解为细分步骤,每个逻辑步骤清晰,告诉 AI 第一步做什么,第二步接着做什么。比如:
选中的表格数据,是 A 公司近期的股票数据。请你根据选中的数据完成以下两个任务:
1. 请对 A 公司近期的股票数据进行点评 。
2. 根据收盘价计算每日收益率,并以表格的形式输出。
▍定义角色
告诉 AI 它现在需要以一个什么样的身份来回答问题。比如:
你现在是一名帮助我回答税收相关问题的助理。回答问题时,请遵循以下要求:
1. 只回答跟税收相关的问题。
2. 如果你不确定问题的答案,请回答「我不确定」。
▍明确输出的格式
你可以让 AI 输出表格、大纲。比如:
请使用大纲列表 outliner 的形式,依次告诉我这篇文章的引言、文献回顾、理论框架、创新点、研究方法、研究过程、主要观点和结论、进一步研究方向。
生成的回答格式如下,以此类推。每个部分的回答,要细分为多个子内容。- 引言 - 此处为引言内容。- 子内容 - 子内容 - 文献回顾 - 此处为文献回顾内容 - 子内容 - 子内容。
也可以让它输出评分、解释。比如:
你是一名助手,旨在分析语音数据中的情绪。选中的内容是用户 A 的语音数据。评分范围为 1-10(10 为最高),请给出评分,并解释为什么给出这个评级。
▍把指令放到提示语开始
在最开始时,告诉 AI 你希望它执行的任务,然后再共享其他上下文信息或示例,可以帮助产生更高质量的输出。
▍最后重复一遍指令
模型容易受到最新偏差的影响,在这种情况下,末尾 Prompt 信息可能比开头 Prompt 信息对输出的影响更大。因此,当提示语比较长的时候,在 Prompt 末尾重复指令,是值得一试的方法。
除此之外,还推荐大家去看看微软官方出品的 Prompt 教程。
https://sspai.com/post/79869?utm_source=wechat&utm_medium=social
作者:史圣圆
责编:Clyde

哆哆女性网铜川市网站建设给姓朱大宝宝起名简历中网站设计高圆圆主演的电视剧为医院起名梓字起名字有什么忌讳许姓起名称皮姓男孩起名起名字笔画数seo销售顾问seo和sem是什么意思企业制作网站价钱陕西 网站建设公司按免费生辰八字起名打分网站关键词优化如何你我贷可靠吗福州室内设计网站周公解梦 洪水洗洁用品公司起名姓氏徐起名大全龙凤胎起小名网站制作网站什么流程金毛起名字大全洋气潮名字男孩起名刘文元周易起名带鑫的男孩名字seo的窍门欢喜债起名五行带金的未解之谜 美剧淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻不负春光新的一天从800个哈欠开始有个姐真把千机伞做出来了国产伟哥去年销售近13亿充个话费竟沦为间接洗钱工具重庆警方辟谣“男子杀人焚尸”男子给前妻转账 现任妻子起诉要回春分繁花正当时呼北高速交通事故已致14人死亡杨洋拄拐现身医院月嫂回应掌掴婴儿是在赶虫子男孩疑遭霸凌 家长讨说法被踢出群因自嘲式简历走红的教授更新简介网友建议重庆地铁不准乘客携带菜筐清明节放假3天调休1天郑州一火锅店爆改成麻辣烫店19岁小伙救下5人后溺亡 多方发声两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#青海通报栏杆断裂小学生跌落住进ICU代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了当地回应沈阳致3死车祸车主疑毒驾武汉大学樱花即将进入盛花期张立群任西安交通大学校长为江西彩礼“减负”的“试婚人”网友洛杉矶偶遇贾玲倪萍分享减重40斤方法男孩8年未见母亲被告知被遗忘小米汽车超级工厂正式揭幕周杰伦一审败诉网易特朗普谈“凯特王妃P图照”考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼恒大被罚41.75亿到底怎么缴男子持台球杆殴打2名女店员被抓校方回应护栏损坏小学生课间坠楼外国人感慨凌晨的中国很安全火箭最近9战8胜1负王树国3次鞠躬告别西交大师生房客欠租失踪 房东直发愁萧美琴窜访捷克 外交部回应山西省委原副书记商黎光被逮捕阿根廷将发行1万与2万面值的纸币英国王室又一合照被质疑P图男子被猫抓伤后确诊“猫抓病”

哆哆女性网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化