[深度学习] 百度api的asr语音识别(包括长音频,识别多个语句)

14 篇文章 0 订阅
订阅专栏

以下代码包括了ocr , asr短音频,asr长音频(多个语句)。
正常调用asr的话,效果不好,所以用asr长音频(多个语句切分调用),效果可观很多。

import aip
from aip import ocr
from aip import speech
import os

import wave                        #音频文件处理
import urllib.request, pycurl
#import base64  
import json
# get access token by api key & secret key  
import time
import re

ocr

# https://console.bce.baidu.com/ai 百度智能云 创建ocr的api
ocr_APP_ID = 'XXXXXXX' 
ocr_API_KEY = 'XXXXXXXXXXXXXXXXXXXX'
ocr_SECRET_KEY = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXX'
ocr_client = ocr.AipOcr(APP_ID, API_KEY, SECRET_KEY)
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()
def image2text(fileName):
    image = get_file_content(fileName)
    dic_result = ocr_client.basicGeneral(image)
    try:
        res = dic_result['words_result']
    except:
        res = []
    result = ''
    for m in res:
        result = result + str(m['words'])
    return result

asr(短视频)

# https://console.bce.baidu.com/ai 百度智能云 创建asr的api
asr_APP_ID = 'XXXXXXXXXXX' 
asr_API_KEY = "XXXXXXXXXXXXXXXXXXXXXXXXXX"           
asr_SECRET_KEY = "XXXXXXXXXXXXXXXXXXXXXXXXXXXX" 
asr_client = speech.AipSpeech(asr_APP_ID, asr_API_KEY, asr_SECRET_KEY)
# def wav2text(fileName):
#     fp = wave.open(fileName, 'rb') 
#     nf = fp.getnframes()
#     # f_len = nf * 2    
#     wav = fp.readframes(nf) #audio_data
#     dic_result = asr_client.asr(wav)
# #     try:
# #         res = dic_result['words_result']
# #     except:
# #         res = []
# #     result = ''
# #     for m in res:
# #         result = result + str(m['words'])
#     return dic_result
# 5.短时间举例子
# 语音参数 必须符合16k或8K采样率、16bit采样位数、单声道
# 语音格式 PCM、WAV、AMR
def baidu_Speech_To_Text(filePath):  # 百度语音识别
    asr_APP_ID = 'XXXXXXXX' 
    asr_API_KEY = "XXXXXXXXXXXXXXXXXXXXXX"            #这两行是登录用的密码
    asr_SECRET_KEY = "XXXXXXXXXXXXXXXXXXXXXXXXXX" 
    asr_client = speech.AipSpeech(asr_APP_ID, asr_API_KEY, asr_SECRET_KEY)
    # 读取文件
    with open(filePath, 'rb') as fp:
        audioPcm = fp.read()
    json = asr_client.asr(audioPcm, 'wav', 16000, {'lan': 'zh', })
    print(json)
    if 'success' in json['err_msg']:
        context = json['result'][0]
        print('成功,返回结果为:', context)
    else:
        context = '=====识别失败====='
        print('识别失败!')
    return context

在这里插入图片描述
在这里插入图片描述

asr(长视频(其实是多语句))

from pydub import AudioSegment
from pydub.utils import mediainfo
from aip import speech
def baidu_Speech_To_Text(filePath):  # 百度语音识别
    asr_APP_ID = 'XXXXXXXX' 
    asr_API_KEY = "XXXXXXXXXXXXXXXXXXXXXX"            #这两行是登录用的密码
    asr_SECRET_KEY = "XXXXXXXXXXXXXXXXXXXXXXXXXX" 
    asr_client = speech.AipSpeech(asr_APP_ID, asr_API_KEY, asr_SECRET_KEY)
    # 读取文件
    with open(filePath, 'rb') as fp:
        audioPcm = fp.read()
    json = asr_client.asr(audioPcm, 'wav', 16000, {'lan': 'zh', })
    print(json)
    if 'success' in json['err_msg']:
        context = json['result'][0]
        print('成功,返回结果为:', context)
    else:
        context = '=====识别失败====='
        print('识别失败!')
    return context
def sound_cut(file_name):
    if os.path.exists('识别结果.txt'):
        os.remove(r'识别结果.txt')
    song = mediainfo(file_name)
    song_length = str(int(float(song['duration'])))  # 读取文件时长
    song_size = str(round(float(int(song['size']) / 1024 / 1024), 2)) + 'M'  # 读取文件大小保留两位小数round(变量,2)
    song_filename = song['filename']  # 读取文件地址
    song_format_name = song['format_name']  # 读取文件格式
    print('\t长度', song_length, '\t文件大小', song_size, '\t文件路径', song_filename, '\t文件格式', song_format_name)
    cut_song_num = int(int(song_length) / 59) + 1  # 每段59s,计算切割段数
    print('切割次数', cut_song_num)
    sound = AudioSegment.from_mp3(file_name)
    # 单位:ms
    stat_time = 0
    end_time = 59
    for i in range(cut_song_num):
        if i == cut_song_num - 1:  # 判断如果是最后一次截断
            cut_song = sound[stat_time * 1000:]  # 截取到最后的时间
            end_time = int(song_length)
        else:
            cut_song = sound[stat_time * 1000:end_time * 1000]
        save_name = r"temp-" + str(i + 1) + '.mp3'  # 设置文件保存名称
        cut_song.export(save_name, format="mp3")  # 进行切割
        save_name_pcm = r"temp-" + str(i + 1) + '.wav'  # 设置文件保存名称
        mp3_version = AudioSegment.from_mp3(save_name)  # 可以根据文件不太类型导入不同from方法
        mono = mp3_version.set_frame_rate(16000).set_channels(1)  # 设置声道和采样率
        mono.export(save_name_pcm, format='wav', codec='pcm_s16le')  # codec此参数本意是设定16bits pcm编码器, 但发现此参数可以省略
        context = baidu_Speech_To_Text(save_name_pcm)
        with open(r'识别结果.txt', 'a', encoding='utf-8') as f:
            f.write(context)
        os.remove(save_name)  # 删除mp3文件
        os.remove(save_name_pcm)  # 删除mp3文件
        print(save_name, 'end_time=', stat_time, 'end_time=', end_time)
        # 切割完加入下一段的参数
        stat_time += 59
        end_time += 59

在这里插入图片描述

参考: https://blog.csdn.net/qq_40584593/article/details/110311540

处理非结构化数据:OCRASR和信息抽取
禅与计算机程序设计艺术
04-30 478
1. 背景介绍 随着互联网和移动设备的普及,我们正处于一个数据爆炸的时代。然而,这些数据中很大一部分是非结构化的,例如图像、音频和文本。这些非结构化数据蕴含着丰富的信息,但传统的数据库和数据处理方法难以对其进行有效分析。因此,处理非结构化数据成为了人工智能领域的一个重要挑战。 光学字符识别(OCR)、自动语音识别ASR)和信息抽取是三
科大讯飞/百度/阿里/腾讯(BAT)智能语音识别(ASR)性能对比选择预计价格分享 - pytorch中文网...
q6q6q的专栏
10-27 6484
最近在做智能客服的时候需要使用到语音识别,所以了解和对比了各家平台的语音识别对比和分析!一、科大讯飞1、语音听写即在线音识别查看Demo把语音(≤60秒)转换成对应的文字信息,让机器能够“听懂”人类语言,相当于给机器安装上“耳朵”,使其具备“能听”的功能可以识别多种方言,识别率高支持Android,iOS,Windows,Java,Linux2、语音转写即语音识别查看Demo语音转写(Long ...
前端使用百度ASR语音识别
weixin_47365243的博客
08-18 575
前端使用百度ASR语音识别
baidu-asr-python-sdk:百度实时语音识别
04-27
baidu-asr-python 百度实时语音识别SDK-python(非官方) 调用方法请看demo.py ASR.py中的stt_start是语音识别接口,stt_starts才是实时语音识别接口 本SDK的实时语音识别基本可以达到目的
基于百度人工智能语音识别 REST API 的开源库 libasrutil
mimepp的专栏,这里都是原创
09-20 2455
转载时请注明出处和作者联系方式:http://blog.csdn.net/mimepp 作者联系方式:YU TAO <yut616 at sohu dot com> 关键字: baidu asr,automatic speech recognition,百度语音识别语音识别,翻译,translate, REST API,VAD,Voice Active Detection,htt...
c# imager让图片有圆角unity_C# 10分钟完成百度语音技术
weixin_39957068的博客
11-27 175
(给DotNet加星标,提升.Net技能)转自:熊泽-学习中的苦与乐cnblogs.com/xiongze520/p/11301882.html我们已经讲了人脸识别(入门+进阶)、图片识别(入门)。《C# 10分钟完成百度人脸识别——入门篇》《C# 30分钟完成百度人脸识别——进阶篇》《C# 10分钟完成百度图片提取文字(文字识别)——入门篇》今天我们来盘一盘语音识别与合成。PS:仅供了...
BaiduAPI_asr_PANtt_api/voice/asr/_百度语音识别源码_
09-30
百度API接口,实现语音识别功能,测试可用
语音识别ASR)HTTP协议WebAPI开发文档1
08-03
综上,这个语音识别API提供了灵活的音频数据处理和识别结果获取方式,开发者可根据应用场景选择合适的策略,确保安全、高效地实现语音转文本的功能。在实际开发中,应根据具体需求调整参数和策略,以达到最佳识别...
python实现百度语音识别api
09-20
Python实现百度语音识别API涉及到的关键知识点包括:Python编程、百度语音识别服务、API接口使用、音频文件处理以及错误处理。以下是对这些知识点的详细说明: 1. Python编程:Python是一种高级编程语言,以其简洁...
基于百度语音识别API,Python SDK 并评估WER词错误率
最新发布
05-28
【作品名称】:基于百度语音识别API,Python SDK。并评估WER词错误率 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】:...
Java实现的百度语音识别功能示例
08-27
Java实现的百度语音识别功能示例 ...本文介绍了 Java 实现的百度语音识别功能,包括语音文件格式、Java 代码示例、语音识别结果处理等方面的内容。希望能够帮助读者更好地理解和使用百度语音识别服务。
C#(VS2017)百度语音识别demo
04-07
C#(VS2017)百度语音识别demo,支持的语音格式:原始 PCM 的录音参数必须符合 16k 采样率、16bit 位深、单声道,支持的格式有:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)。
百度语音识别完整
04-12
语音识别百度语音合成技术能将用户输入的文字,转换成流畅自然的语音输出,并且可以支持语速、 音调、音量、音频码率设置,打破传统文字式人机交互的方式,让人机沟通更自然
百度 Asr集成
awodefengduanwu的博客
04-20 999
1、上篇我们讲解了如何调用android系统提供的接口实现Asr功能,本篇我们讲解如何集成Asr引擎,这里我们以集成百度Asr为例讲解。 2、百度Ai官网https://ai.baidu.com/下载SDK包,解压后里面也有相关的开发文档。 将libs中文件和res中的文件复制到项目工程对应的文件夹,如下图  在AndroidManifest.xml文件中  添加appId,权限等信息 3、接...
百度MRCP安装测试记录
浮生如夢皆是客
05-16 477
此文档主要用于个人 记录百度mrcpserver2020-06-30安装部署的过程,百度官方文档README下有具体安装配置过程。本次使用百度语音提供的mrcpserver服务,语音识别(ASR)和语音合成(TTS)两种能力。官方地址: https://ai.baidu.com/ai-doc/SPEECH/8kay0g6pq。
代码实现:基于百度API进行ASR
qq_43222655的博客
05-25 565
这是一份开源代码,你可以使用这个代码连接上百度API以测试其ASR性能。你可以直接使用其中的 Recognition函数测试单条语音识别,也可以如代码中所示,测试整个数据集的识别率,这里我们以TIMIT数据集为例,使用时请注意修改路径。 代码地址:https://github.com/D-Keqi/Implementation-for-ASR-by-API-of-Baidu ...
阿里云ASR 语音识别接口调用
fareast_mzh的博客
09-08 2566
【代码】阿里云ASR 语音识别接口调用。
百度语音——语音识别(简易教程)
热门推荐
qing_mei_xiu的博客
08-16 1万+
1.百度ai官网,下载sdk包,连接:http://ai.baidu.com/docs#/ASR-Online-Java-SDK/top 2.官网有demo,可以参考,下面是在下的util类, import org.apache.log4j.Logger; import org.json.JSONObject; import com.baidu.aip.speech.AipSpee
【超简单】之基于PaddleSpeech搭建个人语音听写服务
m0_63642362的博客
08-01 2503
通过调用PaddleSpeech语音方向的开源模型库,快速精准将音频(理论上无限识别成文字,并可私有化部署,极大满足某些需要写会议纪要,特别是保密会议纪要(不能联网那种)的必备神器!...
python使用百度API语音识别
12-15
以下是使用百度API进行语音识别的Python代码示例: ```python from aip import AipSpeech # 设置APPID/AK/SK APP_ID = 'your_app_id' API_KEY = 'your_api_key' SECRET_KEY = 'your_secret_key' # 初始化AipSpeech对象 client = AipSpeech(APP_ID, API_KEY, SECRET_KEY) # 读取文件 def get_file_content(filePath): with open(filePath, 'rb') as fp: return fp.read() # 识别本地文件 result = client.asr(get_file_content('audio.pcm'), 'pcm', 16000, { 'dev_pid': 1536, }) # 打印识别结果 print(result['result'][0]) ``` 其中,`APP_ID`、`API_KEY`和`SECRET_KEY`需要替换为你自己的百度API的应用ID、API Key和Secret Key。`get_file_content`函数用于读取本地的音频文件,`client.asr`方法用于进行语音识别,其中第一个参数为音频文件的二进制数据,第二个参数为音频文件的格式,第三个参数为音频文件的采样率,第四个参数为识别参数,`dev_pid`表示识别的语言类型,`1536`表示普通话。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • [linux] SFTP文件传输基本命令 30773
  • [linux] conda设置清华源 16247
  • [机器学习] 无偏估计和有偏估计及公式证明 11151
  • [算法导论] 邮递员问题 10864
  • [cv] 池化(最大池化Maxpool、平均池化Averagepool、随机池化randpool)与反池化 9894

分类专栏

  • 论文笔记 付费 79篇
  • 机器学习 付费 33篇
  • 算法导论 付费 170篇
  • nlp 付费 115篇
  • redis
  • paddle
  • 预训练语言模型 2篇
  • 机器视觉
  • OT 3篇
  • 强化学习 1篇
  • java 7篇
  • linux 134篇
  • RS 8篇
  • c 5篇
  • c++ 13篇
  • python 28篇
  • tensorflow2.0 7篇
  • 深度学习 14篇
  • 笔记
  • pytorch 7篇
  • LRFR 1篇
  • 论文 2篇
  • cv 13篇

最新评论

  • [论文笔记] Qwen2 CT 提交脚本

    CSDN-Ada助手: 你好,CSDN 开始提供 #论文阅读# 的列表服务了。请看:https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求,请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

  • [论文笔记] Pai-megatron 细节解读之self.jitter_noise参数 (防止过拟合)

    CSDN-Ada助手: 你好,CSDN 开始提供 #论文阅读# 的列表服务了。请看:https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求,请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

  • [论文笔记] EcomGPT:COT扩充数据的电商大模型

    CSDN-Ada助手: 你好,CSDN 开始提供 #论文阅读# 的列表服务了。请看:https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求,请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

  • [论文笔记] megatron训练参数:dataloader_type

    CSDN-Ada助手: 你好,CSDN 开始提供 #论文阅读# 的列表服务了。请看:https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求,请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

  • [论文笔记] Pai-megatron Qwen1.5-14B-CT 后预训练 踩坑记录

    CSDN-Ada助手: 你好,CSDN 开始提供 #论文阅读# 的列表服务了。请看:https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求,请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

  • [论文笔记] Qwen2 CT 提交脚本
  • [论文笔记] pai-megatron-patch Qwen2 tokenize代码踩坑
  • [论文笔记] huggingface download下载
2024
06月 5篇
05月 4篇
04月 9篇
03月 26篇
02月 4篇
01月 11篇
2023年98篇
2022年188篇
2021年227篇
2020年61篇
2019年35篇
2017年4篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

哆哆女性网建材公司起名大全好听有寓意驰名中外的意思皮肤莫名其妙瘙痒起包用睿字起名好不好牙刷品牌起名字什么是周记独白是什么意思公司起名网免费取名胖妹做饭视频陈说美食中里结菜科技公司起什么名字子与什么字搭配起名好王浩开头男孩起名盗号软件卢浮魅影百度影音起名带火的字有哪些天若有情电视剧孟氏家谱德字辈起名欢喜密探下载周易的 起名字网游之修道歧路一个手机号可以注册几个微信psn注册恐慌调色盘富字辈女孩起名volume是什么意思寸有所长澳大利亚最新疫情伐竹取道口袋记账淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻不负春光新的一天从800个哈欠开始有个姐真把千机伞做出来了国产伟哥去年销售近13亿充个话费竟沦为间接洗钱工具重庆警方辟谣“男子杀人焚尸”男子给前妻转账 现任妻子起诉要回春分繁花正当时呼北高速交通事故已致14人死亡杨洋拄拐现身医院月嫂回应掌掴婴儿是在赶虫子男孩疑遭霸凌 家长讨说法被踢出群因自嘲式简历走红的教授更新简介网友建议重庆地铁不准乘客携带菜筐清明节放假3天调休1天郑州一火锅店爆改成麻辣烫店19岁小伙救下5人后溺亡 多方发声两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#青海通报栏杆断裂小学生跌落住进ICU代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了当地回应沈阳致3死车祸车主疑毒驾武汉大学樱花即将进入盛花期张立群任西安交通大学校长为江西彩礼“减负”的“试婚人”网友洛杉矶偶遇贾玲倪萍分享减重40斤方法男孩8年未见母亲被告知被遗忘小米汽车超级工厂正式揭幕周杰伦一审败诉网易特朗普谈“凯特王妃P图照”考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼恒大被罚41.75亿到底怎么缴男子持台球杆殴打2名女店员被抓校方回应护栏损坏小学生课间坠楼外国人感慨凌晨的中国很安全火箭最近9战8胜1负王树国3次鞠躬告别西交大师生房客欠租失踪 房东直发愁萧美琴窜访捷克 外交部回应山西省委原副书记商黎光被逮捕阿根廷将发行1万与2万面值的纸币英国王室又一合照被质疑P图男子被猫抓伤后确诊“猫抓病”

哆哆女性网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化