奇怪的翻译知识增加了!
比较常见的翻译工具,同声翻译工具更具有实用代价,想想不精通其他措辞就能和歪果朋友无障碍互换的场景,真是一件美事,不如自己动手实现个工具备用!一个同声翻译工具,逻辑大概可以是先识别,而后翻译,翻译能否成功,识别的准确率是个关键成分。为了降落难度,我决定分两次完成工具开拓。首先来实现试试语音识别的部分。
得心应手,本次的demo连续调用有道智云API,实现实时语音识别。
二、效果展示先看看界面和结果哈:
可以选择多种语音,这里只写了四种常见的:
我分别测试的中文、韩文、英文。看着还不错哦~
这里翻译结果,是根据音频一个字、一个字这样实时识别的,由于识别速率比较快,以是看起来木有韶光差。
四、调用API接口的准备事情首先,是须要在有道智云的个人页面上创建实例、创建运用、绑定运用和实例,获取调用接口用到的运用的id和密钥。详细个人注册的过程和运用创建过程详见文章分享一次批量文件翻译的开拓过程
五、开拓过程详细先容(一)准备事情
下面先容详细的代码开拓过程。
首先是根据实时语音识别文档来剖析接口的输入输出。接口设计的目的是对连续音频流的实时识别,转换成文本信息并返对应笔墨流,因此通信采取websocket,调用过程分为认证、实时通信两阶段。
在认证阶段,需发送以下参数:
参数类型必填解释示例appKeyString是已申请的运用IDIDsaltString是UUIDUUIDcurtimeString是韶光戳(秒)TimeStampsignString是加密数字署名。sha256signTypeString是数字署名类型v4langTypeString是措辞选择,参考支持措辞列表zh-CHSformatString是音频格式,支持wavwavchannelString是声道,支持1(单声道)1versionString是api版本v1rateString是采样率16000
署名sign天生方法如下:signType=v4;sign=sha256(运用ID+salt+curtime+运用密钥)。
认证之后,就进入了实时通信阶段,发送音频流,获取识别结果,末了发送结束标志结束通信,这里须要把稳的是,发送的音频最好是16bit位深的单声道、16k采样率的清晰的wav音频文件,这里我开拓时最开始由于音频录制设备有问题,导致音频效果极差,接口一贯返回缺点码304(手动捂脸)。
(二)开拓这个demo利用python3开拓,包括maindow.py,audioandprocess.py,recobynetease.py三个文件。界面部分,利用python自带的tkinter库,来进行措辞选择、录音开始、录音停滞并识别的操作。audioandprocess.py实现了录音、音频处理的逻辑,末了通过recobynetease.py中的方法来调用实时语音识别API。
1、界面部分紧张元素:
root=tk.Tk()root.title("netease youdao translation test")frm = tk.Frame(root)frm.grid(padx='80', pady='80')label=tk.Label(frm,text='选择措辞类型:')label.grid(row=0,column=0)combox=ttk.Combobox(frm,textvariable=tk.StringVar(),width=38)combox["value"]=lang_type_dictcombox.current(0)combox.bind("<<ComboboxSelected>>",get_lang_type)combox.grid(row=0,column=1)btn_start_rec = tk.Button(frm, text='开始录音', command=start_rec)btn_start_rec.grid(row=2, column=0)lb_Status = tk.Label(frm, text='Ready', anchor='w', fg='green')lb_Status.grid(row=2,column=1)btn_sure=tk.Button(frm,text="结束并识别",command=get_result)btn_sure.grid(row=3,column=0)root.mainloop()
选择措辞类型之后,开始录音,录音结束后,通过get_result()方法调用接口进行识别。
def get_result(): lb_Status['text']='Ready' sr_result=au_model.stop_and_recognise()
2、音频录制部分的开拓
音频录制部分引入pyaudio库(需通过pip安装)来调用音频设备并录制接口哀求的wav文件,并调用wave库存储音频文件。
Audio_model类的布局:
def __init__(self, audio_path, language_type,is_recording): self.audio_path = audio_path,# 录音存储路径 self.audio_file_name=''# 录音文件名 self.language_type = language_type,# 录音措辞类型 self.language_dict=["zh-CHS","en","ja","ko"]# 支持的措辞,用于从UI出的类型转为接口所需类型 self.language='' self.is_recording=is_recording# 录音状态 self.audio_chunk_size=1600# 以下为一些接口所哀求的录音参数,采样率、编码、通道等 self.audio_channels=1 self.audio_format=pyaudio.paInt16 self.audio_rate=16000
(2)record()方法的开拓
record()方法中实现了录音的逻辑,调用pyaudio库,读取音频流,写入文件。
def record(self,file_name): p=pyaudio.PyAudio() stream=p.open( format=self.audio_format, channels=self.audio_channels, rate=self.audio_rate, input=True, frames_per_buffer=self.audio_chunk_size ) wf = wave.open(file_name, 'wb') wf.setnchannels(self.audio_channels) wf.setsampwidth(p.get_sample_size(self.audio_format)) wf.setframerate(self.audio_rate) # 读取数据写入文件 while self.is_recording: data = stream.read(self.audio_chunk_size) wf.writeframes(data) wf.close() stream.stop_stream() stream.close() p.terminate()
(3)stop_and_recognise()方法的开拓
stop_and_recognise()方法将Audio_model的录音状态标记为false,并启动调用有道智云API的方法。
def stop_and_recognise(self): self.is_recording=False recognise(self.audio_file_name,self.language_dict[self.language_type])
3、实时语音识别部分的开拓
有道智云实时语音识别接口利用socket通信,为简化展示逻辑,因此在此处发开了展示识别结果的界面,利用tkinter显示:
#输出结果的窗口root = tk.Tk()root.title("result")frm = tk.Frame(root)frm.grid(padx='80', pady='80')text_result = tk.Text(frm, width='40', height='20')text_result.grid(row=0, column=1)
recognise()方法根据接口文档,将所需参数拼接到uri,传给start()方法要求接口:
def recognise(filepath,language_type): print('l:'+language_type) global file_path file_path=filepath nonce = str(uuid.uuid1()) curtime = str(int(time.time())) signStr = app_key + nonce + curtime + app_secret print(signStr) sign = encrypt(signStr) uri = "wss://openapi.youdao.com/stream_asropenapi?appKey=" + app_key + "&salt=" + nonce + "&curtime=" + curtime + \ "&sign=" + sign + "&version=v1&channel=1&format=wav&signType=v4&rate=16000&langType=" + language_type print(uri) start(uri, 1600)
start()方法是实时识别部分的核心方法,通过websocket调用识别接口。
def start(uri): websocket.enableTrace(True) ws = websocket.WebSocketApp(uri, on_message=on_message, on_error=on_error, on_close=on_close) ws.on_open = on_opend ws.run_forever()
在要求接口时,首先读取先前录制的音频文件,并发送:
def on_open(ws): count = 0 file_object = open(file_path, 'rb') #打开录制的音频 while True: chunk_data = file_object.read(1600) ws.send(chunk_data, websocket.ABNF.OPCODE_BINARY) #发送 time.sleep(0.05) count = count + 1 if not chunk_data: break print(count) ws.send('{\"end\": \"true\"}', websocket.ABNF.OPCODE_BINARY)
而后在通信过程中处理接口返回的,网络接口返回的识别结果:
def on_message(ws, message): result=json.loads(message) resultmessage= result['result'] #解析调用接口的返回结果 if resultmessage: resultmessage1 = result['result'][0] resultmessage2 = resultmessage1["st"]['sentence'] print(resultmessage2) #text_result.insert(tk.END, resultmessage2+'\n') result_arr.append(resultmessage2)
末了在通信结束后展示识别结果:
def on_close(ws): print_resule(result_arr) print("### closed ###") def print_resule(arr): text_result.delete('1.0',tk.END) for n in arr: text_result.insert("insert", n + '\n')
五、总结
有道智云供应的接口一如既往的好用,这次开拓紧张的精力全都摧残浪费蹂躏在了由于我自己录制的音频质量差而识别失落败的问题上,音频质量ok后,识别结果准确无误,下一步便是拿去翻译了,有了有道智云API,实现实时翻译也可以如此大略