Public Docs
【模型量化】深度学习模型量化 & 量化理论 & 各平台的量化过程 & 硬件加速
【TVM】TI关于TVM的使用测试与分析
【LLM&LVM】大模型开源工程思维导图
【北航卓越工程师】《汽车前沿技术导论:智能驾驶》讲义
【工具链】Yocto使用介绍——使用Yocto创建一个树莓派的系统镜像
【工具链】使用ssh+dialog指令设定服务器指定用户仅容器访问
【推理引擎】一篇关于模型推理的详细对比与学习
【推理引擎】关于TVM中的Schedule优化详解(On going)
【LLM微调】使用litgpt进行私有数据集模型微调的测试总结
【TVM】在TVM Relay中创建一个自定义操作符
【STT+LLM+TTS】如何使用语音转文字模型+大预言模型+语音生成模型完成一个类人的语音交互机器人
【RAG】 通过RAG构建垂直领域的LLM Agent的方法探索
【RAG】GraphRAG精读与测试(On going)
【AI Agent】MetaGPT精读与学习
【AI Base】Ilya Sutskever 27篇必读论文分享清单
【Nvidia】Jetson AGX Orin/ Jetson Orin nano 硬件测试调试内容(On going)
【BI/DI】LLM Using in BI Testing Scenario (On going)
【Nvidia】How to Activate a Camera on Nvidia Platform in Details
【RAS-PI】树莓派驱动开发
【行业咨询阅读】关注实时咨询和分析
【mobileye】2024 Driving AI
【mobileye】SDS_Safety_Architecture
【yolo】yolov8测试
【nvidia】Triton server实践
【alibaba】MNN(on updating)
【OpenAI】Triton(on updating)
【CAIS】关于Compound AI Systems的思考
【Nvidia】关于Cuda+Cudnn+TensorRT推理环境
【BEV】BEVDet在各个平台上的执行效率及优化(On Updating)
【Chip】AI在芯片设计和电路设计中的应用
【Chip】ChiPFormer
【Chip】关于布线的学习
【Chip】MaskPlace论文精读与工程复现优化
【gynasium】强化学习初体验
【Cadence】X AI
【transformer】MinGPT开源工程学习
【中间件】针对apollo 10.0中关于cyberRT性能优化的深度解读和思考
【Robotics】调研了解当前机器人开发者套件(on updating)
【Robotics】ROS CON China 2024 文档技术整理与感想总结(上2024.12.7,中2024.12.8,下场外产品)
【algorithm】关于模型、数据与标注规范的平衡问题
【nvidia】DLA的学习了解与使用
【nvidia】构建nvidia嵌入式平台的交叉编译环境(其他环境平台可借鉴)
文档发布于【Feng's Docs】
-
+
首页
【STT+LLM+TTS】如何使用语音转文字模型+大预言模型+语音生成模型完成一个类人的语音交互机器人
# 1. Introduction * 通过对各种大模型部署框架以及一些语音模型的研究及调研可以使用ollama框架实现对大预言模型(llama3,moondream,phi)和 多模态模型(llava)的部署 [ollama-api documents](https://github.com/ollama/ollama/blob/main/docs/api.md) * 基于Chat-TTS开源工程能够将llm给出的文字结果通过语音的形式给与反馈 [chat-tts github project](https://github.com/2noise/ChatTTS) * [whisper](https://github.com/openai/whisper) 提供了一个很好的离线框架用于STT过程. 所以, 我们可以基于以下方式将整个推理过程进行联动给出结果, 完成一个可用于人类情感对话的语音机器人. ``` mermaid graph LR A[User speaches] -- voice --> B[whisper] B -- text request --> C[LLM] F[texts/pictures] -- request --> C C -- text response --> D[Chat-TTS] C -- actionbyHomeAssisstant --> G[hardware] D -- voice --> E[Earphone or Audio] ``` * 基于[HomeAssistant](https://github.com/geekofweek/homeassistant)的智能设备交互指令 * 基于[Openglass](https://github.com/BasedHardware/OpenGlass)项目的基础上,进一步完善整个交互流程, 对[XIAO ESP32](https://wiki.seeedstudio.com/xiao_esp32s3_bluetooth/)各种模块的使用如ble(bluetooth low energy), microphone, camera等 * 使用[python Robyn](https://robyn.tech/)作为整个后端, 发布交互服务. 包括: * 语音身份验证 * 语音(voice wave)+图片(image)输入, 语音(voice wave)输出 * 生成用于控制智能设备的控制指令 * 数据库 * 使用web或者ISO应用进行信息检索与交互 # 2. Description ## 2.1. Dependencies * Chat-TTS: 用于生成类人文字转语音模型: pip install the requirements of Chat-TTS project or directly `pip install Chat-TSS` * 用于保存音频: pip install torchaudio[all]; jupyter前端可使用Audio * 用于保存wav格式的音频:`sudo apt-get install sox libsox-dev ffmpeg` * ollama: 可以参考ollama工程进行ollama镜像的部署, 用于提供大语言或者多模态模型的交互 * robyn: `pip install robyn` * whisper: `pip install whisper` ## 2.2. Codes ### 2.2.1. 产文本切分 ``` python import re def split_long_text(text, max_length=100): # 使用正则表达式匹配中文“。”和英文“.”作为分隔符 segments = re.split(r'(?<=[。\.])', text) result = [] current_segment = "" for segment in segments: if len(current_segment) + len(segment) <= max_length: current_segment += segment else: if current_segment: result.append(current_segment) current_segment = segment if current_segment: result.append(current_segment) return result text = "这是一个非常长的字符串。它包含了很多句子,每个句子都可能非常长。你可以用它来测试分割功能。Make sure it works with English sentences as well. The text can be long enough to test the function." result = split_long_text(text, max_length=100) for i, segment in enumerate(result): print(f"Segment {i+1}: {segment}") ``` ``` shell # output Segment 1: 这是一个非常长的字符串。它包含了很多句子,每个句子都可能非常长。你可以用它来测试分割功能。Make sure it works with English sentences as well. Segment 2: The text can be long enough to test the function. ``` ### 2.2.2. 多余字符和表情清理 ``` python def clean_no_need_text(text): # 去掉 \n 和多余的空白字符 text = text.replace('\n', ' ').strip() # 使用正则表达式去除 emoji 和特殊符号 # 这里的正则表达式匹配所有的 emoji 表情和特殊符号 emoji_pattern = re.compile( "[" "\U0001F600-\U0001F64F" # Emoticons "\U0001F300-\U0001F5FF" # Symbols & Pictographs "\U0001F680-\U0001F6FF" # Transport & Map Symbols "\U0001F1E0-\U0001F1FF" # Flags (iOS) "\U00002700-\U000027BF" # Dingbats "\U0001F900-\U0001F9FF" # Supplemental Symbols and Pictographs "\U0001FA70-\U0001FAFF" # Symbols and Pictographs Extended-A "\U00002500-\U00002BEF" # Chinese characters "\U0001F600-\U0001F64F" "\U0001F680-\U0001F6FF" "]+", flags=re.UNICODE ) cleaned_text = emoji_pattern.sub(r'', text) return cleaned_text # 示例文本 texts = ['😊\n\n如果我需要推薦一個關於投資理財的書籍,我會推薦《The Intelligent Investor》(聰明投資者)作者為 Benjamin Graham。\n\n這本書出版於1949年,但它仍然是投資界的一個經典作品。Graham 是 Wall Street 的一位大師級人物,他在《The Intelligent Investor》中提出了一個基于基本分析的投資策略,這種策略可以幫助投資者避免損失,並獲取長期的投資回報。\n\n這本書的優點是,它不僅提供了基本的金融知識和概念,還教會讀者如何應對市場的變化、管理風險、評估投資 opportunity 等等。Graham 的投資哲學是基于長期持有、低成本、高獲利的理念,這種策略可以幫助投資者避免泡沫和 market crash。\n\n如果你是一個投資新手或經驗豐富的投資者,《The Intelligent Investor》都是值得閱讀的一本書籍。它可以幫助你建立自己的投資哲學,並讓你更好地理解金融市場和投資理財。 💸\n\n總的來說,《The Intelligent Investor》是一本有價值、實用的投資指南,對任何想投資的人都是非常有益的! 📚'] # 清理文本 cleaned_texts = [clean_text(text) for text in texts] # 输出清理后的文本 for i, cleaned_text in enumerate(cleaned_texts): print(f"Cleaned Text {i+1}: {cleaned_text}") ``` ``` shell # output Cleaned Text 1: 如果你想了解投资理财,我强烈建议你阅读《A Random Walk Down Wall Street》(《随机游走 WALL STREET》) written by Burton G. Malkiel。这本书是一本经典的投资著作,首次出版于1973年。 Malkiel 是一位知名金融学家和经济学家,他在这本书中对投资理财进行了深入的分析和解释。书中的主要内容包括:1. 投资的基本原则:Malkiel 论述了投资的基本原则,例如投资组合、风险管理和投资策略。2. 股票市场的行为学:他详细探讨了股票市场的行为学,包括市场趋势、波动性和效率等方面。3. 投资工具和技术:Malkiel 对各种投资工具和技术进行了分析,例如期货、options 和 ETF 等。我认为,这本书对投资理财非常有帮助。 Malkiel 的写作风格轻松 yet informative,易于理解,且对读者的投资经验没有特殊要求。同时,这本书的知识架构完整,涵盖了投资的各个方面。总之,《A Random Walk Down Wall Street》是一本经典的投资著作,对投资理财有很大的帮助。我建议你阅读这本书,如果你想了解更多关于投资和股票市场的信息。 ``` ### 2.2.3. 正则化文本,将一些无法生成音频的文字剔除或替换 ``` python def normalize_text(text): # 删除换行符和多余的空格,将所有空白字符替换为单一空格 text = re.sub(r'\s+', ' ', text).strip() # 替换标点符号 text = re.sub(r'[…?!;]', '。', text) # 替换省略号、问号、感叹号、分号为句号 text = re.sub(r'[?!;]', '.', text) # 替换英文问号、感叹号、分号为句号 text = re.sub(r'[:、]', ',', text) text = re.sub(r'[:]', ',', text) # # 删除特殊字符 text = re.sub(r'[《》【】()“”’‘——¥]', '', text) # 删除中文特殊字符 text = re.sub(r'[<>\"\'\[\]\{\}\(\)\_\-\—+=*&%$#@]', '', text) # 删除英文特殊字符 # 将多个句号或逗号合并为一个 text = re.sub(r'。+', '。', text) text = re.sub(r',+', ',', text) text = re.sub(r'\.+', '.', text) return text # 示例文本 cleaned_texts = [ """ 如果你想了解投资理财,我强烈建议你阅读《A Random Walk Down Wall Street》(《随机游走 WALL STREET》) written by Burton G. Malkiel。这本书是一本经典的投资著作,首次出版于1973年。 Malkiel 是一位知名金融学家和经济学家, 他在这本书中对投资理财进行了深入的分析和解释。书中的主要内容包括:1. 投资的基本原则:Malkiel 论述了投资的基本原则,例如投资组合、 风险管理和投资策略。2. 股票市场的行为学:他详细探讨了股票市场的行为学,包括市场趋势、波动性和效率等方面。3. 投资工具和技术: Malkiel 对各种投资工具和技术进行了分析,例如期货、options 和 ETF 等。我认为,这本书对投资理财非常有帮助。 Malkiel 的写作风格轻松 yet informative,易于理解,且对读者的投资经验没有特殊要求。同时,这本书的知识架构完整, 涵盖了投资的各个方面。总之,《A Random Walk Down Wall Street》是一本经典的投资著作,对投资理财有很大的帮助。 我建议你阅读这本书,如果你想了解更多关于投资和股票市场的信息。 """ ] # 清理文本 normalize_texts = [normalize_text(text) for text in cleaned_texts] # 输出清理后的文本 for i, normalized_text in enumerate(normalize_texts): print(f"Normalized Text {i+1}: {normalized_text}") ``` ``` shell # output Normalized Text 1: 如果你想了解投资理财,我强烈建议你阅读A Random Walk Down Wall Street随机游走 WALL STREET written by Burton G. Malkiel。这本书是一本经典的投资著作,首次出版于1973年。 Malkiel 是一位知名金融学家和经济学家, 他在这本书中对投资理财进行了深入的分析和解释。书中的主要内容包括,1. 投资的基本原则,Malkiel 论述了投资的基本原则,例如投资组合, 风险管理和投资策略。2. 股票市场的行为学,他详细探讨了股票市场的行为学,包括市场趋势,波动性和效率等方面。3. 投资工具和技术, Malkiel 对各种投资工具和技术进行了分析,例如期货,options 和 ETF 等。我认为,这本书对投资理财非常有帮助。 Malkiel 的写作风格轻松 yet informative,易于理解,且对读者的投资经验没有特殊要求。同时,这本书的知识架构完整, 涵盖了投资的各个方面。总之,A Random Walk Down Wall Street是一本经典的投资著作,对投资理财有很大的帮助。 我建议你阅读这本书,如果你想了解更多关于投资和股票市场的信息。 ``` ### 2.2.4. 配置cudnn参数, 加载ChatTTS模型, 设置问答payload, 发送请求 ``` python import torch # set the parameters of cudnn torch._dynamo.config.cache_size_limit = 64 torch._dynamo.config.suppress_errors = True torch.set_float32_matmul_precision('high') torch.backends.cudnn.enabled = False import ChatTTS from IPython.display import Audio # create the object of chat tts chat = ChatTTS.Chat() # load the model of chat tts chat.load_models() import requests import json # API URL url = "http://xxxxxxxxxxxx/api/generate" # request payload payload = { "model": "llama3", "prompt": "如果希望你推荐给我一般关于投资理财的书籍,那会是哪一本,为什么?另外请用中文回答我", "stream": False } # POST Request response = requests.post(url, data=json.dumps(payload), headers={"Content-Type": "application/json"}) ``` ### 2.2.5. 校验请求结果并进行后处理 ``` python texts = '' # 检查请求是否成功 if response.status_code == 200: # print("Response JSON:", response.json()['response']) texts = [response.json()['response']][0] print("raw:", texts) texts = clean_no_need_text(texts) print("clean:", texts) texts = normalize_text(texts) print("normalize:", texts) texts = split_long_text(texts, 100) print("split:", texts) else: print(f"Request failed with status code: {response.status_code}, Response text: {response.text}") ``` ``` shell # output raw: 😊 如果您想学习投资理财,我强烈建议您读《The Intelligent Investor》(有智慧的投资者)。这是一本经典的投资著作,作者Charles Ellis认为这是投资领域的“圣经”。 为什么我会推荐这本书?因为: 1. **基础知识**:这本书提供了投资的基本概念和原则,对于投资新手来说是一个非常好的起点。 2. **长期投资观念**:《The Intelligent Investor》强调投资的长期视角,鼓励您避免短期的投机行为,而是采取长期持有策略,这样可以减少风险和提高回报率。 3. **市场无常性**:作者 Ellis 强调市场的无常性,即使您拥有很好的投资计划,但市场仍然会对您的投资产生影响。因此,您需要具有足够的风险承受能力和投资智慧。 4. **避免情感投资**:这本书还提醒您不要根据个人情感进行投资决策,而是基于科学分析和明确的投资目标。 总之,《The Intelligent Investor》是一本非常实用的投资著作,能够帮助您建立投资的正确观念和策略。即使您已经有了一定的投资经验,也值得您重新回顾和学习这本书中的知识。 😊 clean: 如果您想学习投资理财,我强烈建议您读《The Intelligent Investor》(有智慧的投资者)。这是一本经典的投资著作,作者Charles Ellis认为这是投资领域的“圣经”。 为什么我会推荐这本书?因为: 1. **基础知识**:这本书提供了投资的基本概念和原则,对于投资新手来说是一个非常好的起点。 2. **长期投资观念**:《The Intelligent Investor》强调投资的长期视角,鼓励您避免短期的投机行为,而是采取长期持有策略,这样可以减少风险和提高回报率。 3. **市场无常性**:作者 Ellis 强调市场的无常性,即使您拥有很好的投资计划,但市场仍然会对您的投资产生影响。因此,您需要具有足够的风险承受能力和投资智慧。 4. **避免情感投资**:这本书还提醒您不要根据个人情感进行投资决策,而是基于科学分析和明确的投资目标。 总之,《The Intelligent Investor》是一本非常实用的投资著作,能够帮助您建立投资的正确观念和策略。即使您已经有了一定的投资经验,也值得您重新回顾和学习这本书中的知识。 normalize: 如果您想学习投资理财,我强烈建议您读The Intelligent Investor有智慧的投资者。这是一本经典的投资著作,作者Charles Ellis认为这是投资领域的圣经。 为什么我会推荐这本书。因为, 1. 基础知识,这本书提供了投资的基本概念和原则,对于投资新手来说是一个非常好的起点。 2. 长期投资观念,The Intelligent Investor强调投资的长期视角,鼓励您避免短期的投机行为,而是采取长期持有策略,这样可以减少风险和提高回报率。 3. 市场无常性,作者 Ellis 强调市场的无常性,即使您拥有很好的投资计划,但市场仍然会对您的投资产生影响。因此,您需要具有足够的风险承受能力和投资智慧。 4. 避免情感投资,这本书还提醒您不要根据个人情感进行投资决策,而是基于科学分析和明确的投资目标。 总之,The Intelligent Investor是一本非常实用的投资著作,能够帮助您建立投资的正确观念和策略。即使您已经有了一定的投资经验,也值得您重新回顾和学习这本书中的知识。 split: ['如果您想学习投资理财,我强烈建议您读The Intelligent Investor有智慧的投资者。这是一本经典的投资著作,作者Charles Ellis认为这是投资领域的圣经。', ' 为什么我会推荐这本书。因为, 1. 基础知识,这本书提供了投资的基本概念和原则,对于投资新手来说是一个非常好的起点。 2.', ' 长期投资观念,The Intelligent Investor强调投资的长期视角,鼓励您避免短期的投机行为,而是采取长期持有策略,这样可以减少风险和提高回报率。 3.', ' 市场无常性,作者 Ellis 强调市场的无常性,即使您拥有很好的投资计划,但市场仍然会对您的投资产生影响。因此,您需要具有足够的风险承受能力和投资智慧。 4.', ' 避免情感投资,这本书还提醒您不要根据个人情感进行投资决策,而是基于科学分析和明确的投资目标。', ' 总之,The Intelligent Investor是一本非常实用的投资著作,能够帮助您建立投资的正确观念和策略。即使您已经有了一定的投资经验,也值得您重新回顾和学习这本书中的知识。'] ``` ### 2.2.6. 选择语音,并加载 * 根据[Chat-TTS核心代码](https://github.com/2noise/ChatTTS/blob/main/ChatTTS/core.py)可以使用`sample_random_speaker`接口随机一个speaker. 但是由于语音合成的难度,所以可以选择一个对于长文本和多段文本生成语音质量更可靠的声音,当然也可以使用自己的声音生成pt文件.关于音频的选择与使用可参考[ChatTTS_Speaker](https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker/summary). 我使用rank_multi进行排序,选择了一个评分高且相对较均衡的speaker, `seed2155`. ``` python # random speaker # rand_spk = chat.sample_random_speaker() # print(rand_spk) # chosen one with seed id https://modelscope.cn/studios/ttwwwaa/ChatTTS_Speaker/summary # seed_id rank_long rank_multi rank_single score gender age feature # seed_2155 90.99 91.57 91.34 0.4 男 54.66% 女 45.34% 青年 100.00% # rank_long: 长句文本的音色稳定性评分。 # rank_multi: 多句文本的音色稳定性评分。 # rank_single: 单句文本的音色稳定性评分。 spk = torch.load("seed_2155_restored_emb.pt") # print(spk) ``` ### 2.2.7. 配置语音合成参数 * 可参考[Awesome-ChatTTS](https://github.com/libukai/Awesome-ChatTTS)了解详细的参数说明 ``` python params_infer_code = { 'spk_emb': spk, # add sampled speaker 'temperature': .3, # using custom temperature 'top_P': 0.7, # top P decode 'top_K': 20, # top K decode } ################################### # For sentence level manual control. # use oral_(0-9), laugh_(0-2), break_(0-7) # to generate special token in text to synthesize. params_refine_text = { 'prompt': '[oral_2][laugh_0][break_6]' } ``` ### 2.2.8. 生成音频并保存 ``` python print(texts) import torchaudio if len(texts) > 0: # wavs = chat.infer(texts) wavs = chat.infer(texts, skip_refine_text=True, params_refine_text=params_refine_text, params_infer_code=params_infer_code) waveforms = [] for wav in wavs: waveforms.append(torch.from_numpy(wav)) merged_waveform = torch.cat(waveforms, dim=1) # 在时间维度上拼接 torchaudio.save("output.wav", merged_waveform, 24000, format="wav") else: print(f"No response") ```  * 体验一下语音问答的快乐 * Q: `why the sky is blue?` <audio controls> <source src="https://www.dropbox.com/scl/fi/li2yh5kyspfijcm48xzun/why_sky_is_blue.wav?rlkey=i3sfxyrwsnkmx4mgahzc6py8v&st=0bm7j65p&dl=1" type="audio/wav"> Your browser does not support the audio element. </audio> * Q: `如果希望你推荐给我一般关于投资理财的书籍,那会是哪一本,为什么?另外请用中文回答我?` <audio controls> <source src="https://www.dropbox.com/scl/fi/nqajfkf68fp0ft0u3h25g/book_recommand.wav?rlkey=ugabj8pjzrtsmu89n77zdklqh&st=q8mgzs6y&dl=1" type="audio/wav"> Your browser does not support the audio element. </audio> # 2.2.9. Wav to Text STT ``` python import whisper model = whisper.load_model("large") result = model.transcribe("why_sky_is_blue.wav") print(result["text"]) # output: # The color of the sky blue is a fascinating topic that has puzzled humans for centuries. So why is the sky blue? There are several reasons contributing to the sky's blueness. One, scattering when sunlight enters Earth's atmosphere, it encounters tiny molecules of gases like nitrogen, N2, and oxygen, O2. These molecules scatter the light in all directions, but they do so more efficiently for shorter wavelengths like blue and violet. This is known as Rayleigh scattering, named after the British physicist Lord Rayleigh II. Atmospheric particles, the atmosphere contains aerosols such as dust, pollen, smoke, and water vapor, which also scatter light. These particles have a different effect on longer wavelengths like red and orange, causing them to be absorbed or scattered in different ways. Three, Earth's curvature as you look at the sky, your line of sight is actually a curve that intersects with the Earth's surface at a certain angle. This means that the blue light from higher altitudes has a longer path to travel before reaching your eyes, which affects its apparent color. Four, atmospheric conditions, weather phenomena like clouds, haze, and pollution can alter the sky's color. For example, during sunrise and sunset, the sky often takes on hues of orange and red due to the scattering of shorter wavelengths by atmospheric particles. In summary, the blue color of the sky is primarily due to the scattering of sunlight by tiny particles. Many molecules in the atmosphere Rayleigh scattering. The combination of this effect with the presence of aerosols and the Earth's curvature contributes to the overall blueness we see in the sky. Now go enjoy that beautiful blue sky. ``` ## 2.3. Additional * 如果想要使用多模态模型,可以使用ollama doc中的教程,进入ollama容器`ollama pull llava` * 将需要转换的图片可以离线进行 [base64 图片转换](https://base64.guru/converter/encode/image),或使用python接口 * 使用ollama提供的api进行测试 ## 2.4. Backend Service API [todo] # 3. Open Issues * 模型初次初始化时,速度较慢,执行过程中单词交互的语音生成速度也比较慢,性能还没有具体分析 * 当文字过长时,语音生成的质量下降比较明显。需要将文字部分进行拆分。 # 4. Annexe * jupyter code:[【附件】ollama+chatTTS-all.ipynb](/media/attachment/2024/06/ollamachatTTS-all_A5HS9DS.ipynb) * speaker seed:[【附件】seed_2155_restored_emb.pt](/media/attachment/2024/06/seed_2155_restored_emb.pt)
dingfeng
2024年6月25日 16:13
2435
0 条评论
转发文档
收藏文档
上一篇
下一篇
评论
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码