• 欢迎访问搞代码网站,推荐使用最新版火狐浏览器和Chrome浏览器访问本网站!
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏搞代码吧

Python-读取PDF文件为文本字符并转换为音频

python 搞代码 3年前 (2022-04-21) 46次浏览 已收录 0个评论

【浏览全文】

设计思路:首先通过PyPDF2非标准库提供的接口函数将PDF文件中的文本提取进去,而后,再应用pyttsx3非标准库将文本转换为音频文件。

应用pip的形式装置两个非标准库PyPDF2、pyttsx3。

<code class="shell">pip install PyPDF2 -i https://pypi.tuna.tsinghua.edu.cn/simple/

pip install pyttsx3 -i https://pypi.tuna.tsinghua.edu.cn/simple/

将这两个须要应用到的非标准库导入到以后代码块中。

import pyttsx3 as tsx
import PyPDF2 as pdf

编写PDF文件读取函数并且返回text文本字符串。

def read_pdf_to_txt(pdf_file):
    '''
    读取PDF文件返回text文本
    :param pdf_file: PDF文件门路
    :return:
    '''
    reader = pdf.PdfFileReader(open(pdf_file, 'rb'))
    texts = ''
    for page_num in range(reader.numPages):
        text = reader.getPage(page_num).extractText()
        text = text.strip().replace('\n', ' ')
        texts = texts + text
    return texts


def to_video(text):
    '''
    文本转换为音频函数
    :param text: 文本字符串
    :return:
    '''
    sp = tsx.init()
    sp.save_to_file(text, './vi.mp3')
    sp.runAndWait()
    sp.stop()

调用to_video函数实现音频文件的转换。

to_video(text=read_pdf_to_txt('./vi.pdf'))

【往期精彩】

python 获取最新房价信息-以北京房价为例

办公自动化:Image图片转换成PDF文档存储…

python做一个微型美颜图片处理器,十行代码即可实现…

用python做一个文本翻译器,主动将中文翻译成英文,超不便的!

小王,给这2000个客户发一下节日祝愿的邮件…

python 一行命令开启网络间的文件共享…

PyQt5 批量删除 Excel 反复数据,多个文件、自定义反复项一键删除…

再见XShell,这款国人开源的终端命令行工具更nice!

python 表情包下载器,轻松下载上万个表情包、斗图不必愁…

Python 主动清理电脑垃圾文件,一键启动即可…

有了jmespath,解决python中的json数据就变成了一种享受…

解锁一个新技能,如何在Python代码中应用表情包…


搞代码网(gaodaima.com)提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发送到邮箱[email protected],我们会在看到邮件的第一时间内为您处理,或直接联系QQ:872152909。本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Python-读取PDF文件为文本字符并转换为音频

喜欢 (0)
[搞代码]
分享 (0)
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址