python数据库连接 csv文件处理 pptx文件处理 markitdown使用介绍 docling使用介绍 win32com.client转换文件

2015-06-30 23:44:00
admin
原创 156
摘要:python数据库连接 csv文件处理 pptx文件处理 markitdown使用介绍 docling使用介绍 win32com.client转换文件

一、数据库连接

1、python2使用mysqldb访问数据库;

2、python3使用pymysql访问数据库;

3、ORM框架有Django和SQLAlchemy;

4、WEB框架排名:Flask > Django > FastAPI

5、Flask是比较轻量的框架,FastAPI是高性能的异步编程框架;


二、csv文件处理

文件以二进制形式打开,传入参数加b,否则容易产生多余空行:

import csv
if __name__ == '__main__':
    reader = csv.reader(file('aa.csv', 'rb+'))
    writer = csv.writer(file('bb.csv', 'wb+'))
    for line in reader:
        print reader.line_num
        print line
        writer.writerow(line)


三、pptx文件处理

1、代码仓库:https://github.com/scanny/python-pptx

2、帮助文档:https://python-pptx.readthedocs.io/en/latest

3、python-pptx介绍:支持创建、读取、更新演示文档;

4、python-pptx安装:pip install python-pptx


四、markitdown使用介绍(推荐使用)

1、to_markdown:https://github.com/microsoft/markitdown

2、ffmpeg:https://ffmpeg.org/download.html

3、ffmpeg:https://github.com/BtbN/FFmpeg-Builds/releases

4、运行过程中如果发出告警缺少ffmpeg,则需要安装ffmpeg;

5、pip install 'markitdown[all]'

6、markitdown mydoc.docx -o mydoc.md


五、docling使用介绍(对比使用)

1、代码仓库:https://github.com/docling-project/docling

2、docling介绍:支持转换文档为markdown、html、json

3、docling优势:pdf解析效果非常好;

4、docling安装:pip install docling


六、win32com.client使用介绍

win32com.client可以自动编辑office文件,可以自动转换office文件:

word = win32com.client.Dispatch("Word.Application")
word.Visible = False
doc = word.Documents.Open(os.path.abspath(input_path))
doc.SaveAs(os.path.abspath(output_path), FileFormat=16)
doc.Close()
word.Quit()

发表评论
评论通过审核之后才会显示。