python数据库连接 csv文件处理 pptx文件处理 markitdown使用介绍 docling使用介绍 win32com.client转换文件
- 2015-06-30 23:44:00
- admin
- 原创 156
一、数据库连接
1、python2使用mysqldb访问数据库;
2、python3使用pymysql访问数据库;
3、ORM框架有Django和SQLAlchemy;
4、WEB框架排名:Flask > Django > FastAPI
5、Flask是比较轻量的框架,FastAPI是高性能的异步编程框架;
二、csv文件处理
文件以二进制形式打开,传入参数加b,否则容易产生多余空行:
import csv
if __name__ == '__main__':
reader = csv.reader(file('aa.csv', 'rb+'))
writer = csv.writer(file('bb.csv', 'wb+'))
for line in reader:
print reader.line_num
print line
writer.writerow(line)
三、pptx文件处理
1、代码仓库:https://github.com/scanny/python-pptx
2、帮助文档:https://python-pptx.readthedocs.io/en/latest
3、python-pptx介绍:支持创建、读取、更新演示文档;
4、python-pptx安装:pip install python-pptx
四、markitdown使用介绍(推荐使用)
1、to_markdown:https://github.com/microsoft/markitdown
2、ffmpeg:https://ffmpeg.org/download.html
3、ffmpeg:https://github.com/BtbN/FFmpeg-Builds/releases
4、运行过程中如果发出告警缺少ffmpeg,则需要安装ffmpeg;
5、pip install 'markitdown[all]'
6、markitdown mydoc.docx -o mydoc.md
五、docling使用介绍(对比使用)
1、代码仓库:https://github.com/docling-project/docling
2、docling介绍:支持转换文档为markdown、html、json
3、docling优势:pdf解析效果非常好;
4、docling安装:pip install docling
六、win32com.client使用介绍
win32com.client可以自动编辑office文件,可以自动转换office文件:
word = win32com.client.Dispatch("Word.Application")
word.Visible = False
doc = word.Documents.Open(os.path.abspath(input_path))
doc.SaveAs(os.path.abspath(output_path), FileFormat=16)
doc.Close()
word.Quit()