python数据库连接 csv文件处理 office文件处理 win32com.client转换文件 markitdown使用介绍 docling使用介绍
- 2015-06-30 23:44:00
- admin
- 原创 292
一、数据库连接
1、python2使用mysqldb访问数据库;
2、python3使用pymysql访问数据库;
3、ORM框架有Django和SQLAlchemy;
4、WEB框架排名:Flask > Django > FastAPI
5、Flask是比较轻量的框架,FastAPI是高性能的异步编程框架;
二、csv文件处理
文件以二进制形式打开,传入参数加b,否则容易产生多余空行:
import csv
if __name__ == '__main__':
reader = csv.reader(file('aa.csv', 'rb+'))
writer = csv.writer(file('bb.csv', 'wb+'))
for line in reader:
print reader.line_num
print line
writer.writerow(line)
三、docx文件处理
1、代码仓库:https://github.com/python-openxml/python-docx
2、帮助文档:https://python-docx.readthedocs.io/en/latest
3、python-docx介绍:支持创建、读取、更新文字文档;
4、python-docx安装:pip install python-docx
四、xlsx文件处理
1、帮助文档:https://openpyxl.readthedocs.io/en/stable/tutorial.html
2、openpyxl介绍:支持创建、读取、更新表格文档;
3、openpyxl安装:pip install openpyxl
4、openpyxl支持图片:pip install pillow
五、pptx文件处理
1、代码仓库:https://github.com/scanny/python-pptx
2、帮助文档:https://python-pptx.readthedocs.io/en/latest
3、python-pptx介绍:支持创建、读取、更新演示文档;
4、python-pptx安装:pip install python-pptx
六、pdf文件处理
pdfplumber:依赖pdfminer.six,推荐使用
1、代码仓库:https://github.com/jsvine/pdfplumber
2、帮助文档:https://www.pdfplumber.com
3、pdfplumber介绍:用于提取pdf文件内容,表格处理能力很强;
4、pdfplumber安装:pip install pdfplumber
5、pdfplumber命令使用:pdfplumber [--format {csv,json,text}] [infile]
6、pdfplumber命令实现:Page.extract_text(layout=True)
7、Page.extract_text()默认使用layout=False
8、layout=True保留原始视觉布局,layout=False实际效果通常更好;
9、建议直接编写代码调用Page.extract_text()提取pdf文件内容;
pdfminer.six:
1、代码仓库:https://github.com/pdfminer/pdfminer.six
2、帮助文档:https://pdfminersix.readthedocs.io/en/latest
3、pdfminer.six安装:pip install 'pdfminer.six[image]'
七、win32com.client使用介绍
win32com.client可以自动编辑office文件,可以自动转换office文件:
word = win32com.client.Dispatch("Word.Application")
word.Visible = False
doc = word.Documents.Open(os.path.abspath(input_path))
doc.SaveAs(os.path.abspath(output_path), FileFormat=16)
doc.Close()
word.Quit()
八、markitdown使用介绍(推荐使用)
1、to_markdown:https://github.com/microsoft/markitdown
2、ffmpeg:https://ffmpeg.org/download.html
3、ffmpeg:https://github.com/BtbN/FFmpeg-Builds/releases
4、运行过程中如果发出告警缺少ffmpeg,则需要安装ffmpeg;
5、pip install 'markitdown[all]'
6、markitdown mydoc.docx -o mydoc.md
九、docling使用介绍(对比使用)
1、代码仓库:https://github.com/docling-project/docling
2、docling介绍:支持转换文档为markdown、html、json
3、docling优势:pdf解析效果非常好;
4、docling安装:pip install docling