python数据库连接 csv文件处理 office文件处理 win32com.client转换文件 markitdown使用介绍 docling使用介绍

2015-06-30 23:44:00
admin
原创 292
摘要:python数据库连接 csv文件处理 office文件处理 win32com.client转换文件 markitdown使用介绍 docling使用介绍

一、数据库连接

1、python2使用mysqldb访问数据库;

2、python3使用pymysql访问数据库;

3、ORM框架有Django和SQLAlchemy;

4、WEB框架排名:Flask > Django > FastAPI

5、Flask是比较轻量的框架,FastAPI是高性能的异步编程框架;


二、csv文件处理

文件以二进制形式打开,传入参数加b,否则容易产生多余空行:

import csv
if __name__ == '__main__':
    reader = csv.reader(file('aa.csv', 'rb+'))
    writer = csv.writer(file('bb.csv', 'wb+'))
    for line in reader:
        print reader.line_num
        print line
        writer.writerow(line)


三、docx文件处理

1、代码仓库:https://github.com/python-openxml/python-docx

2、帮助文档:https://python-docx.readthedocs.io/en/latest

3、python-docx介绍:支持创建、读取、更新文字文档;

4、python-docx安装:pip install python-docx


四、xlsx文件处理

1、帮助文档:https://openpyxl.readthedocs.io/en/stable/tutorial.html

2、openpyxl介绍:支持创建、读取、更新表格文档;

3、openpyxl安装:pip install openpyxl

4、openpyxl支持图片:pip install pillow


五、pptx文件处理

1、代码仓库:https://github.com/scanny/python-pptx

2、帮助文档:https://python-pptx.readthedocs.io/en/latest

3、python-pptx介绍:支持创建、读取、更新演示文档;

4、python-pptx安装:pip install python-pptx


六、pdf文件处理

pdfplumber:依赖pdfminer.six,推荐使用

1、代码仓库:https://github.com/jsvine/pdfplumber

2、帮助文档:https://www.pdfplumber.com

3、pdfplumber介绍:用于提取pdf文件内容,表格处理能力很强;

4、pdfplumber安装:pip install pdfplumber

5、pdfplumber命令使用:pdfplumber [--format {csv,json,text}] [infile]

6、pdfplumber命令实现:Page.extract_text(layout=True)

7、Page.extract_text()默认使用layout=False

8、layout=True保留原始视觉布局,layout=False实际效果通常更好;

9、建议直接编写代码调用Page.extract_text()提取pdf文件内容;


pdfminer.six:

1、代码仓库:https://github.com/pdfminer/pdfminer.six

2、帮助文档:https://pdfminersix.readthedocs.io/en/latest

3、pdfminer.six安装:pip install 'pdfminer.six[image]'


七、win32com.client使用介绍

win32com.client可以自动编辑office文件,可以自动转换office文件:

word = win32com.client.Dispatch("Word.Application")
word.Visible = False
doc = word.Documents.Open(os.path.abspath(input_path))
doc.SaveAs(os.path.abspath(output_path), FileFormat=16)
doc.Close()
word.Quit()


八、markitdown使用介绍(推荐使用)

1、to_markdown:https://github.com/microsoft/markitdown

2、ffmpeg:https://ffmpeg.org/download.html

3、ffmpeg:https://github.com/BtbN/FFmpeg-Builds/releases

4、运行过程中如果发出告警缺少ffmpeg,则需要安装ffmpeg;

5、pip install 'markitdown[all]'

6、markitdown mydoc.docx -o mydoc.md


九、docling使用介绍(对比使用)

1、代码仓库:https://github.com/docling-project/docling

2、docling介绍:支持转换文档为markdown、html、json

3、docling优势:pdf解析效果非常好;

4、docling安装:pip install docling

发表评论
评论通过审核之后才会显示。