循环读取 Excel 并写入 MySQL,如何优化性能以避免速度变慢?
循环读取excel 并写入mysql 的性能优化
背景:
在处理大量数据时,循环读取excel文件并将其写入mysql 数据库是一个常见的操作。但是,随着文件数量的增加,插入速度可能会显着降低。
问题:
使用 for 循环打开多个 excel 文件并写入数据库时,初始执行速度较快,但随后速度会越来越慢。
分析:
根据问题描述,可以推测缓慢的根源可能是以下原因之一:
- 数据库连接延迟:每次循环打开一个数据库连接可能会导致时间开销。
- 打印输出:打印数据到控制台或日志文件会减慢程序执行速度。
- 文件处理开销:反复加载和关闭 excel 文件也可能导致性能问题。
解决方案:
1. 优化数据库连接:
- 使用上下文管理器( with 语句) 来管理连接,从而避免每次循环都建立和关闭连接。
- 考虑使用连接池来管理数据库连接,以减少建立和关闭连接的开销。
2. 禁用打印输出:
- 注释掉所有调试或日志打印语句,以便仅执行必要的操作。
3. 优化文件处理:
- 避免多次加载和关闭 excel 文件。使用单个 load_workbook() 实例来加载所有文件,并使用 ws.iter_rows() 方法迭代行,而不是读取每个单独的单元格。
示例代码:
from openpyxl import load_workbook import pymysql # 建立数据库连接 db = pymysql.connect(host="localhost", port=3306, user="test", password="123456", database="test", charset="utf8") cur = db.cursor() wb = load_workbook(r'E:\整理数据\4月\1 (17).xlsx') ws = wb.active # 定义需要插入的字段 fields = ["d", "fb", "kh", "wdzl", "zxzl", "jpzl", "jszl", "jpinfo", "ywtime"] # 遍历文件中的所有行 for row in ws.iter_rows(min_row=2): values = [cell.value for cell in row] # 构建插入语句 sql = "INSERT INTO testdata ({}) VALUES ({})".format( ",".join(fields), ",".join(["%s"] * len(fields)) ) # 执行插入操作 cur.execute(sql, values) db.commit() # 关闭数据库连接 cur.close() db.close()
其他建议:
- 确保数据库索引已建立,以提高查询性能。
- 根据需要调整 mysql 配置,例如增加 innodb_buffer_pool_size。
- 考虑使用多线程或多进程来并行处理文件。