html转md的Python程序
这是一个Python脚本,用于将目录及其子目录下的HTML文件批量转换为Markdown格式。脚本使用html2text库进行转换,保留原HTML中的链接,并将转换后的MD文件保存到指定输出目录。主要功能包括:单文件转换、递归遍历目录处理所有HTML文件、自动创建输出文件夹。运行后会打印每个文件的转换状态,便于追踪进度。该工具适用于需要将HTML知识库内容迁移到仅支持Markdown格式平台的情况
·
读取目录及子目录下html文件转换为md格式
很多知识库不支持html格式,用本程序可以批量转换为md格式
import os
import html2text
from pathlib import Path
def convert_html_to_md(html_path, output_dir):
with open(html_path, 'r', encoding='utf-8') as f:
html_content = f.read()
# 使用 html2text 转换为 Markdown
h = html2text.HTML2Text()
h.ignore_links = False # 保留链接
markdown_content = h.handle(html_content)
# 生成输出文件路径
output_file = output_dir / (html_path.stem + ".md")
with open(output_file, 'w', encoding='utf-8') as f:
f.write(markdown_content)
print(f"✅ 转换完成: {html_path} -> {output_file}")
def batch_convert_all_html(root_path):
root_path = Path(root_path).resolve()
output_dir = root_path / "python_output"
output_dir.mkdir(exist_ok=True)
for dirpath, dirnames, filenames in os.walk(root_path):
for file in filenames:
if file.lower().endswith((".html", ".htm")):
html_file_path = Path(dirpath) / file
convert_html_to_md(html_file_path, output_dir)
if __name__ == "__main__":
current_directory = Path(__file__).parent
batch_convert_all_html(current_directory)
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)