一个让AI用HTML格式处理复杂文本结构的实践

最近读了一篇文章，是 Anthropic 工程师 Thariq 写的，他说自己已经几乎不再让 AI 输出 Markdown，几乎所有任务都改成让 Claude Code 生成 HTML。Thariq 说了一个很具体的细节：Markdown 能做的，基本就是标题、加粗、列表、代码块、简单表格。但HTML 可以用 Tab 分组、加插图辅助、做链接导航，同样的内容可读性会高很多。

Thariq 讲的是 HTML 作为 AI 输出格式的优势。但读完之后，我想到的是另一个方向：如果 HTML 能让 AI 把信息表达得更准确，那当 AI 读取信息的时候，HTML 是不是也比 Markdown 更好？

我遇到的问题：有些材料 AI 看得到，但读不懂

最近我在整理一批关于 AI 备案的材料——包括算法备案的判断框架、大模型备案的材料清单等等信息。这些材料的原始形式是 PDF 和 PPT，内容结构非常复杂：有多层嵌套的表格、有并列比较的卡片、有判断逻辑的流程图，还有一些侧向排版的图注。

我最初的做法是让 AI 把 PDF 转成 Markdown，然后用这些 Markdown 文本来分析资料，但转化效果不理想（如下图所示）。

Markdown 的平铺结构装不下这些材料的信息层次。一张原本有颜色、有分组、有重点标注的对照表格，到了 Markdown 里就变成了一堆竖线加连字符。AI 能读到，但真的能理解这是一张对比表格、哪些是主项哪些是子项吗？不一定。因此，AI无法真正结构化地吸收这类被转化为markdown格式的文本。

我的解决方法

受 Thariq 那篇文章的启发，我尝试换一种方式：不把 PDF 转成 Markdown，而是转成 HTML。具体过程分三步：

第一步，语义重建。

让 AI 识别 PDF 中的内容，同时理解原文的信息结构。这里的关键指令是：不要用 OCR 方式把字机械地抠出来，而是在理解信息结构的基础上，自主完成 HTML 的信息呈现与整合——这里是一张对照表格，就用 <table> 建出来；这里是三个并列的卡片，就用对应的结构表达；这里是一段重要提示，就让它在 HTML 里保持醒目。目的不是复原原文，而是把信息提炼清楚、锁定下来，让未来的 AI 对话能更容易调用这些内容。

💡下图为让Claude识别pdf文件信息后自己构建完成的算法备案相关html文件内容

第二步，固化这套指令。

完成第一次转化之后，我把这套要求整理成了一段固定的「PPT转HTML方法说明文件」。它描述了我转化复杂 PPT 或 PDF 时的具体期望：AI 应该怎么理解结构、怎么取舍内容、以什么方式生成 HTML。这样，下次再遇到同类材料，不用重新解释，直接调用这段文本，AI 就能按同一套标准来处理。

第三步，用 HTML 文件写作。

等所有材料都被转成 HTML 之后，把这些文件全部提供给 AI，让它读取一系列html来进行分析。

HTML 是双向的

HTML 作为 AI 的输出格式确实结构更丰富、可视化更强、更容易分享，但在转化结构复杂的图表上，HTML 同样适合作为 AI 的输入格式。

当我把复杂材料先转成结构化 HTML 再让 AI 读取，AI 对信息层级的理解比 Markdown 更准确。

HTML 的标签本身就是语义信号：<th> 告诉 AI 这是表头，<strong> 告诉 AI 这是重点，<ul> 说这是并列关系——不需要 AI 从 | 和 # 里猜意图。尤其是表格，HTML 的 <table> 结构完整保留了每一行、每一列的关系，而 Markdown 的表格是带 | 的纯文本，列与列之间的逻辑关系要靠 AI 自己推断。

这让我想到一个更普遍的原则：信息的呈现方式影响理解的深度。 这对人类读者成立，对 AI 也成立。给 AI 更结构化的信息，AI 才能做出更结构化的整合。

💡

当然，小提示是，并非所有材料都需要先转 HTML。在满足以下情况的情况下，这个步骤才值得做：

材料有大量对照表格、并列比较、多层嵌套
原始格式是扫描版 PDF 或结构复杂的 PPT
你需要 AI 做跨多个文件的信息整合，而不只是概括单个文档

多走这一步，不是为了格式上的整洁，而是为了让 AI 真正读懂这些材料，而不只是读过。