最近读了一篇文章,是 Anthropic 工程师 Thariq 写的,他说自己已经几乎不再让 AI 输出 Markdown,几乎所有任务都改成让 Claude Code 生成 HTML。Thariq 说了一个很具体的细节:Markdown 能做的,基本就是标题、加粗、列表、代码块、简单表格。但HTML 可以用 Tab 分组、加插图辅助、做链接导航,同样的内容可读性会高很多。

Thariq 讲的是 HTML 作为 AI 输出格式的优势。但读完之后,我想到的是另一个方向:如果 HTML 能让 AI 把信息表达得更准确,那当 AI 读取信息的时候,HTML 是不是也比 Markdown 更好?
我遇到的问题:有些材料 AI 看得到,但读不懂
最近我在整理一批关于 AI 备案的材料——包括算法备案的判断框架、大模型备案的材料清单等等信息。这些材料的原始形式是 PDF 和 PPT,内容结构非常复杂:有多层嵌套的表格、有并列比较的卡片、有判断逻辑的流程图,还有一些侧向排版的图注。

我最初的做法是让 AI 把 PDF 转成 Markdown,然后用这些 Markdown 文本来分析资料,但转化效果不理想(如下图所示)。

Markdown 的平铺结构装不下这些材料的信息层次。一张原本有颜色、有分组、有重点标注的对照表格,到了 Markdown 里就变成了一堆竖线加连字符。AI 能读到,但真的能理解这是一张对比表格、哪些是主项哪些是子项吗?不一定。因此,AI无法真正结构化地吸收这类被转化为markdown格式的文本。
我的解决方法
受 Thariq 那篇文章的启发,我尝试换一种方式:不把 PDF 转成 Markdown,而是转成 HTML。具体过程分三步:
第一步,语义重建。
让 AI 识别 PDF 中的内容,同时理解原文的信息结构。这里的关键指令是:不要用 OCR 方式把字机械地抠出来,而是在理解信息结构的基础上,自主完成 HTML 的信息呈现与整合——这里是一张对照表格,就用 <table> 建出来;这里是三个并列的卡片,就用对应的结构表达;这里是一段重要提示,就让它在 HTML 里保持醒目。目的不是复原原文,而是把信息提炼清楚、锁定下来,让未来的 AI 对话能更容易调用这些内容。
💡下图为让Claude识别pdf文件信息后自己构建完成的算法备案相关html文件内容



第二步,固化这套指令。
完成第一次转化之后,我把这套要求整理成了一段固定的「PPT转HTML方法说明文件」。它描述了我转化复杂 PPT 或 PDF 时的具体期望:AI 应该怎么理解结构、怎么取舍内容、以什么方式生成 HTML。这样,下次再遇到同类材料,不用重新解释,直接调用这段文本,AI 就能按同一套标准来处理。




第三步,用 HTML 文件写作。
等所有材料都被转成 HTML 之后,把这些文件全部提供给 AI,让它读取一系列html来进行分析。
HTML 是双向的
HTML 作为 AI 的输出格式确实结构更丰富、可视化更强、更容易分享,但在转化结构复杂的图表上,HTML 同样适合作为 AI 的输入格式。
当我把复杂材料先转成结构化 HTML 再让 AI 读取,AI 对信息层级的理解比 Markdown 更准确。
HTML 的标签本身就是语义信号:<th> 告诉 AI 这是表头,<strong> 告诉 AI 这是重点,<ul> 说这是并列关系——不需要 AI 从 | 和 # 里猜意图。尤其是表格,HTML 的 <table> 结构完整保留了每一行、每一列的关系,而 Markdown 的表格是带 | 的纯文本,列与列之间的逻辑关系要靠 AI 自己推断。
这让我想到一个更普遍的原则:信息的呈现方式影响理解的深度。 这对人类读者成立,对 AI 也成立。给 AI 更结构化的信息,AI 才能做出更结构化的整合。
💡
当然,小提示是,并非所有材料都需要先转 HTML。在满足以下情况的情况下,这个步骤才值得做:
- 材料有大量对照表格、并列比较、多层嵌套
- 原始格式是扫描版 PDF 或结构复杂的 PPT
- 你需要 AI 做跨多个文件的信息整合,而不只是概括单个文档
多走这一步,不是为了格式上的整洁,而是为了让 AI 真正读懂这些材料,而不只是读过。

