1FT 报道引爆:为什么是全球领先的不是美国?
2026 年 5 月,FT(金融时报)发表了一篇引发广泛讨论的深度报道:中国 AI 视频生成平台在用户体验和产业应用层面已超越美国同行。这不是某个单一指标的领先,而是创作者在生成速度、可控性、自由度和产品成熟度上的全面评价。
这个结论在 AI 社区引发了激烈讨论。毕竟,Sora 是 OpenAI 在 2024 年初发布的,曾一度被视为视频生成的「天花板」。然而两年之后,中国的可灵(Kling)、Vidu、即梦(Dreamina)等平台不仅追上了 Sora 的技术水平,还在产品化方面实现了反超。
AI Master 的核心观点:这不是一个「中国 vs 美国」的简单叙事,而是一个「工程速度 vs 算法创新」的系统性对比。 中国在 AI 视频生成上的领先,本质上是工程化能力的胜利——将已有的算法架构(DiT、扩散模型、3D VAE)以极快的速度转化为成熟产品,并在用户反馈的驱动下持续迭代。
FT 报道中的关键引用: 创作者称中国平台「体验更自由」——这意味着更多的控制选项(角色参考、相机运动、运动强度)、更长的视频时长(可灵支持 120 秒)、更短的生成等待时间(2-3 分钟 vs 5-10 分钟)。这些看似是产品功能,但背后是系统架构、计算资源和数据工程的深厚积累。
理解这篇 FT 报道的关键不在于「中国赢了美国」,而在于工程化能力正在成为 AI 竞争的决定性因素。算法开源后,谁更快、更好地产品化,谁就能赢得用户。
FT 报道主要聚焦于用户体验和产品功能层面,而非底层算法创新。美国在基础研究(新架构、新训练方法)方面仍有显著优势。
2技术架构对比:DiT 之战中的中国方案
AI 视频生成的核心技术是 DiT(Diffusion Transformer) 架构。这是 Sora 在 2024 年技术报告中公开的架构——将视频视为时空 Patch 序列,用 Transformer 统一处理空间和时序维度。这个架构的设计理念是公开的,任何公司都可以基于它构建自己的视频生成模型。
中国平台的技术差异化:
可灵(Kling)采用了混合 DiT 架构,在全局注意力的基础上加入了局部时序优化模块。具体来说,可灵在 Transformer 的每一层中同时计算空间注意力和时序注意力,但时序注意力使用了分层降采样策略——先在全分辨率下做空间注意力,再在低分辨率下做跨帧时序注意力。这种设计将计算复杂度从 O(N²) 降低到近似 O(N·√N),使得生成长视频在计算上变得可行。
Vidu走了一条不同的路线——它引入了角色参考模块(Character Reference Module),这是一个独立的编码器,负责从参考图像中提取角色的外观特征(面部编码、服装编码),然后将这些特征注入到 DiT 的 Cross-Attention 层中。这个模块的独创性在于它支持多角色、多镜头的一致性——同一角色在不同场景中的外观保持完全一致。
即梦(Dreamina)的优势在于多模态条件控制。它不仅支持文本到视频生成,还支持图像条件(首帧/尾帧控制)、运动轨迹控制(用线条指定物体运动方向)、以及相机运动控制(平移、缩放、旋转)。这些控制维度在 Sora 中要么不支持,要么支持有限。
美国平台的回应: Sora 在 2026 年仍然没有正式开放(仅有限测试),Luma Dream Machine 和 Runway Gen-3 虽然支持更多功能,但在生成速度和可控维度上仍落后于中国平台。AI Master 认为,这种差距不是算法层面的,而是工程层面的——中国平台有更大的计算集群(快手、字节跳动自有的 GPU 集群)和更快的产品迭代周期。
import torch
import torch.nn as nn
class HierarchicalTemporalAttention(nn.Module):
"""可灵式分层注意力:空间高分辨率 + 时序低分辨率"""
def __init__(self, dim: int = 768, num_heads: int = 12,
temporal_downsample: int = 4):
super().__init__()
self.temporal_downsample = temporal_downsample
self.spatial_attn = nn.MultiheadAttention(
dim, num_heads, batch_first=True
)
self.temporal_attn = nn.MultiheadAttention(
dim, num_heads, batch_first=True
)
self.norm1 = nn.LayerNorm(dim)
self.norm2 = nn.LayerNorm(dim)
def forward(self, x: torch.Tensor, num_frames: int) -> torch.Tensor:
"""x: [B, N, D] N = num_frames * spatial_tokens"""
B, N, D = x.shape
spatial_tokens = N // num_frames
# 1. 空间注意力(每帧独立)
x_spatial = x.view(B * num_frames, spatial_tokens, D)
x_spatial = self.norm1(x_spatial)
spatial_out, _ = self.spatial_attn(x_spatial, x_spatial, x_spatial)
x = x + spatial_out.view(B, N, D)
# 2. 时序注意力(降采样后)
downsampled = x.view(B, num_frames, spatial_tokens, D)
downsampled = downsampled.mean(dim=2)
downsampled = self.norm2(downsampled)
temporal_out, _ = self.temporal_attn(
downsampled, downsampled, downsampled
)
temporal_out = temporal_out.unsqueeze(2).expand(
-1, -1, spatial_tokens, -1
).reshape(B, N, D)
return x + temporal_outimport os
import hashlib
from typing import Tuple
class VideoDataCleaner:
"""视频数据清洗流水线:从原始短视频到高质量训练集"""
def __init__(self, min_resolution: Tuple[int, int] = (720, 1280)):
self.min_resolution = min_resolution
self.seen_hashes = set()
def filter_resolution(self, video_path: str) -> bool:
"""分辨率筛选:过滤低于阈值的视频"""
import subprocess
result = subprocess.run(
['ffprobe', '-v', 'error', '-select_streams', 'v:0',
'-show_entries', 'stream=width,height',
'-of', 'csv=p=0', video_path],
capture_output=True, text=True
)
w, h = map(int, result.stdout.strip().split(','))
return w >= self.min_resolution[1] and h >= self.min_resolution[0]
def filter_duplicate(self, video_path: str) -> bool:
"""去重:用哈希算法去除重复内容"""
with open(video_path, 'rb') as f:
chunk = f.read(1024 * 1024)
h = hashlib.sha256(chunk).hexdigest()
if h in self.seen_hashes:
return False
self.seen_hashes.add(h)
return True
def clean_pipeline(self, input_dir: str, output_dir: str):
"""完整清洗流水线:分辨率 + 运动量 + 去重"""
os.makedirs(output_dir, exist_ok=True)
total = passed = 0
for fname in os.listdir(input_dir):
path = os.path.join(input_dir, fname)
total += 1
if not self.filter_resolution(path):
continue
if not self.filter_duplicate(path):
continue
import shutil
shutil.copy(path, os.path.join(output_dir, fname))
passed += 1
print(f"原始: {total}, 通过: {passed}, "
f"保留率: {passed/max(total,1)*100:.1f}%")| 技术维度 | 可灵 Kling | Vidu | 即梦 | Sora | Luma DM |
|---|---|---|---|---|---|
最长时长 | 120 秒 | 60 秒 | 30 秒 | 60 秒 | 15 秒 |
最高分辨率 | 1080p | 4K | 1080p | 1080p | 1080p |
角色一致性 | 支持 | 强(参考模块) | 支持 | 有限 | 有限 |
相机控制 | 支持 | 支持 | 支持 | 不支持 | 部分支持 |
生成速度 | 2-3 分钟 | 3-4 分钟 | 2-3 分钟 | 5-10 分钟 | 5-8 分钟 |
移动端 | 可用 | 可用 | 可用 | 不可用 | 不可用 |
中国平台的技术方案有一个共同特征:在开源架构上做增量创新,而不是从零开始发明新架构。这是一种务实且高效的研发策略。
架构上的增量创新有其天花板。如果底层 DiT 架构本身存在根本性限制(如极长视频的误差累积),增量优化无法突破这个限制。
3数据工程:中国平台的隐形护城河
如果说算法是公开的,那么数据就是中国 AI 视频生成平台真正的护城河。
快手拥有全球最大的短视频数据池之一。每天有数亿用户上传视频,涵盖了几乎所有的生活场景、运动模式、相机运动和光影变化。这些数据经过自动化清洗和质量筛选后,构成了训练视频生成模型的黄金数据集。
数据工程的核心挑战不是「有多少数据」,而是「有多少高质量数据」。 原始短视频数据中,大量是低质量内容——模糊、抖动、无意义的自拍。快手的数据清洗流水线包含多个阶段:分辨率筛选(过滤低于 720p 的视频)、运动量筛选(过滤静止或极少运动的视频,因为生成静态画面没有意义)、美学评分(用美学模型过滤质量差的视频)、内容安全(过滤违规内容)、去重(用哈希算法去除重复内容)。经过这些筛选,原始数据量缩减到 5-10%,但数据的信息密度提升了 10 倍以上。
字节跳动的数据优势类似。 抖音的全球用户群意味着其训练数据不仅覆盖中国场景,还覆盖东南亚、中东、拉美等多元场景。即梦的多语言生成能力正是得益于这种数据多样性。
美国平台的数据困境: Sora 的训练数据来源未公开,但据分析主要来自公开数据集(如 YouTube-8M)和商业许可数据。与快手和字节跳动相比,这些数据在规模、多样性和时效性上存在明显差距。更重要的是,美国平台缺乏中文语境下的视频数据,这使得它们在处理中文提示词和中文文化场景时处于劣势。
AI Master 的观察:数据工程是 AI 竞争中最被低估的环节**。一篇论文可能让全球研究者共享算法创新,但一个公司的独家数据是其永远无法被复制的竞争优势。**可灵和即梦的领先,很大程度上归功于它们背后短视频平台的数据积累。
数据工程的最佳实践是自动化清洗加人工抽检。完全自动化的清洗可能引入系统性偏差(比如过滤掉某些特定类型的优质内容),定期的人工审核可以发现并修正这些偏差。
训练数据的版权风险正在成为全球焦点。中国平台使用自有平台数据训练模型在版权方面风险较低,但如果使用爬虫获取外部数据,则可能面临法律挑战。
4国产大模型调用量全球第一的深层逻辑
与 AI 视频生成领先同步发生的另一个重要现象是:中国 AI 大模型的全球 Token 调用量已是美国的两倍以上。据 2026 年 5 月的数据,中国大模型的日 Token 调用量达到 7.94 万亿,而美国为 3.76 万亿。
这个数据差异不是偶然的,它反映了中美 AI 产业生态的结构性差异。
用户基数差异: 中国有 10 亿以上的移动互联网用户,而美国只有约 3 亿。当 AI 能力被集成到微信、支付宝、抖音等超级应用中时,其使用频率自然远超美国的应用场景。
API 定价策略: 中国 AI 公司的 API 定价策略普遍比美国激进。百度文心、阿里通义、智谱 GLM 等平台的 API 价格仅为 GPT-4 和 Claude 的 10-20%。这种低价策略吸引了大量中小企业和个人开发者使用中国大模型,进一步推高了 Token 调用量。
集成深度: 在中国,AI 能力已经被深度集成到各行各业的业务流程中——从智能客服到内容审核、从教育辅导到医疗问诊。而在美国,AI 的使用更多集中在科技行业和专业用户群体中。
AI Master 的分析:Token 调用量不代表技术领先,但它代表了产业落地的广度**。7.94 万亿 Token 的日调用量意味着有数千万用户每天在使用中国 AI 大模型——这个规模的真实用户反馈,是任何封闭测试都无法替代的。它为中国 AI 公司提供了无与伦比的迭代数据。
对视频生成的启示: 同样的逻辑适用于 AI 视频生成。中国平台拥有更大的用户基数和更低的定价门槛,这意味着它们收集到的用户行为数据(用户输入什么提示词、选择什么控制参数、对生成结果如何反馈)远多于美国平台。这些数据反过来用于优化模型和产品设计,形成正向循环。
| 指标 | 中国 | 美国 | 差异倍数 |
|---|---|---|---|
日 Token 调用量 | 7.94 万亿 | 3.76 万亿 | 2.1x |
移动互联网用户 | 10 亿+ | 3 亿 | 3.3x |
API 均价(每百万 Token) | $0.1-0.3 | $1.5-10 | 5-50x |
AI 集成行业数 | 20+ 行业 | 8+ 行业 | 2.5x |
视频生成日活用户 | 数千万 | 数百万 | 10x |
Token 调用量是衡量 AI 产业渗透度的最佳指标之一。如果一个 AI 模型的调用量高,说明它已经真正融入了用户的日常工作流,而不仅仅是技术演示。
Token 调用量不等于模型质量。大量调用可能来自低端场景(如简单问答、文本摘要),这些场景对模型能力的要求远低于复杂推理和创意生成。
5中国 AI 视频生成的商业模式创新
中国 AI 视频生成平台的商业模式也值得深入分析。与美国平台(如 Runway、Luma)主要面向专业创作者(B2B 加 Prosumer)不同,中国平台采用了更大众化的商业策略。
免费加增值模式: 可灵、Vidu、即梦都提供了免费的视频生成额度——用户可以每天免费生成若干条短视频。这种策略大幅降低了用户门槛,使得非专业用户也能体验 AI 视频生成的能力。免费用户的规模效应在于:他们的使用行为(输入什么提示词、对什么结果满意或不满意)为模型优化提供了宝贵的反馈数据。
社交裂变传播: 中国平台深度整合了社交媒体分享功能。用户在平台内生成视频后,可以直接分享到抖音、快手、微信朋友圈。这种社交裂变不仅带来了自然流量增长,还形成了用户间的口碑传播——「你看我用 AI 生成的视频,你也可以试试」。
B2B 定制化服务: 在免费用户之外,中国平台也在积极开拓企业客户。可灵为电商企业提供了批量生成商品展示视频的服务;Vidu 为影视制作公司提供了角色一致性保障的高级套餐;即梦为广告公司提供了多版本 A/B 测试的视频生成服务。
**AI Master 的观察:中国平台的商业模式有一个核心特征——先做大规模,再做深价值。通过免费策略获取海量用户,通过用户反馈优化产品,通过增值功能实现商业化。这种模式在互联网时代已经被验证过多次(微信、抖音、拼多多),现在被成功复制到了 AI 领域。
与美国模式的对比: 美国平台(Runway、Luma)更像是「专业工具」——从第一天就面向专业创作者定价,功能也围绕专业工作流设计。这种模式的优势是ARPU(每用户平均收入)高,但劣势是用户增长慢、产品迭代依赖专业用户的小样本反馈。
两种模式各有优劣。但从快速迭代和大规模验证的角度来看,中国模式在 AI 视频生成这个仍在快速演进的赛道中可能更具优势。
如果你在做 AI 产品,可以参考中国平台的免费策略——让尽可能多的用户体验核心功能,用真实反馈驱动产品迭代。专业工具的定价策略在早期可能错失大量改进机会。
免费策略的可持续性取决于变现能力。如果免费用户规模过大但付费转化率低,公司可能面临巨大的计算成本压力。AI 视频生成的 GPU 成本远高于文本生成。
6全球竞争格局:谁是真正的赢家?
从全球视角来看,AI 视频生成领域的竞争格局正在经历从单极到多极的转变。
2024 年:Sora 的单极时代。 OpenAI 发布 Sora 后,视频生成领域一度呈现出「一家独大」的格局。其他公司(Runway、Luma、Stability AI)的产品在质量和时长上都有明显差距。Sora 的技术报告定义了整个行业的研究方向。
2025 年:中国平台的追赶期。 快手可灵、生数 Vidu、字节即梦相继发布,在技术指标上接近 Sora。但由于产品成熟度和国际可用性的限制,全球影响力有限。
2026 年:多极竞争格局形成。 FT 报道确认中国平台在用户体验上领先美国,同时 Runway 和 Luma 也在持续迭代。视频生成领域不再有「绝对领先者」,而是形成了技术各有侧重的多极格局。
AI Master 的趋势判断:
短期内(2026-2027),中国平台的领先优势会进一步扩大。原因有三:一是数据优势持续扩大(短视频平台仍在增长),二是计算资源优势(国内 GPU 集群持续扩展),三是产品迭代速度(周级别 vs 月级别)。
中期内(2028-2030),竞争焦点将从「谁生成的视频更好看」转向**「谁能生成可控、可编辑、可交互的视频」**。这个转变可能会打破现有的竞争格局,因为它需要全新的架构设计,而不仅仅是现有 DiT 架构的增量优化。
长期看(2030+),AI 视频生成可能不再是独立产品,而是更大的 AI 创作平台的一个模块。就像 Photoshop 不是独立存在的软件一样,未来的 AI 视频生成会嵌入到更完整的创作工作流中。谁能提供这种端到端的创作体验,谁就能赢得最终用户。
对中国平台的建议: 当前的领先不应成为自满的理由。需要警惕的风险包括:美国平台可能通过架构创新(如世界模型、因果推理)实现弯道超车;监管政策的变化可能影响数据使用和模型训练;GPU 供应受出口管制影响,长期可能制约训练规模。
对美国平台的建议: 需要正视中国平台在工程化速度上的优势,但不能用「拼算力、拼数据」的方式竞争。更有效的策略是在算法创新和开源生态上保持领先——让全球社区基于你的架构做创新,形成网络效应。
AI 视频生成领域的竞争是马拉松而非短跑。当前的领先者需要在基础研究上持续投入,否则可能在下一代技术变革中被反超。
多极竞争格局意味着没有永远的赢家。2026 年的领先者在 2030 年可能完全掉队——回顾图像生成领域,Stable Diffusion 从 2022 年的绝对领先到 2024 年的相对落后,就是明证。
7创意工作者的反击与 AI 伦理挑战
AI 视频生成的快速发展引发了创意工作者的强烈反弹。2026 年 5 月,美国知名演员兼导演 Seth Rogen 公开怒斥 AI 写作和 AI 视频生成,称其为「对人类创造力的侮辱」。这不是孤立事件——Jack Antonoff(音乐制作人)、多位好莱坞编剧和艺术家都加入了抵制 AI 生成内容的行列。
创意工作者的核心担忧: AI 视频生成不仅在技术层面与人类创作者竞争,更在经济层面威胁了创意产业的就业基础。如果 AI 可以在几分钟内生成一段商业广告视频,那还需要雇佣视频制作团队吗?如果 AI 可以生成电影预告片,那还需要剪辑师吗?
AI Master 的分析: 这个问题需要分两层来看。
第一层:AI 是工具还是替代者? 在短期内,AI 视频生成更可能是创意工作者的辅助工具,而非替代者。专业创作者使用 AI 生成初步素材,然后用人工进行精细调整和后期制作。这种「AI 辅助创作」模式已经在广告行业得到了验证——生成速度提升了 10 倍,但最终成品的质量仍然依赖于人类的创意判断。
第二层:长期来看,AI 是否会替代部分创意工作? 答案是会,但仅限于标准化、重复性的创意任务。模板化的广告视频、标准化的产品演示、批量化的社交媒体内容——这些场景的创意门槛较低,AI 完全可以胜任。但真正需要独特创意、情感共鸣和文化理解的创作(如电影叙事、艺术表达),AI 在可预见的未来无法替代。
中国市场的特殊情况: 在中国,AI 视频生成的接受度似乎更高。这可能与中国的创作者生态有关——短视频平台的创作者习惯了快速迭代和批量生产的内容模式,AI 生成工具天然契合这种工作流。而在好莱坞等传统创意产业中心,创作者对版权和原创性的要求更高,对 AI 的接受度更低。
伦理挑战: AI 生成内容的版权归属、深度伪造的监管、创作者的知情权——这些都是尚未解决的伦理和法律问题。中国已经实施了AI 生成内容标识要求,这是全球最严格的监管措施之一。其他国家也在跟进,但进展缓慢。
| 创意领域 | AI 替代风险 | 时间线 | 核心原因 |
|---|---|---|---|
模板化广告视频 | 高 | 1-2 年 | 标准化、批量需求 |
产品演示视频 | 中高 | 1-2 年 | 信息传递为主,创意要求低 |
社交媒体短视频 | 中 | 2-3 年 | 快速迭代需求,但需情感共鸣 |
电影预告片 | 中 | 3-5 年 | 需要叙事理解和文化判断 |
艺术电影 | 低 | 5+ 年 | 高度依赖独特创意和情感表达 |
纪录片 | 极低 | 10+ 年 | 基于真实事件,AI 无法替代真实 |
AI 视频生成的伦理讨论不应该简化为「支持 vs 反对」。更建设性的方向是制定行业标准——明确 AI 生成内容的标识要求、版权归属和使用边界。
不要忽视创意工作者的合理担忧。即使 AI 不会完全替代人类创作者,它也会改变创意产业的权力结构——平台和技术提供者将获得更多话语权,而独立创作者的议价能力可能下降。
8总结与展望:从跟随到引领的中国 AI
中国 AI 视频生成的全球领先不是一个孤立事件,而是中国 AI 从跟随到引领这一大趋势的缩影。
回顾过去五年的发展历程:2021 年,中国 AI 研究在顶级会议上的论文数量已经全球第一,但产业影响力有限;2022 年,ChatGPT 的发布让全球 AI 格局重新洗牌,中国大模型开始追赶;2023 年,百度文心、阿里通义等国产大模型相继发布,但技术指标仍落后 GPT-4;2024 年,国产大模型在中文场景上接近甚至超越 GPT-4,但全球影响力仍然有限;2025 年,中国 AI 视频生成平台发布,在技术上接近 Sora;2026 年,FT 确认中国 AI 视频生成平台全球领先,Token 调用量是美国的 2 倍。
成功的三个关键因素:
- 数据优势:短视频平台积累的海量视频数据为模型训练提供了得天独厚的条件,这是任何外部竞争者无法复制的
- 工程能力:大科技公司的基础设施和工程团队支撑了快速的迭代和优化,这是学术机构难以匹敌的
- 市场需求:中国是全球最大的短视频市场,用户需求驱动产品快速进化,这是最强的创新动力
AI Master 的最终判断: 中国 AI 视频生成的领先证明了工程化能力和市场规模在 AI 竞争中的决定性作用。但这不意味着算法创新不再重要——恰恰相反,当工程化差距缩小时,算法创新将成为新的竞争分水岭。中国 AI 产业需要在基础算法研究上加大投入,才能在未来的技术变革中保持领先。
关注中国 AI 视频生成平台的开源动向。如果可灵或 Vidu 开始开源其模型权重和训练代码,将极大加速全球视频生成领域的发展——这可能是一个改变行业格局的事件。
中国 AI 视频生成的领先地位受到 GPU 出口管制的潜在威胁。如果先进 GPU 供应进一步收紧,中国平台的训练效率和模型迭代速度可能受到显著影响。