简要回答
机制:Bootstrap 采样训练多棵决策树;每次分裂随机考察 $sqrt{d}$ 个特征
常见误区
⚠️ 常见踩坑
不说文本需先向量化;声称 RF 能处理原始字符串;忽略 GBDT 常更强的事实。
追问
追问 1:RF 特征重要性可靠吗?
Gini 重要性对高基数特征有偏;置换重要性更稳但计算贵。相关特征会稀释重要性,应结合领域知识解读。
追问 2:文本 n-gram 维度极高怎么办?
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📰 AI 资讯
🛠️ AI 工具
- spaCy
工业级 Python NLP 库,33K+ stars。提供高效的文本分词、命名实体识别、依存句法分析等能力,内置预训练模型支持 70+ 语言,是生产环境 NLP 任务的标准选择