单项选择题

A.文本聚类不可以直接用不带标号的文本集
B.文本聚类是根据文本数据的不同特征,将其划分为不同数据类的过程
C.同一类别的文本间的距离尽可能小,而不同类别的文本间的距离尽可能大
D.文本聚类包括获取结构化文本集、执行聚类算法和选择合适的聚类阈值这些步骤