材料领域的数据很多都是偏态的,比如文献只会报道性能好的样本。这样的数据分布会对模型训练和预测造成哪些影响?一般有什么应对方式?