1.对于判别模型和生成模型,特征维度和样本数量之间有没有一个比较合适的比例?如果数据比较稀缺,有哪些比较可行的合成或扩充数据的方法?
2.材料领域的数据很多都是偏态的,比如文献只会报道性能好的样本。这样的数据分布会对模型训练和预测造成哪些影响?一般有什么应对方式?
3.大语言模型的发展导致现在的分子和材料的表示逐渐由图表示转为序列表示,这种序列化的框架下的判别模型和生成模型,如何把实验条件(比如温度、pH值)和性能这些数值特征融合进去?
4.目前在可解释机器学习领域,有哪些可解释性技术和手段在材料科学领域比较可靠且实用?