當(dāng)前預(yù)訓(xùn)練大語(yǔ)言模型的蓬勃發(fā)展為面向科學(xué)文獻(xiàn)的領(lǐng)域NLP(Natural Language Processing ,?NLP)任務(wù)帶來(lái)了新的前景。我中心大數(shù)據(jù)部與國(guó)家納米科學(xué)中心合作,構(gòu)建了大模型增強(qiáng)的電催化還原和合成過(guò)程的開源數(shù)據(jù)集,幫助催化領(lǐng)域科學(xué)家快速發(fā)現(xiàn)新型高效催化劑并完成制備,同時(shí)發(fā)布了基于電催化領(lǐng)域文獻(xiàn)預(yù)訓(xùn)練和標(biāo)注數(shù)據(jù)指令微調(diào)后的大模型參數(shù),為催化材料領(lǐng)域的其他生成式任務(wù)提供模型支持。該研究成果在Nature數(shù)據(jù)子刊Scientific?Data上發(fā)表。大數(shù)據(jù)部陳雪青、王露笛為論文共同第一作者,杜一研究員為論文共同通訊作者。
該成果得到重點(diǎn)研發(fā)計(jì)劃青年科學(xué)家項(xiàng)目“基于領(lǐng)域知識(shí)圖譜的光電催化材料挖掘軟件”以及國(guó)家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心等項(xiàng)目的支持。
語(yǔ)料庫(kù)構(gòu)建的整體框架及合成過(guò)程拆解流程
論文鏈接:
https://www.nature.com/articles/s41597-024-03180-9
數(shù)據(jù)庫(kù)鏈接:
https://doi.org/10.57760/sciencedb.13290;
https://doi.org/10.57760/sciencedb.132924;
https://doi.org/10.57760/sciencedb.13293。
責(zé)任編輯:郎楊琴