在大数据时代,全球数据量呈指数级增长,海量数据是AI解锁大模型的钥匙。当前,硬盘、磁带、U盘等硅基存储介质存在寿命短、能耗高、占用空间大等问题,难以满足日益增长的数据存储需求。
DNA作为天然的数据信息编码存储材料,因高密度、长寿命、低能耗等优点,成为具有潜力的解决大数据存储困境的替代方案。但是,多数DNA数据存储技术采用类似雕版印刷的设计策略,存储用DNA使用一次、合成一次,合成成本高,耗时长,限制了DNA存储技术的实际应用。
为突破现有DNA存储技术的应用瓶颈,中国科学院北京基因组研究所(国家生物信息中心)陈非团队、计算技术研究所谭光明和卜东波团队以及中科计算技术西部研究院段勃团队,借鉴我国古代四大发明之活字印刷术的逻辑,提出了经济高效的DNA活字存储设计思路。它的核心是DNA活字,由预制的20nt短双链DNA片段构成,可编码1字节的内容、地址或校验数据信息,且每个片段两端带有4nt的粘性末端,通过一步多级酶连技术形成DNA活字块。这些活字块可通过活字块两端的限制性酶切位点克隆到质粒中直接体外保存,亦可通过转化大肠杆菌体内保存。
进一步,为实现DNA活字存储流程自动化,该团队研发了可实现DNA活字高通量打印写入的设备——DNA活字喷墨打印机“毕昇一号”。“毕昇一号”可以打印存储并100%精准解码文本、图片、音频和视频等类型的计算机数据存储文件。
类似于活字印刷的复用性和灵活性,上述DNA活字存储技术展现出成本和效率优势。这一成果为DNA数据存储技术的未来发展提供了新的思考范式。
相关研究成果作为封面文章发表在《先进科学》(Advanced Science)上。研究工作得到国家重点研发计划和国家自然科学基金等的支持。
DNA活字存储流程图
供稿人:杨越
审核人:文成锋