研发:CECLD,DNA 数据存储中基于 Levenshtein 距离的分类误差校正
研究表明 CECLD 算法能有效帮助纠正长序列的错误信息,平均误码率为 2.1%,同时其带宽保持在约 58% 的低数值范围以内。
专家系统应用发表了一篇题为《基于人工智能的智能驱动合成生物学体系构建研究》的文章,作者包括来自中国天津市的教授Shufang Zhang,Ming Luo以及徐浩等五名学生。
摘要:随着全球数据量的快速增长,人们开始设想DNA分子能够用于海量数据的存储。在DNA数据存储过程中插入缺失(插入和删除)错误比替换错误对准确性的影响更大,因此已经提出了多种纠错方案来改进这一过程。然而,虽然这些解决方案有效提高了纠正能力,但仍然存在插入缺失错误效率低和数据恢复冗余高问题。为了解决这些问题,本文提出了一种基于Levenshtein距离的分类纠错方法——CECLD。这种方法需要一个神经网络结构的误差识别模型来评估Levenshtein距离特征,并确定出错类型。然后根据判断出的错误类型进行纠正,消除DNA分子中的核苷酸错位。此外,使用该纠错机制对地址或有效载荷中的错误利用CRC16解码或者RS解码逐一进行修正。实验结果显示CECLD算法可以有效纠正不同长度序列中的错误,总信道误码率仅为2.1%,而数据的恢复冗余远低于现有方案,这极大地提高了DNA存储的采用广度。
研发部:用于对DNA进行存储的极性编码器
一位研究人员提出了基于神经极坐标解码器 (NPD)的数据驱动方法。该方法专用于解决具有同步误差的通道。
一篇论文由来自美国杜克大学电气与计算机工程系的科学家们撰写,这篇文章已由学术平台arXiv发布。
摘要:在基于DNA的数据存储系统中的同步错误(如插入和缺失)是一个基本挑战,并且合成和测序噪声会引发这些问题。这种类型的信息通道通常被建模为插入-删除-替换(IDS)通道,为此我们提出了一种神经极性解码器(NPD)的方法。这个架构能够支持在IDS通道上进行解码并降低复杂度至O(ANlogN),其中A是独立于通道的可调参数。此外,我们的方法无需显式通道模型,并且可以利用互信息来进行输入分布和编码的设计优化。我们证明了NPD在合成缺失和IDS通道上的有效性,对于缺失通道,我们发现NPD实现了近乎最佳的解码性能和准确的MI估计,其复杂度明显低于基于格子的解码器。我们还提供了删除通道的通道容量估计。我们将评估扩展到真实DNA存储设置,包括具有多个噪声读数的通道和真实世界的纳米孔测序数据。我们的结果表明,NPD与现有方法相当或超过现有方法,使用的参数明显少于最先进的方法。这些发现突出了NPD在稳健高效解码DNA 数据存储系统中的前景。“”
研究部门采用极低的质量读数来进行序列分析与解读,并应用于DNA的数据储存。私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596
该方法有效地减少了其数据访问的成本,以每条记录为基准,平均降低了一定的百分比,其中最低可降至少达25%。
该论文由韩国光州 61186 全南国立大学智能电子与计算机工程系的 Jiyeon Park撰写, 韩国浦项37673 浦项科技大学化学工程系的 Ha Hyeon Jeon以及Jeong Wook Lee共同撰写,同时Hosung Park,全南国立大学智能电子与计算机工程系也参与了该研究。
赋予动机:“错误检测/纠正技术能够有效地减少DNA数据记录中的写入和读取成本。序列分析算法对纠错编码也至关重要,但是它不会影响解码的正确性。在常规的序列分析中通常会丢弃低质量的读长,但是在有错误检测和校正码的帮助时,这些低质量的读数可以被用于测序分析。”
结果是:“我们的研究表明,当使用 ILLUMINA的NGS测序时,我们未能通过纯正过滤器的低质量读数在统计学上具有显著性。因此,我们将错误统计数据应用于这些低质量读取来确认额外低质量的可靠性。我们提出了一种序列聚类算法和一种基于概率多数和错误检测的共识算法,以有效地利用额外的读取。我们的方法能够有效降低额外读取的成本平均6.83%,最高可达19.67%。”
可用性和实施(10.5281/zenodo.15571858)。
开发出可存取并处理大量 DNA 数据的多功能引物盘。
Work开发了一种集成有索引功能以及能够同时进行多读操作的新型DNA 数据存储技术,有助于 DNA 数据存储的应用落地。
Advanced Science发表了一篇文章,作者是清华大学机械工程系的 马 Jiaxiang 、Yu Yang、Ben Pei,清华大学100084中国518055清华大学研究生院先进制造部的 Shengli Mi,清华大学机械工程系的 Zhuo Xiong,100084Liliang Ouyang,清华大学机械工程系,100084中国北京,清华大学先进装备摩擦学国家重点实验室,100084北京。
摘要DNA 数据通过编码到碱基分子而变得有用,并且这种技术正被看作是一种很有前景的信息储存技术。然而,如何构建可检索、可记录并易于阅读的DNA 数据仍是挑战所在。本研究介绍了使用引物盘的一种层状DNA 存储系统。该系统允许多个DNA 分子通过固相 PCR 后期固化生成二维码从而便于查找。预设计的引物盘能提供多个引物,并可随机读取其上的记录的DNA 文件,这样人们便能够轻松访问索引并解码存储的信息。此外,最多包含10个引物的引物盘也能储存在磁盘上。通过喷墨打印荧光二维码,不同文件可以随后被储存在硬盘中。使用固相 PCR 随机读取记录的DNA 文件后能获得多达20次的读数,并且人们还私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596能通过DNA 的拷贝收集更多的信息。因此,本研究提供的是一种具有多读和索引功能的新型DNA 数据存储系统,为实际应用 DNA 数据储存铺平了道路。
研发:利用哈希草图构造高误识别率的DNA序列聚类以高效存储并重建模糊聚类的数据。
论文提出了一种重建可靠DNA存储数据的方法,其名称为哈希草图模糊聚类(HSFC)。
Springer Verlag在澳大利亚新南威尔士州悉尼举行的第 29 届亚太知识发现和数据挖掘会议论文集PAKDD 2025 上发布了作者为邵琦的大连大学软件工程学院的先进设计与智能计算教育部重点实验室,116622,辽宁,中国,大连理工大学计算机科学与技术学院的郑燕芬,曹本,刘振璐,王斌,周世华以及坎特伯雷大学会计与信息系统系潘郑,上里卡顿的论文。
摘要:"生命是由序列组成,但因生物序列复杂性增加,引入聚类算法来处理和分析这些序列数据。然而,在使用合成DNA序列的任务中如纳米孔测序等高错误率技术下,准确性和重建可靠性的提高仍然是主要挑战。因此,本文提出了一种用于可靠DNA存储数据重建的模糊聚类(HSFC)方法,利用位置敏感哈希对DNA序列映射到具有漂移的哈希图,并设计了容忍更多序列错误的模糊匹配机制以减轻错误影响。实验表明与最先进的DNA分类技术相比,HSFC提高了6%-17%的DNA序列聚类准确性,同时实现了99%的序列恢复率和10%的模拟误差率。总之,HSFC在高错误率环境中增强了DNA序列聚类的准确性和数据重建的可靠,为高质量数据提供了保障并确保了存储读长的数据完整性与可靠性。“”"
研发:利用电化学活性非天然寡核苷酸和柔性微流控芯片来储存 DNA 数据
该论文提出了采用基于DNA的电化学信息记录与读取技术。
《分析化学》期刊发表了李建凯、王子燕、钟乐妮及江星宇撰写的文章,《深圳智慧医疗重点实验室》等单位在《广东省先进生物材料重点实验室》和《南方科技大学生物医学工程系》,以及中国广东省深圳市南山区学校路1088号科技518055的研究成果。
摘要:引入非天然寡核苷酸可以增加DNA作为数据存储介质的密度及新颖的数据存储模式,特别是可通过电化学信号检测具有电化学活性的非天然寡核苷酸,从而实现数据检索。在此,我们提出了基于DNA的电化学读出数据存储系统,并通过柔性电化学微流控芯片实现了写入及同时采集电化学信号。通过亚甲基蓝和二茂铁修饰的寡核苷酸作为演示,能够在电极上成功进行4种以上的编码组合,以实现120位文本文件在柔性电化学微流控芯片上的存储检索。
顶: 1踩: 62938




评论专区