Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 积分商城 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 西安交通大学任鹏举获国家专利权

西安交通大学任鹏举获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉西安交通大学申请的专利一种兼容非对称多精度混合乘累加运算的运算单元获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115357214B

龙图腾网通过国家知识产权局官网在2026-01-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210923139.8,技术领域涉及:G06F7/523;该发明授权一种兼容非对称多精度混合乘累加运算的运算单元是由任鹏举;林晓云;霍志旺;张先娆;楼薇;赵文哲;夏天设计研发完成,并于2022-08-02向国家知识产权局提交的专利申请。

一种兼容非对称多精度混合乘累加运算的运算单元在说明书摘要公布了:本公开揭示了一种兼容非对称多精度混合乘累加运算的运算单元。这是一种兼容非对称数据格式的,多精度混合乘累加运算的运算单元设计。该PE单元,基于一组定点乘法器4个5×5乘法器,针对不同精度的数据,对传入数据进行高低位拆分和符号位扩展,并通过控制指定乘法器的激活状态来降低功耗,并且通过精度模式选择和乘法器使能信号来实现对PE单元的空间复用和时间复用,最终完成不同精度数据的乘累加运算。该发明对于神经网络稀疏量化运算中的芯片资源闲置、功耗浪费和面积优化具有重要的意义。

本发明授权一种兼容非对称多精度混合乘累加运算的运算单元在权利要求书中公布了:1.一种兼容非对称多精度混合乘累加运算的MAC单元,其特征在于: 所述MACMultipleandAccumulate单元用于实现数据的乘累加计算,分别对应于卷积模式和Depthwise模式; MAC单元分为PE阵列和ACC单元,其中PE阵列包含64个PE单元,ACC单元包含64个加法器; Depthwise模式下,PE阵列仅有斜对角线上的PE单元使能; 其中, 所述PE单元是一种兼容非对称数据格式的,多精度混合乘累加运算的运算单元设计;该PE单元,基于一组定点乘法器,针对不同精度的数据,对传入数据进行高低位拆分和符号位扩展,并通过控制指定乘法器的激活状态来降低功耗,并且通过精度模式选择和乘法器使能信号来实现对PE单元的空间复用和时间复用,最终完成不同精度数据的乘累加运算; 对于Depthwise模式,PE单元中的8个MUL单元的运算结果不进行求和,直接传出PE单元; 对于卷积模式,对PE单元中的8个MUL单元的运算结果进行求和,8个17bit数据求和结果Psum为20bit; 对于乘法单元即MUL单元,其中,将9×9乘法器结构拆分为4个5×5乘法器,从而支持int4运算,而对于int16和int8的运算,则采用数据拆分的方式进行运算; 对于int8的运算,输入的两个8Byte数据A0、W0,各包含8个数,每个数是8bit,将其中一组数记为a、w,对a、w进行高低位拆分和符号位扩展,然后送入PE单元,一个周期可以完成计算; 对于int4的运算,输入的两个8Byte数据A0、W0各包含16个数,每个数是4bit,扩展为有符号数后是5bit,两个数分为高低位拼接成一组数为10bit,将其中一组数记为a,w,送入PE单元,一个周期可以完成计算; 对于int16的运算,输入的两个16Byte数A0、W0各包含8个数,每个数是16bit,将其中一组数记为a,w,分为高低8bit之后,两两组合送入PE单元,按照int8运算方式,通过分时复用四个周期可以完成计算; 其中, 对于int4、int8、int16三种精度的混合数据类型组合,其数据范围包括20种组合,其中12种组合A与W的精度相同,8种组合A与W为混合精度; 由int16运算规则可知,可以将输入数据进行高低位拆分后,按照int8的运算规则计算,所以在分析乘法溢出问题时,只需要分析int8的情况即可; 由标准int8运算规则可知,MUL单元在进行int8运算时,将数据符号位扩展为9bit,因此MUL单元实际支持的输入数据范围为[-256,255],满足上述任意混合数据类型与混合精度的运算结果不溢出,硬件支持非对称量化数据的计算; 其中, ACC单元包含64个加法器,两输入一输出,用于实现对不同时域下的运算结果进行累加,同时可以对int16运算进行移位加和,因此,PE阵列部分只需要考虑20位Psum的存放,从而简化PE阵列设计,节省资源; 卷积模式下,每个PE单元输出一个Psum,PE阵列的64个PE单元共输出64个Psum,根据控制信号可以分别与上一周期输出的64个Psum相加,共需64个加法器; Depthwise模式下,对于int8、int16运算,每个PE单元输出8个乘积结果,8个MUL单元的运算结果不进行加和,直接传出8个乘法结果ra0~ra7,每个结果为17bit,其中,为兼容int4运算进行符号位扩展到18bit;PE阵列的8个使能的PE单元共输出64个乘积结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安交通大学,其通讯地址为:710049 陕西省西安市咸宁西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。