新闻资讯 分类
XK星空体育OpenAI申请Voice Engine商标;FlashFace实现可控换脸;MoneyPrinterTurbo开源

  OpenAI向美国专利和商标局申请了“VoiceEngine”商标,该商标概述了一套包括软件在内的语音相关技术,包括用于创建数字语音助手、处理语音命令、从文本提示生成音频以及支持多语言语音识别和翻译的软件。这些技术建立OpenAI已有的Whisper语音识别模型和文本到语音API基础上,意味着OpenAI向消费者提供完全集成的虚拟语音助手迈出了重要一步。

  小米发布了旨在大幅增强SD图片生成速度的项目SDXS。该项目采用了知识蒸馏技术来简化U-Net架构和图像解码器。同时,还引入了一种创新的单步训练技术,通过特征匹配和成绩蒸馏来训练扩散模型。基于这些优化措施,小米开发了SDXS-512和SDXS-1024这两款模型,在单个GPU上分别能达到大约每秒100帧和每秒30帧的处理速度。

  香港大学联合阿里巴巴研究团队发布了最新的AI换脸项目FlashFace。FlashFace能精确地保留参考人脸的特征,包括纹身、疤痕等。无论是真实人物还是虚拟角色,FlashFace都能够准确地捕捉到他们独特的面部特征,同时还具有多角色混合的能力,可以将多个参考角色的特征融合在一起,创造出全新的角色形象。除了保留和混合特征外,FlashFace还具备可控换脸的功能。用户可以通过调整参数XK星空体育,实现对角色面部特征的替换和修改,进一步满足个性化需求。

  星空体育app下载

  短视频生成工具MoneyPrinterTurbo重磅开源,只需提供一个视频主题或关键词,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。MoneyPrinterTurbo支持多种视频尺寸,包括竖屏(9:16)和横屏(16:9),并且支持生成中文和英文多语种视频文案。

  星空体育app下载

  特拉维夫大学研究者提出了BeYourself这一方法,作为文生图应用中提示词概念相互污染这一现象的解决方案。当提示词中包含多个复杂元素时,传统的处理方法往往难以保持每个元素的独特性,导致生成的图像中各个元素之间的边界变得模糊,失去了原有的独特性。BeYourself采用了有界注意力的方法,可以有效防止元素间不良的信息交叉,从而在处理包含多个复杂元素的情况时,更好地保持每个元素的独特性。

  PicsArtAI推出一个文本到视频生成模型StreamingT2V,旨在解决现有模型仅能生成16帧或24帧的高质量短视频,而当在生成长视频时则会质量下降、场景转换不一致和视频停滞等的问题。StreamingT2V通过引入条件注意模块(CAM)和外观保持模块(APM)以及随机混合方法,实现了长视频(最长达1200帧、时长2分钟)的流畅生成,确保了时间上的连贯性和与文本描述的紧密对齐XK星空体育。

  创新奇智举办奇智孔明工业大模型升级发布会暨大模型技术应用研讨活动,发布奇智孔明工业大模型2.0版本(AInno-75B)及多款大模型原生应用。本次升级后的奇智孔明工业大模型达到了750亿以上的参数量级,不仅巩固了其在工业知识问答、数据分析、代码生成、任务编排等方面的能力,更进一步增强了海量知识管理、复杂逻辑推理、长流程任务编排、Agent智能体以及更多工业模态的生成能力。

  具身智能大模型初创企业“XSquare”近期连续完成了由联想之星投资的数千万元人民币的天使轮融资,和由九合创投领投的数千万元人民币的天使+轮融资,一苇资本担任XSquare独家财务顾问。XSquare聚焦于“通用具身大模型”的研发,为机器人提供通用大模型底座,目标是为机器人构建一个通用的大脑-小脑系统,提供从感知到动作的端到端能力。

  星空体育app下载

Copyright © 2012-2024 北京汇医善济医疗科技服务有限公司 版权所有 非商用版本网站地图txt地图

京ICP备2021018530号