摘要:
引子 OpenAI前首席科学家、联合创始人Ilya Sutskever曾在多个场合表达观点:只要能够非常好的预测下一个token,就能帮助人类达到通用人工智能(AGI)。虽然,下一token预测已在大语言模型领域实现了ChatGPT等突破,但是在多模态模型中的适用性仍不明确。多模态任务仍然由扩散模 阅读全文
摘要:
引子 清华智谱的开源模型也写了很多个了 。盘一下,发现少了文生图的模型,刚好CogView3发布,一看只有3B参数,好嘞,就它了。OK,我们开始吧。 一、模型介绍 CogView是一个文生图的开源大模型,它需要强大的生成模型和跨模态理解。CogView-3-Plus 在 CogView3(ECCV 阅读全文
摘要:
引子 2024年9月30日,Ultralytics在其活动YOLOVision中正式发布了YOLOv 11。YOLOv 11是由位于美国和西班牙的Ultralytics团队开发的YOLO的最新版本。几个月前YOLOv10发布(感兴趣的童鞋可以移步https://blog.csdn.net/zzq19 阅读全文
摘要:
引子 2024年9月19号,阿里推出Qwen2.5全家桶,各种尺寸的都有。9月29日消息,基准测试平台Chatbot Arena日前公布最新大模型盲测榜单,10天前发布的阿里通义千问开源模型Qwen2.5再次闯入全球十强,其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十,是前 阅读全文
摘要:
引子 最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。 一、模型介绍 筑梦 2.0 支持 5s-20s 阅读全文
摘要:
引子 前阵子,阿里Qwen2-VL刚刚闪亮登场,感兴趣的小伙伴可以移步https://blog.csdn.net/zzq1989_/article/details/142332651?spm=1001.2014.3001.5501。这第一的宝座还没坐多久,自家兄弟Ovis1.6版本就来了,20240 阅读全文
摘要:
引子 写了那么多篇大模型环境搭建推理部署的blog,如果没记错有几篇就是因为GPU资源hold不住,没有无法得到最终结果的(智谱AI GLM-4V-9B视觉大模型环境搭建&推理-CSDN博客)。我个人一直觉得大模型发展最终还是要走向端侧,小型化,只是也许没那么快来到。但是这个方向还是一直要有人坚 阅读全文
摘要:
引子 2024年8月30号,阿里推出Qwen2-VL,开源了2B/7B模型,处理任意分辨率图像无需分割成块。之前写了一篇Qwen-VL的博客,感兴趣的童鞋请移步(Qwen-VL环境搭建&推理测试-CSDN博客),这么小的模型,显然我的机器是跑的起来的,OK,那就让我们开始吧。 一、模型介绍 Qwe 阅读全文
摘要:
引子 很少关注360开源的代码,最近360AI团队开源了最新视频模型FancyVideo,据说RTX3090可跑。可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不同运动幅度的视频,其衍生模型还能够完成视频扩展、视频回溯的功能,一种基于 UNet 阅读全文
摘要:
引子 一口气生成2万字,大模型输出也卷起来了!清华&智谱AI最新研究,成功让GLM-4、Llama-3.1输出长度都暴增。相同问题下,输出结果直接从1800字增加到7800字,翻4倍。大模型的生成内容一般都不会太长,这对于内容创作、问题回答等都存在影响,可能导致模型回答问题不全面、创造性能降低等。 阅读全文