摘要: ​引子 2024年8月30号,阿里推出Qwen2-VL,开源了2B/7B模型,处理任意分辨率图像无需分割成块。之前写了一篇Qwen-VL的博客,感兴趣的童鞋请移步(Qwen-VL环境搭建&推理测试-CSDN博客),这么小的模型,显然我的机器是跑的起来的,OK,那就让我们开始吧。 一、模型介绍 Qwe 阅读全文
posted @ 2024-09-18 14:37 要养家的程序猿 阅读(2634) 评论(0) 推荐(0)
摘要: ​引子 很少关注360开源的代码,最近360AI团队开源了最新视频模型FancyVideo,据说RTX3090可跑。可以在消费级显卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意宽高比、不同风格、不同运动幅度的视频,其衍生模型还能够完成视频扩展、视频回溯的功能,一种基于 UNet 阅读全文
posted @ 2024-09-09 16:37 要养家的程序猿 阅读(55) 评论(0) 推荐(0)
摘要: ​引子 一口气生成2万字,大模型输出也卷起来了!清华&智谱AI最新研究,成功让GLM-4、Llama-3.1输出长度都暴增。相同问题下,输出结果直接从1800字增加到7800字,翻4倍。大模型的生成内容一般都不会太长,这对于内容创作、问题回答等都存在影响,可能导致模型回答问题不全面、创造性能降低等。 阅读全文
posted @ 2024-09-02 11:44 要养家的程序猿 阅读(146) 评论(0) 推荐(0)
摘要: ​引子 多模态的大模型也写了很多篇,阿里系的之前有一篇Qwen-VL的相关部署,感兴趣的童鞋请移步(Qwen-VL环境搭建&推理测试-CSDN博客)。今天这个mPLUG-Qwl3,更新换代也很快,这都第三代,据说,这个专门用来理解多图、长视频,OK,让我们开始吧。 一、模型介绍 论文作者来自阿里mP 阅读全文
posted @ 2024-08-26 09:08 要养家的程序猿 阅读(412) 评论(0) 推荐(0)
摘要: ​ 引子 开放词检测,之前分享过一篇YOLO-World的文章,感兴趣同学请移步(YOLO-World环境搭建&推理测试_yoloworld 检测-CSDN博客),最近,由中山大学和美团联合提出新的开放域检测方法OV-DINO:基于语言感知选择性融合、统一的开放域检测方法,取得了开放域检测新SOTA 阅读全文
posted @ 2024-08-19 17:37 要养家的程序猿 阅读(477) 评论(0) 推荐(0)
摘要: ​ 引子 智谱AI版Sora开源,首个可商用,18G显存即可运行。前文写了Open-Sora1.2的博文,感兴趣的童鞋请移步(Open-Sora1.2环境搭建&推理测试_open sora 1.2-CSDN博客)。对于这种占用资源少,且效果不错的多模态模型那么肯定不容错过。OK,我们开始吧。 一、模 阅读全文
posted @ 2024-08-12 16:04 要养家的程序猿 阅读(310) 评论(0) 推荐(0)
摘要: 引子 时隔大半年,SAM 2代终于来了,之前写过一篇《Segment Anything(SAM)环境安装&代码调试》,感兴趣童鞋请移步https://blog.csdn.net/zzq1989_/article/details/135479818?spm=1001.2014.3001.5501,OK 阅读全文
posted @ 2024-08-08 09:46 要养家的程序猿 阅读(3229) 评论(0) 推荐(0)
摘要: 引子 写了那么多大模型安装搭建的文章,回过头来看,有没有更简单的方式使用大模型呢。无意间撇到贾清扬大神的公司的Elmo插件,据说新升级,断网都可以使用,那么必须走起,OK,让我们开始吧 一、插件介绍 Elmo是一款基于AI的浏览器插件,采用了Mixtral 8x7b模型。该插件具备提取网页内容摘要、 阅读全文
posted @ 2024-07-31 09:40 要养家的程序猿 阅读(1165) 评论(0) 推荐(0)
摘要: 引子 之前写过一篇CogVLM的分享,感兴趣的移步https://blog.csdn.net/zzq1989_/article/details/138337071?spm=1001.2014.3001.5501,前一阵子,CogVLMv2横空出世,支持视频理解功能,OK,那就让我们开始吧。 一、模型 阅读全文
posted @ 2024-07-22 09:22 要养家的程序猿 阅读(266) 评论(0) 推荐(0)
摘要: 引子 快手开源的东西还是第一次接触,看量子位推的软文,还是很惊艳的。那就自己上手看看了。OK,那就让我们开始吧。 一、模型介绍 可图大模型是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。Kolors 在数十亿图文对下进行训练,在视觉质量、复杂语义理解、文字生成(中英文字符)等方面,相比 阅读全文
posted @ 2024-07-15 09:15 要养家的程序猿 阅读(109) 评论(0) 推荐(0)