上一页 1 ··· 76 77 78 79 80 81 82 83 84 ··· 139 下一页
摘要: 已经有人总结过可以让ChatGPT作为Midjourney图像生成的模板。在本文中,我们将展示如何根据个人用例创建这些提示,这可以让ChatGPT生成的提示可控性更高。 https://avoid.overfit.cn/post/60d45f154b7943258f86f8bc7150e79b 阅读全文
posted @ 2023-07-01 10:08 deephub 阅读(97) 评论(0) 推荐(0)
摘要: 最近两个最流行的AI图像生成器,Midjourney和Stable Diffusion,都发布了重大更新。Midjourney v5.2引入了许多新功能,包括“缩小”功能、“/缩短”命令、改进的图像质量等。 Stable Diffusion XL (SDXL) 0.9则专注于改善图像质量和构图。新模 阅读全文
posted @ 2023-06-30 09:47 deephub 阅读(90) 评论(0) 推荐(0)
摘要: 大型语言模型(llm)已经彻底改变了我们与文本交互的方式,OpenAI、Google、AI21、HuggingfaceHub、Anthropic和众多开源模型提供了不同的功能和优势。但是每个模型都有其独特的体系结构、api和兼容性需求,集成这些模型是一项耗时且具有挑战性的任务。 所以这时候LangC 阅读全文
posted @ 2023-06-29 09:11 deephub 阅读(126) 评论(0) 推荐(0)
摘要: 这时一篇2015年的论文,但是他却是最早提出在语义分割中使用弱监督和半监督的方法,SAM的火爆证明了弱监督和半监督的学习方法也可以用在分割上。 这篇论文只有图像级标签或边界框标签作为弱/半监督学习的输入。使用期望最大化(EM)方法,用于弱/半监督下的语义分割模型训练。 背景知识 1、符号定义 X是图 阅读全文
posted @ 2023-06-28 10:37 deephub 阅读(73) 评论(0) 推荐(0)
摘要: 在这篇文章中,我们将整理计算机视觉项目中常用的Python库,如果你想进入计算机视觉领域,可以先了解下本文介绍的库,这会对你的工作很有帮助。 1、PIL/Pillow Pillow是一个通用且用户友好的Python库,提供了丰富的函数集和对各种图像格式的支持,使其成为开发人员在其项目中处理图像的必要 阅读全文
posted @ 2023-06-27 10:37 deephub 阅读(110) 评论(0) 推荐(0)
摘要: 在过去的几个月里,大型语言模型(llm)获得了极大的关注,这些模型创造了令人兴奋的前景,特别是对于从事聊天机器人、个人助理和内容创作的开发人员。 大型语言模型(llm)是指能够生成与人类语言非常相似的文本并以自然方式理解提示的机器学习模型。这些模型使用广泛的数据集进行训练,这些数据集包括书籍、文章、 阅读全文
posted @ 2023-06-26 10:16 deephub 阅读(1108) 评论(0) 推荐(0)
摘要: 目标检测和实例分割是计算机视觉的基本任务,在从自动驾驶到医学成像的无数应用中发挥着关键作用。目标检测的传统方法中通常利用边界框技术进行对象定位,然后利用逐像素分类为这些本地化实例分配类。但是当处理同一类的重叠对象时,或者在每个图像的对象数量不同的情况下,这些方法通常会出现问题。 诸如Faster R 阅读全文
posted @ 2023-06-25 09:50 deephub 阅读(172) 评论(0) 推荐(0)
摘要: Tinygrad是一个轻量级的深度学习库,它提供了一种简化和直观的方法来理解和实现神经网络。在本文中,我们将探讨Tinygrad及其主要功能,以及它如何成为那些开始深度学习之旅的人的有价值的工具。 https://avoid.overfit.cn/post/33edc61f5a414cefa4431 阅读全文
posted @ 2023-06-23 10:05 deephub 阅读(76) 评论(0) 推荐(0)
摘要: PromptBench是微软研究人员设计的一个用于测量大型语言模型(llm)对对抗性提示鲁棒性的基准测试。这个的工具是理解LLM的重要一步,随着这些模型在各种应用中越来越普遍,这个主题也变得越来越重要。 研究及其方法论 PromptBench采用多种对抗性文本攻击,研究人员生成了4000多个对抗性提 阅读全文
posted @ 2023-06-22 16:56 deephub 阅读(95) 评论(0) 推荐(0)
摘要: 在数字时代,视频已经成为一种主要的内容形式。但是理解和解释视频内容是一项复杂的任务,不仅需要视觉和听觉信号的整合,还需要处理上下文的时间序列的能力。本文将重点介绍称为video - llama的多模态框架。Video-LLaMA旨在使LLM能够理解视频中的视觉和听觉内容。论文设计了两个分支,即视觉语 阅读全文
posted @ 2023-06-21 09:41 deephub 阅读(184) 评论(0) 推荐(0)
上一页 1 ··· 76 77 78 79 80 81 82 83 84 ··· 139 下一页