WeihangZhang - 博客园

2025年2月26日

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

摘要： ReAct：结合推理（COT）和行动（动作生成）。 ReAct 主要内容将COT方法与ACT方法结合起来，引入了 ReAct，这是一种新的基于提示的范式，旨在将推理和行动在语言模型中协同起来，以解决通用任务。展示了在少样本学习设置中，ReAct 相较于仅进行推理或动作生成的先前方法的优势。系统阅读全文

posted @ 2025-02-26 15:40 WeihangZhang 阅读(274) 评论(0) 推荐(0)

vim 配置

摘要： vim 配置 Vim的终极配置方案，完美的写代码界面! ——.vimrc_vim配置-CSDN博客 git clone https://github.com/VundleVim/Vundle.vim.git ~/.vim/bundle/Vundle.vim 1 " 显示行号 2 set number 阅读全文

posted @ 2025-02-26 14:46 WeihangZhang 阅读(31) 评论(0) 推荐(0)

2025年1月19日

CogAgent: A Visual Language Model for GUI Agents

摘要： CogAgent：利用VLM操作GUI。官方技术报告主要内容提出了一个18B的VLM模型CogAgent（CogVLM的新版本），旨在提高对于GUI的理解、导航和交互能力。利用高分辨率和低分辨率编码器适应不同分辨率的输入，在9个VQA benchmarks上取得了sota。同时，CogAge 阅读全文

posted @ 2025-01-19 23:46 WeihangZhang 阅读(205) 评论(0) 推荐(0)

2025年1月18日

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

摘要： InternVL1.5：更强的视觉编码器，动态处理高分辨率图像，高质量的双语数据集。主要内容对标商业模型，提出InternVL1.5。更强的视觉编码器（InternViT-6B），动态处理高分辨率图像（将图像分成448*448的tails，最高支持4K分辨率），高质量的双语数据集（显著提高了O 阅读全文

posted @ 2025-01-18 18:22 WeihangZhang 阅读(41) 评论(0) 推荐(0)

常用图像增强算法（MATLAB实现）

摘要： 1 引言图像增强是指按照某种特定的需求，突出图像中有用的信息，去除或者削弱无用的信息。图像增强的目的是使处理后的图像更适合人眼的视觉特性或者易于机器识别。在医学成像、遥感成像、人物摄影等领域，图像增强技术都有着广泛的应用。图像增强同时可以作为目标识别，目标跟踪，特征点匹配，图像融合，超分辨重构等图阅读全文

posted @ 2025-01-18 15:41 WeihangZhang 阅读(965) 评论(0) 推荐(0)

Weihang Zhang

Blogs of Weihang Zhang

公告