自我介绍
大家好呀!我是一名数据科学与大数据技术专业的大学生,主要学习Java程序设计、Python语言、算法设计、Mysql数据库、数据结构、分布式操作系统等。已经经历了2年大学生活的自己也一步步变的成熟起来,我从中学习到了很多大数据相关专业知识,很高兴加入博客园中学习,我将在这里记录我的学习总结和目标,希望通过自己的努力离目标越来越近。
一、现状、经验和计划
1.自身能力
能力 A:数据处理基础工具应用能力。熟练使用 Python 进行数据清洗与分析,掌握 Pandas 库的核心操作(如缺失值填充、数据筛选、分组聚合)、Numpy 库的数组运算;能使用 SQL 完成结构化数据查询,曾完成学生选课管理系统。
能力 B:分布式技术基础认知与简单操作了解 Hadoop 生态核心组件(HDFS、MapReduce)的工作原理,能在 Linux 环境下完成 Hadoop 伪分布式集群的搭建;初步掌握 Spark 基础语法。
能力 C:掌握网页开发前端基础技术栈,能使用 HTML5 搭建页面结构(如语义化标签、、的合理布局)、CSS3 实现样式美化(含 Flex 布局、响应式设计,可适配电脑与手机端)、JavaScript 完成简单交互(如按钮点击触发数据弹窗、表单输入验证)。
2.技术兴趣方向
偏好大数据开发与数据工程方向,尤其关注 “数据管道搭建” 与 “实时数据处理” 领域,例如通过 Flink 实现实时日志分析、构建高可用的数据同步链路,对数据从采集到存储再到计算的全流程落地逻辑更感兴趣,相比纯算法研究,更倾向于技术的工程化实现。
3. 缺少的能力
工程化实践能力不足:仅能完成小规模、单节点的技术验证,缺乏大规模分布式集群的调优经验,如 Hadoop YARN 资源分配优化、Spark 任务并行度调整,未接触过生产环境下的数据容错与故障排查(如数据丢失后的恢复方案)。
业务与技术结合能力薄弱:能完成技术层面的数据处理,但对垂直行业(如金融风控、医疗数据治理)的业务逻辑理解较浅,无法将技术方案与实际业务需求深度匹配。
新技术学习滞后:对新兴数据存储技术的了解停留在概念层面,未实际上手操作;对云原生大数据架构缺乏认知,与行业主流技术栈存在差距。
希望担任对学习不懈怠,自己说到就做到不要纸上谈兵角色
相比其他同学的优劣势
优势:动手意愿强,愿意花时间调试代码(曾为解决 Spark 任务 OOM 问题,连续 2 天查阅官方文档与博客,最终通过调整内存分配参数解决),对技术细节的关注度较高;
劣势:理论基础较薄弱(如对 MapReduce 的 Shuffle 过程原理理解不深入),遇到复杂理论问题时容易畏难;时间管理能力一般,偶尔会因拖延导致学习进度滞后。
4. 本学期规划
技术学习:每周花 4 小时学习 Flink 实战教程,完成 2 个基础案例;每月上手 1 个新工具(如 3 月学习 ClickHouse 的建表与查询,4 月尝试用 Debezium 同步 MySQL 数据);
项目实践:将课程实践项目的代码同步到 GitHub,每周提交至少 2 次代码,确保项目进度不落后;
基础补全:每周花 2 小时复习《大数据导论》《分布式系统》教材中的核心理论,用思维导图梳理知识点,避免理论与实践脱节。
二、代码量评估
- 当前代码量
Python(大数据相关):约 1000 行(主要为 Pandas 数据处理、Spark 基础代码,含课程作业与自学案例);
SQL(数据查询与分析):约 500 行(含 MySQL、Hive SQL,涉及多表关联、聚合查询); - 入职一流公司所需代码量
参考行业经验,入职阿里、字节等公司的大数据开发岗,需累计5 万行以上高质量代码量(含完整项目代码,而非零散的练习代码);
核心要求并非 “数量堆砌”,而是代码的 “工程化程度”(如是否考虑异常处理、是否符合代码规范)与 “业务匹配度”(如是否能解决实际业务问题)。
三、课程时间投入与代码量计划
- 每周时间投入
平均每周拿出12 小时用于这门课(含 2 小时上课时间、6 小时代码编写与调试、3 小时技术文档学习、1 小时小组讨论);
若遇到项目截止期或技术难点,额外增加 3-4 小时,确保任务按时完成。 - 前两年学习情况与选择
前两年存在 “间歇性拖延” 问题(如临近作业截止期才集中赶工),导致基础不扎实;当前选择D:比以前课要多很多,直到达到目标为止,通过高强度投入弥补过去的不足。 - 课程结束时的代码量计划
目标完成8000 行课程相关代码(含课程作业、实践项目);
按学期 16 周计算,每周需完成500 行,其中实践项目代码占比不低于 60%,避免单纯的语法练习。
四、WOOP 计划(课程学习目标)
- Wish(愿望)
希望在这个学期我能加强自己的技术能力,去进行项目研究,完成一个项目。 - Outcome(结果)
掌握实时数据处理的核心技术,在后续的实习面试中,能清晰阐述项目细节,获得面试官认可;项目代码可作为 GitHub 上的亮点作品,为求职简历加分;建立 “技术解决业务问题” 的思维,不再害怕复杂项目,增强学习信心。 - Obstacles(障碍)
内部障碍:遇到复杂技术问题时容易焦虑,想放弃查阅文档,转而寻求 “现成答案”,导致对原理理解不深入;
外部障碍:偶尔会因其他课程作业(如操作系统实验报告)与这门课的代码任务冲突,导致本门课学习时间被压缩;
最可能的失败因素:长期自律性不足,容易因 “当天状态差”“想刷短视频放松” 而拖延代码编写,累积到后期无法完成项目进度。 - Plan
如果遇到技术难题,焦虑到想放弃,先暂停 10 分钟,去阳台散步,同时在手机备忘录写下 “当前卡住的具体问题,从 “核心概念” 章节开始逐段阅读,而非直接搜索答案。
遇复杂代码报错烦躁:先复制报错信息到文档,暂停 5 分钟做深呼吸,再按 “报错关键词→官方文档→博客案例” 步骤排查。
学每周日晚花 1 小时,用思维导图梳理本周知识点(如 Java 集合框架),并动手写 1 个简单案例复现核心逻辑。
五、提有质量的问题, 给认真的反馈
之前两年的学习没有收获到我想要的结果,确实是自身存在一些问题。希望自己能够把注意力放在学习中,锻炼自身的技术能力,更加熟练运用相关知识去写代码。希望在日后的学习中监督好自己,大家一起共同学习。