下一步要做什么?
这是一篇置顶内容,将会定期更新最近打算做或者正在做的事,本内容会随时更新。
1. 目前我仍作为高中生将重心放在高中学业上。
高考加油
2. 维护DanKeJson
一开始只是作为为了不用写数据结构类的Json库,随着自己的项目用得越来越多功能也不断增加。
例如因为json数据格式有限而添加的json5,在AI方向(大语言)的学习中,使用了.jsonl格式作为数据集,所以也添加了.jsonl的支持。
未来,DanKeJson的发展会不断提升速度与易用性,同时,会计划支持其他的数据类型(如Yaml、MsgPack),以满足更多项目的需求。
3. AI
AI无疑是最近或未来几年的发展方向,在我初中时,ChatGPT的横空出世后开放api我就火速搭建了自己的镜像站,深深地被大语言模型震撼到,后来,随着Meta的入局并开源了LLama,我也第一次在本地部署了AI,从小就对一切事物都具有好奇的我,不经发出疑问:我能做吗?
我认为,当今AI的火速发展,离不开两个国内外的企业,国外的是Meta的LLama,国内的是阿里巴巴的Qwen。
有人会问为什么不是深度求索(DeepSeek)?原因有下:
首先,Meta是第一个将现代大语言模型(指类似GPT-3的大语言模型)开源的公司。
提到AI领域的开源,不得不说到它与传统软件开源的区别,AI的开源在我看来分类两种,一是开放权重,二是完全开放。
AI的本质是一堆函数,这堆函数被我们叫做神经网络,当今宣布开源的绝大部分AI,基本都是前者——开放权重,也就是把函数的参数发布出来,这种开源方式促进的是AI应用的开发,比如DeepSeek开源后任何个人和企业都可以本地部署并且把它应用到更多领域,包括Meta的LLama,阿里的Qwen基本都是第一种开源。
我指的完全开放的开源是将训练代码、数据集等完全的开源,任何人可以在神经网络上添加层,比如我学习训练AI所跟随的MiniMind,这类开源的AI基本上都不是先进的AI,它们的参数量基本都很小,往往是个人或者研究机构所公开的。AI的训练需要大量资本,所以个人开发者很难参与到训练AI的进程中。
DeepSeek的爆火基本火的是R1而不是大幅降低成本的V3,为什么?因为V3没有开放小尺寸的蒸馏模型。
开放小尺寸模型的意义不言而喻,网上所有教你本地部署DeepSeek的教程都是蒸馏模型,它们本质上其实就是LLama和Qwen,小尺寸的模型对开发者极度友好,让我们可以通过微调和本地部署开发AI应用。
那么,选择Qwen几乎就是排除法选出来的,或者说也没得选:
支持中文(这个不言而喻,起初,我使用的是社区微调过的支持中文的LLama,然而即使再7B下它的中文对话表现仍然不尽人意,但Qwen即使在1.5B下也能正常对话)
生态丰富(因为网络原因,HuggingFace难以登录,好在阿里云发布了modelscope,可以比较方便了托管和下载数据集,因为同为阿里开发,modelscope上可能是因为推广的原因搭建起了围绕Qwen的生态)
小模型(Qwen发布都会准备不同尺寸的小模型,这对个人开发者很友好)
对于AI的学习,我将关注两个方向:
训练小尺寸模型(1B以内)和开发AI应用。
训练小尺寸模型上,我将关注点放在提升数据集质量,训练方法,多模态能力上,在此基础上,可以通过增大数据集训练出媲美或超越
Qwen2.5-Omni的模型,意思是多模态能力上比它更强而不是指比它聪明。
AI应用上,我的灵感来源于前段时刻不停炒作的Manus,诚然,一个AI要真正的“好用”,就不能停留在“文字”上,而是应该会自己操作,将结果直接发送给用户,这类开发将是在调用API上,因为小尺寸的模型没有足够的能力。
4. Web开发
我目前对web开发的技术栈是 React + Next.js,因为它符合直觉,一站式,可以无缝部署Vercel。
前段时间Next.js的漏洞确实雷到我了,好在我不拿Next.js当后端用。
为什么不用Vue?说实话,我一开始是想学Vue的,但是我第一次开发Vue项目时用Vite创建Vue项目时死活都无法跑起Hello World。
而且,AI对于React比Vue更熟悉?
将来我可能会学习Vue,不过最近的项目我更偏向使用React。
更新了“AI”中的部分内容
2025年5月23日23:33
先写那么多,一下子码了2000字需要休息一下。
2025年5月17日14:33