ErinwithBMQ's Blog = 尋夢之旅 = 循此苦旅，终抵繁星

2025-07-29 3.9k 字 4 分钟

600天：关于“为什么”的自我问答

入坑600天的阶段性记录。

2025-07-23 12k 字 11 分钟

# 第一个代码：KNN 鸢尾花分类使用 sklearn 库 # 基础库 import matplotlib.pyplot as plt import matplotlib matplotlib.rcParams['font.sans-serif'] = ['SimHei'] matplotlib.rcParams['axes.unicode_minus'] = False # sklearn 模块 from sklearn import datasets from sklearn.model_selection import...

more...

2025-07-21 21k 字 19 分钟

力扣 HOT 100 刷题记录

# 哈希 # 1 两数之和思路：二分查找。不过要注意下标，采用下标索引转换。 public int[] twoSum(int[] nums, int target) { int n = nums.length; Integer[] indices = new Integer[n]; for (int i = 0; i < n; i++) { indices[i] = i; } Arrays.sort(indices, Comparator.comparingInt(a -> nums[a])); for (int i...

more...

2025-07-21 2.1k 字 2 分钟

项目实践：SMS 垃圾邮件分类

# 简介数据集：SMS Spam Collection Dataset 目标：将短信分为 ham 和 spam 两类 # 使用的模型 # 文本嵌入 TF-IDF # 监督学习 SVM 决策树朴素贝叶斯 # 无监督学习 k-means gmm dbscan # 项目过程主要是下面几个阶段：数据预处理（数据加载，清洗，向量化）模型训练模型评估对于监督学习模型，数据还进行了特征标准化；训练测试比为 8：2 对于无监督模型，数据进行了 PCA 降维 # 评估结果 # 无监督模型总体性能较差，难以实现分类的目的。 # k-means 混淆矩阵： [4596 229] [...

more...

2025-07-21 1.1k 字 1 分钟

文本聚类算法

（还没详细看基础理论，放的是 gpt 的总结整理） # K-Means 原理：目标是将数据划分为 K 个簇，使簇内的样本尽可能相似，簇间尽可能不同。核心思想：最小化样本点到其所在簇质心（centroid）的距离平方和。算法步骤：随机选择 KKK 个初始质心。将每个样本分配到最近的质心所代表的簇。重新计算每个簇的质心。重复步骤 2 和 3，直到质心不再变化或达到最大迭代次数。优点：简单、高效缺点：只能发现凸形簇，对初始质心敏感，不适用于不同方差或非球形分布的数据 # GMM 原理：假设数据是由多个高斯分布组成的混合体，每个高斯分布代表一个簇。通过...

more...

2025-07-17 3.8k 字 3 分钟

TnT-LLM：利用大语言模型进行大规模文本挖掘论文阅读

论文地址：https://arxiv.org/pdf/2403.12173 # 摘要将非结构化文本转化为由有用的类别标签组织的结构化且有意义的形式，是文本挖掘中用于下游分析和应用的基础步骤。然而，大多数现有的生成标签分类法和构建基于文本的标签分类器的方法仍严重依赖领域专业知识和人工整理，这使得该过程成本高昂且耗时。当标签空间定义不明确且缺乏大规模数据标注时，这一挑战尤为突出。在本文中，我们利用大型语言模型（LLMs）解决这些挑战，其基于提示词的接口便于大规模伪标签的生成和使用。我们提出了 TnT-LLM，这是一个两阶段框架，它利用 LLMs...

more...

2025-07-14 17k 字 16 分钟

文本分类算法及其应用场景研究综述学习笔记

论文网址：lxm-2024612164025.pdf (ict.ac.cn) # 引言 # 定义文本分类是指在给定分类体系下，通过特定模型计算，为输入文本指定预定义标签的过程，是自然语言处理中应用最广泛、也是最重要的领域之一。 # 方法 1960~2010：基于传统机器学习的文本分类方法文本预处理 —— 特征提取 —— 分类计算缺点：耗时，成本高昂，强烈依赖于领域知识，忽略文本序列信息 2010...

more...

2025-07-14 1.3k 字 1 分钟

Transformer 架构简介

# Attention 注意力机制注意力机制是一种让模型在处理序列数据时 “有选择性地关注重要信息” 的技术，核心思想类似人类阅读时的注意力分配 —— 比如读 “小明给小红送了一本书，她很喜欢” 时，我们会自然聚焦 “她” 与 “小红” 的关联，而非平均关注每个词。注意力机制通过计算 “关联权重” 实现对重要信息的聚焦，核心是三个向量的交互： Query（查询）：当前位置的 “关注点”（比如 “她” 这个词，需要找到它指代的对象）； Key（键）：所有位置的 “信息标签”（比如 “小明”“小红”“书” 各自的特征）； Value（值）：所有位置的 “具体信息”（比如 “小红”...

more...

2025-07-14 3.5k 字 3 分钟

飞吧，飞向更远的地方——《边狱巴士》第四章杂谈

从第四章主题曲《Fly, My Wings》谈起吧。这首歌在我还没玩 084 的时候就收藏了，当时就很喜欢，并且它也是我《未完成的童话》系列重要的灵感来源，《无人岛电台》核心灵感之一。此外一提我 2020 年就开始听 mili 了但是直到现在才开始玩 084…… 那时对这首歌的理解就是一个 “飞向未来” 的故事，理想与现实的对立。现在证实我的理解还算准确。拥抱过去，创造未来 —— 这句话出自月计前作，但是用在这里也无比的合适。此外，084 的标语是 "Face the sin, save the...

more...

2025-07-10 8k 字 7 分钟

想要忘却的故事

关于我cp的，想了想不打算公开发表了。

more...