3.8k 3 分钟

论文地址:https://arxiv.org/pdf/2403.12173 # 摘要 将非结构化文本转化为由有用的类别标签组织的结构化且有意义的形式,是文本挖掘中用于下游分析和应用的基础步骤。然而,大多数现有的生成标签分类法和构建基于文本的标签分类器的方法仍严重依赖领域专业知识和人工整理,这使得该过程成本高昂且耗时。当标签空间定义不明确且缺乏大规模数据标注时,这一挑战尤为突出。 在本文中,我们利用大型语言模型(LLMs)解决这些挑战,其基于提示词的接口便于大规模伪标签的生成和使用。我们提出了 TnT-LLM,这是一个两阶段框架,它利用 LLMs...
17k 16 分钟

论文网址:lxm-2024612164025.pdf (ict.ac.cn) # 引言 # 定义 文本分类是指在给定分类体系下,通过特定模型计算,为输入文本指定预定义标签的过程,是自然语言处理中应用最广泛、也是最重要的领域之一。 # 方法 1960~2010:基于传统机器学习的文本分类方法 文本预处理 —— 特征提取 —— 分类计算 缺点:耗时,成本高昂,强烈依赖于领域知识,忽略文本序列信息 2010...
1.3k 1 分钟

# Attention 注意力机制 注意力机制是一种 让模型在处理序列数据时 “有选择性地关注重要信息” 的技术,核心思想类似人类阅读时的注意力分配 —— 比如读 “小明给小红送了一本书,她很喜欢” 时,我们会自然聚焦 “她” 与 “小红” 的关联,而非平均关注每个词。 注意力机制通过计算 “关联权重” 实现对重要信息的聚焦,核心是三个向量的交互: Query(查询):当前位置的 “关注点”(比如 “她” 这个词,需要找到它指代的对象); Key(键):所有位置的 “信息标签”(比如 “小明”“小红”“书” 各自的特征); Value(值):所有位置的 “具体信息”(比如 “小红”...
3.5k 3 分钟

从第四章主题曲《Fly, My Wings》谈起吧。 这首歌在我还没玩 084 的时候就收藏了,当时就很喜欢,并且它也是我《未完成的童话》系列重要的灵感来源,《无人岛电台》核心灵感之一。此外一提我 2020 年就开始听 mili 了但是直到现在才开始玩 084…… 那时对这首歌的理解就是一个 “飞向未来” 的故事,理想与现实的对立。现在证实我的理解还算准确。拥抱过去,创造未来 —— 这句话出自月计前作,但是用在这里也无比的合适。此外,084 的标语是 "Face the sin, save the...
1.4k 1 分钟

# 从 24.6.30 的那场双人直播谈起 点开那年今日发现一年前的今天是久违的双人直播。 回忆一下当时的情况,嗯大伙都很开心毕竟是六百多天的等待终于迎来了尾声,超话里全在抽奖。看起来很不错,对吧? 说实在的那天我的喜悦大多来源于双人直播这件事发生了而不是来源于内容本身。其实,你让我现在回忆他们那次直播到底聊了什么东西,我有些记不清了。 我记得,很多人说他们那次直播是一次漫长的沉默。 虽然说的好像是事实,但是我有些不爽,然后在推上转了这段话: 那次直播我没有看很多遍,看见 B 站上说他俩 “沉默是今晚的康桥” 的视频也绕着走。然后事情好像就这么过去了。 直到 8.31...
88 1 分钟

飞书文档没法直接导出 md,我也懒得一个个扒下来整理,所以就直接去看飞书文档吧。 第一章 计算机系统概述 第二章 处理器管理 第三章 存储管理 第四章 设备管理 第五章 文件管理 第六章 PV 管程死锁等
94 1 分钟

飞书文档没法直接导出 md,我也懒得一个个扒下来整理,所以就直接去看飞书文档吧。 重点 数据管理基础 复习 CHAP1~3 数据管理基础 复习 CHAP4~6 数据管理基础 复习 CHAP7,CHAP10~11
44 1 分钟

飞书文档没法直接导出 md,我也懒得一个个扒下来整理,所以就直接去看飞书文档吧。 软工二复习
45 1 分钟

飞书文档没法直接导出 md,我也懒得一个个扒下来整理,所以就直接去看飞书文档吧。 编译原理复习