<class 'pandas.core.frame.DataFrame'> RangeIndex: 5000 entries, 0 to 4999 Data columns (total 20 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 age 5000 non-null int64 1 ...
<class 'pandas.core.frame.DataFrame'> RangeIndex: 5000 entries, 0 to 4999 Data columns (total 20 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 age 5000 non-null int64 1 ...
本文介绍如何构建一套文本聚类流水线,将大语言模型嵌入与基于密度的聚类算法 HDBSCAN 相结合,在无标注文本数据中自动发现主题。 当前的生成式 AI热潮,表面上似乎主要集中在聊天界面与提示词工程,但大语言模型(LLM)的实际应用范围远不止于此。