工作中常用的pandas 数据处理技术总结【高级技巧】

JiangYuan • 14/11/2023 10:59 • Python编程 • 阅读 195

工作中我们常用pandas作为数据处理的工具，读取Excel/csv/mysql等数据源后处理成dataframe，本文介绍一些常用的高级操作技巧、组合使用技巧，尤其是文本相关的处理。

结合文本清洗函数，并根据长度筛选

def cleanquestion(x: str) -> str:
    if isinstance(x, str):
        str_text = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])", "", x)
        return str_text
    else:
        return None
def map_label(data, map_dict):
    return map_dict.get(data) if data in map_dict.keys() else None
new_df= df.pipe(
    lambda x: x.assign(**{
    'text':x['text'].apply(lambda j: cleanquestion(j))
    })
).drop_duplicates(['text']).pipe(
    lambda x: x.loc[x['text'].apply(lambda j: len(j) >2)]
).pipe(
    lambda x: x.assign(
        标签=x['标签'].astype(str).apply(lambda j: map_label(j, data_dict)),
    )
).dropna(subset=['标签', 'text'])

多文件遍历读取

alldata_df = pd.concat([pd.read_csv(i) for i in glob(pathname="data/*.csv")])
# 或
alldata_df = pd.concat([pd.read_csv(i) for i in Path(r"文件路径").rglob('*.csv')])

分组后新增列

通过 groupby().agg().reset_index(drop=False)
在agg中，通过 新列名 = （执行列，操作方法函数）方式新增一列。

df.pipe(
    lambda x: x.groupby(['label1', 'label2']).agg(
    num= ('text', 'count'),  # 新生成一列 num，通过 count函数统计
    new_text = ('text', lambda t: '|'.join(t)) # 新生成一列 new_text 
    ).sort_values(by=['num'], ascending=False).reset_index(drop=False)
).pipe(
    lambda x: x.loc[x['label1'] != x['label2']] # 筛选两个label不一样的数据
).pipe(
    lambda x:x.loc[x['num'] > 30] # 筛选个数>30
).pipe(
    lambda x: x.loc[~pd.isna(x['label1'])] # 非空值筛选
)
df.pipe(
    lambda x: x.explode(['某列的列表'])
)

分组统计：不同概率下的各个分类的准确率

new_df = df.pipe(
    lambda x: x.assign(**{
    'scores':pd.cut(x['probability'], 
                       bins=pd. IntervalIndex.from_breaks(np.arange(11)/10))
    })
).pipe(
    lambda x: x.groupby(['scores']).agg(
        total = ('text', 'count'),
        number=('text', lambda j: len(set(j)))
    ).reset_index(drop=False)
).pipe(
    lambda x: x.assign(**{
    'score':np.around(x['number'] / x['total'] * 100 , 3)
    })
)

合并两个dataframe

new_df= df1.pipe(
    lambda x: x.merge(
    right=df2,
    how='left',
    left_on=['列名'],
    right_on=['列名']
    )
).sort_values(by=['列'], ascending=False)

各种过滤筛选文本技巧

df.pipe(
    lambda x: x.query("label in @data_list") 
).pipe( # 或者
    lambda x: x.loc[x['label '].isin(data_list)]
).pipe(
    lambda x: x.query('label1 == "标签名"')
).pipe(
    lambda x: x.loc[x['label1'] != '标签名']
).pipe(
    lambda x: x.loc[~x['label1'].isin(df2['列名'])]
).pipe(
    lambda x: x.loc[x['label1'].apply(lambda j: j != ['NULL'])]
).pipe(
    lambda x: x.loc[~pd.isna(x['question'])]  # 清洗question列空值
).pipe(
    lambda x: x.assign(**{
    'id':np.random.choice(a=3, size=x.shape[0]) # 随机分组
    })
)

f转dict

df_dict= df.dropna(subset='label1').set_index("label2").to_dict()["label1"]

处理时间

from datetime import datetime, timedelta
rawdata = df.pipe(
                lambda x: x.assign(**{
                    'datetime': pd.to_datetime(x['datetime'])
                })
            ).pipe(
                lambda x: x.loc[x['datetime'] > datetime.now() - timedelta(days=10)]
            ).pipe(
                lambda x: x.assign(**{
                    'datetime': x['datetime'].dt.strftime('%Y-%m-%d')
                })
            ).pipe( # 根据人名和时间统计
                lambda x: x.groupby(['人名', 'datetime']).agg(
                    count=('text', 'count')
                ).reset_index(drop=False)
            )

pandas结合jieba和re

def load_jieba_words():
    maintain_words = [line.strip('\n').strip()
        for line in open('./data/maintain_words.txt', 'r', encoding='utf-8').readlines()]
    for word in maintain_words:
        jieba.add_word(word)
def jieba_cut_words(data_df):
        # 所有的分词汇总列表
        cut_sentences = [jieba.lcut(sentence) for sentence in data_df['相似问'].tolist()]
        all_words = [word for word in cut_sentences if len(word) > 1 and word not in self.stopwords]
        return all_words
def get_stopwords(path_stopwords):
    # 获取停用词表，对分词结果停用
    stopwords = [line.strip('\n').strip() for line in open(path_stopwords, 'r', encoding='utf-8').readlines()]
    return stopwords
def clean_by_stopwords(data_df):
    data_df['相似问'] = data_df['相似问'].apply(
            lambda x: ''.join([word for word in jieba.lcut(x) if word not in self.stopwords]))
    return data_df
def clean_by_regex(data_df):
    # regex 结合 pandas 清洗文本
    # 非中文 [^\u4e00-\u9fa5]+ 或  ！“#¥%&、‘，-。/：；《=》？@【、】……——·「」～+
    data_df['相似问'] = data_df['相似问'].astype('str').apply(
         lambda x: re.sub(r'[^\u4e00-\u9fa5]+', '', x))
    return data_df

原创文章。转载请注明：作者:JiangYuan 网址: https://www.icnma.com

赞 (0)

JiangYuan管理

0 0

深度学习项目中配置文件探析，用ini、json还是yaml？附源码示例

上一篇 06/04/2023 13:35

langchain结合云原生Milvus向量数据库问答实践指南

下一篇 02/05/2024

Python编程

深度学习项目，代码结构、风格和习惯，让自己的代码更Pythonic!

深度学习组织架构和代码层面的风格学习，有助于代码交流和审查等。

meixi
11/01/2023
001.1K0
Python编程

Pandas+Re正则，处理文本字符串

Pandas+Re正则处理文本字符串示例

meixi
06/04/2023
005290
Python编程

高频Python正则表达式，基础语法、常用函数和工具汇总

工作学习中常用的正则表达式总结、工具分享和示例

meixi
06/04/2023
004850
Python编程

深度学习项目中配置文件探析，用ini、json还是yaml？附源码示例

Python项目配置文件高效管理参数，例如通过ini/cfg、json、yaml文件。

meixi
06/04/2023
008180
Python编程

Python高级工程师竟然这样写代码？优雅、简洁、易读！

成为Python高级工程师，把代码写的更优雅！

meixi
07/03/2023
004800

发表回复

登录后才能评论

Stirling-PDF
12/05/2024
分享到:

强大的、本地托管的、基于 Web 的 PDF 操作工具，使用 Docker。它使您能够对 PDF 文件执行各种操作，包括拆分、合并、转换、重组、添加图像、旋转、压缩等。这个本地托管的 Web 应用程序已经发展到包含一套全面的功能，可以满足您的所有 PDF 要求。 [原文链接]
RAGFlow
12/05/2024
分享到:

一款基于深度文档理解构建的开源 RAG（Retrieval-Augmented Generation）引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程，结合大语言模型（LLM）针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。 [原文链接]
LLM 记忆管理框架MemGPT
04/05/2024
分享到:

MemGPT（Memory-GPT）系统，智能地管理不同的内存层，以有效地在LLM的有限上下文窗口内提供扩展上下文，并利用中断来管理自身与用户之间的控制流。
MemGPT 的设计可以支持远超基础LLM上下文窗口的大型文档；多会话聊天领域，MemGPT可以创建能够通过与用户的长期互动记住、反思和动态发展的对话 Agents。
支持与 llama.cpp、vLLM、Ollama、LM Studio 等开源模型整合、以及与 AutoGen 等 MultiAgent 框架进行结合使用。
https://memgpt.readme.io/docs/local_llm
[原文链接]
大模型WebUI 界面
26/04/2024
分享到:

WebUI for LLMs (Formerly Ollama WebUI) [原文链接]
ARAGOG-高级RAG输出分级
21/04/2024
分享到:

使用 AI papers 探索和比较各种检索增强生成（RAG）技术。包括模块化代码，便于实验和可重用。 [原文链接]