如何对txt文本中的不规则行进行数据分列-轻识

点击上方“Python共享之家”，进行关注

回复“资源”即可获赠Python学习资料

今

日

鸡

汤

近泪无干土，低空有断云。

大家好，我是皮皮。

一、前言

前几天在Python交流白银群【空翼】问了一道Pandas数据处理的问题，如下图所示。

文本文件中的数据格式如下图所示：

里边有12万多条数据。

二、实现过程

这个问题还是稍微有些挑战性的，这里【瑜亮老师】给了一个解答，思路确实非常不错。

后来【flag != flag】给了一个清晰后的数据，如图所示。

看上去清晰很多了，剩下的交给粉丝自己去处理了。

后来【月神】给了一个代码，直接拿下了这个有偿的需求。代码如下所示：

import pandas as pd


def read_csv(path):
    df = pd.read_csv(path, header=1)
    pattern = r'(\d+\.\d+\.\d+\.\d+/\d+)\s\s+(\d+)?\s\s+(\d+)\s\s+(\d+)\s\s+([\d\S ]+)'
    values = df.iloc[:, 0].str.extract(pattern).values
    columns = df.columns.str.strip().str.split('\s+')[0]
    return pd.DataFrame(values, columns=columns)


def get_lower_prf(df1, df2):
    pass # 付费的代码内容，这里摘除了，嘻嘻

path_A = r"Route_A.txt"
path_B = r"Route_B.txt"

dfA = read_csv(path_A)
dfB = read_csv(path_B)

data = get_lower_prf(dfA, dfB)

data.to_csv('result.txt', '\t', index=False)