lightning/tests/tests_data/processing/test_readers.py

import os
import sys

import pytest
from lightning.data import map
from lightning.data.processing.readers import _PYARROW_AVAILABLE, BaseReader, ParquetReader


class DummyReader(BaseReader):

    def remap_items(self, items, num_workers: int):
        return [(worker_idx, idx, item) for idx, item in enumerate(items) for worker_idx in range(num_workers)]

    def read(self, item):
        return item


def fn(data: str, output_dir):
    worker_idx, idx, _ = data

    with open(os.path.join(output_dir, f"{worker_idx}_{idx}"), "w") as f:
        f.write("hello world")


def test_reader(tmpdir):
    map(fn, list(range(3)), output_dir=str(tmpdir), reader=DummyReader(), num_workers=2)
    assert sorted(os.listdir(tmpdir)) == ['0_0', '0_1', '0_2', '1_0', '1_1', '1_2']


def map_parquet(df, output_dir):
    for row in df.iter_batches(batch_size=1):
        for row in row.to_pandas().values.tolist():
            filename = f"{row[0]}_{df.metadata.num_rows}"

            with open(os.path.join(output_dir, filename), "w") as f:
                f.write("hello world")

            return

@pytest.mark.skipif(
    not _PYARROW_AVAILABLE or sys.platform == "linux",
    reason="polars and pyarrow are required"
)
def test_parquet_reader(tmpdir):
    import pandas as pd

    inputs = []

    for i in range(3):
        parquet_path = os.path.join(tmpdir, f"{i}.parquet")
        df = pd.DataFrame(list(range(i * 10, (i + 1) * 10)), columns=["value"])
        df.to_parquet(parquet_path)
        inputs.append(parquet_path)

    cache_folder = os.path.join(tmpdir, "cache")

    map(
        map_parquet,
        inputs=inputs,
        output_dir=os.path.join(tmpdir, "output_dir"),
        reader=ParquetReader(cache_folder, num_rows=5, to_pandas=False),
        num_workers=2
    )

    assert sorted(os.listdir(os.path.join(tmpdir, "output_dir"))) == ['0_5', '10_5', '15_5', '20_5', '25_5', '5_5']
Add support for parallelizing processing parquet files across workers and nodes. (#19400) 2024-02-05 23:21:25 +00:00			`import os`
			`import sys`

			`import pytest`
			`from lightning.data import map`
Improve data processing to enable downloading LAOIN 400M (#19452) 2024-02-13 13:23:39 +00:00			`from lightning.data.processing.readers import _PYARROW_AVAILABLE, BaseReader, ParquetReader`
Add support for parallelizing processing parquet files across workers and nodes. (#19400) 2024-02-05 23:21:25 +00:00

			`class DummyReader(BaseReader):`

Improve data processing to enable downloading LAOIN 400M (#19452) 2024-02-13 13:23:39 +00:00			`def remap_items(self, items, num_workers: int):`
			`return [(worker_idx, idx, item) for idx, item in enumerate(items) for worker_idx in range(num_workers)]`
Add support for parallelizing processing parquet files across workers and nodes. (#19400) 2024-02-05 23:21:25 +00:00
			`def read(self, item):`
			`return item`


			`def fn(data: str, output_dir):`
			`worker_idx, idx, _ = data`

			`with open(os.path.join(output_dir, f"{worker_idx}_{idx}"), "w") as f:`
			`f.write("hello world")`


			`def test_reader(tmpdir):`
			`map(fn, list(range(3)), output_dir=str(tmpdir), reader=DummyReader(), num_workers=2)`
			`assert sorted(os.listdir(tmpdir)) == ['0_0', '0_1', '0_2', '1_0', '1_1', '1_2']`


			`def map_parquet(df, output_dir):`
Improve data processing to enable downloading LAOIN 400M (#19452) 2024-02-13 13:23:39 +00:00			`for row in df.iter_batches(batch_size=1):`
			`for row in row.to_pandas().values.tolist():`
			`filename = f"{row[0]}_{df.metadata.num_rows}"`
Add support for parallelizing processing parquet files across workers and nodes. (#19400) 2024-02-05 23:21:25 +00:00
Improve data processing to enable downloading LAOIN 400M (#19452) 2024-02-13 13:23:39 +00:00			`with open(os.path.join(output_dir, filename), "w") as f:`
			`f.write("hello world")`

			`return`
Add support for parallelizing processing parquet files across workers and nodes. (#19400) 2024-02-05 23:21:25 +00:00
			`@pytest.mark.skipif(`
Improve data processing to enable downloading LAOIN 400M (#19452) 2024-02-13 13:23:39 +00:00			`not _PYARROW_AVAILABLE or sys.platform == "linux",`
Add support for parallelizing processing parquet files across workers and nodes. (#19400) 2024-02-05 23:21:25 +00:00			`reason="polars and pyarrow are required"`
			`)`
			`def test_parquet_reader(tmpdir):`
Improve data processing to enable downloading LAOIN 400M (#19452) 2024-02-13 13:23:39 +00:00			`import pandas as pd`
Add support for parallelizing processing parquet files across workers and nodes. (#19400) 2024-02-05 23:21:25 +00:00
			`inputs = []`

			`for i in range(3):`
			`parquet_path = os.path.join(tmpdir, f"{i}.parquet")`
Improve data processing to enable downloading LAOIN 400M (#19452) 2024-02-13 13:23:39 +00:00			`df = pd.DataFrame(list(range(i * 10, (i + 1) * 10)), columns=["value"])`
			`df.to_parquet(parquet_path)`
Add support for parallelizing processing parquet files across workers and nodes. (#19400) 2024-02-05 23:21:25 +00:00			`inputs.append(parquet_path)`

Improve data processing to enable downloading LAOIN 400M (#19452) 2024-02-13 13:23:39 +00:00			`cache_folder = os.path.join(tmpdir, "cache")`

Add support for parallelizing processing parquet files across workers and nodes. (#19400) 2024-02-05 23:21:25 +00:00			`map(`
			`map_parquet,`
			`inputs=inputs,`
			`output_dir=os.path.join(tmpdir, "output_dir"),`
Improve data processing to enable downloading LAOIN 400M (#19452) 2024-02-13 13:23:39 +00:00			`reader=ParquetReader(cache_folder, num_rows=5, to_pandas=False),`
Add support for parallelizing processing parquet files across workers and nodes. (#19400) 2024-02-05 23:21:25 +00:00			`num_workers=2`
			`)`

Improve data processing to enable downloading LAOIN 400M (#19452) 2024-02-13 13:23:39 +00:00			`assert sorted(os.listdir(os.path.join(tmpdir, "output_dir"))) == ['0_5', '10_5', '15_5', '20_5', '25_5', '5_5']`