简介

在 Python 的众多库中，NumPy（Numerical Python）无疑是数值计算领域的一颗璀璨明星。它提供了高性能的多维数组对象，以及大量用于处理这些数组的函数和工具。无论是数据科学、机器学习，还是科学计算和工程领域，NumPy 都发挥着至关重要的作用。本文将深入探讨 NumPy 的基础概念、使用方法、常见实践以及最佳实践，帮助读者全面掌握这一强大的库。

基础概念
- 什么是 NumPy 数组
- 数据类型
使用方法
- 创建数组
- 数组索引与切片
- 数组操作
  - 算术运算
  - 形状操作
  - 排序
常见实践
- 数据分析中的应用
- 机器学习中的应用
最佳实践
- 性能优化
- 内存管理
小结
参考资料

基础概念

什么是 NumPy 数组

NumPy 数组（ndarray）是一个多维的、同质的数组对象，即数组中的所有元素都具有相同的数据类型。它是 NumPy 库的核心数据结构，与 Python 原生的列表相比，NumPy 数组在存储和计算效率上都有显著提升。这是因为 NumPy 数组在内存中是连续存储的，并且其底层实现使用了高效的 C 语言代码。

数据类型

NumPy 支持多种数据类型，包括整数、浮点数、布尔值、复数等。常见的数据类型有 int32、int64、float32、float64 等。可以在创建数组时指定数据类型，也可以通过 dtype 属性查看数组的数据类型。

import numpy as np

# 创建一个整数类型的数组
arr_int = np.array([1, 2, 3], dtype=np.int32)
print(arr_int.dtype)  # 输出: int32

# 创建一个浮点数类型的数组
arr_float = np.array([1.0, 2.0, 3.0], dtype=np.float64)
print(arr_float.dtype)  # 输出: float64

使用方法

创建数组

从列表创建数组：可以使用 np.array() 函数将 Python 列表转换为 NumPy 数组。 ```python import numpy as np

list_data = [1, 2, 3, 4, 5] arr = np.array(list_data) print(arr) # 输出: [1 2 3 4 5]

2. **创建特定形状的数组**：
    - `np.zeros()`：创建全零数组。
```python
zero_arr = np.zeros((3, 4))
print(zero_arr)  
# 输出:
# [[0. 0. 0. 0.]
#  [0. 0. 0. 0.]
#  [0. 0. 0. 0.]]

- `np.ones()`：创建全一数组。 ```python one_arr = np.ones((2, 3)) print(one_arr)   # 输出: # [[1. 1. 1.] #  [1. 1. 1.]] ```
- `np.full()`：创建指定值的数组。 ```python full_arr = np.full((2, 2), 7) print(full_arr)   # 输出: # [[7 7] #  [7 7]] ```
- `np.arange()`：创建等差数组。 ```python arange_arr = np.arange(0, 10, 2) print(arange_arr)  # 输出: [0 2 4 6 8] ```
- `np.linspace()`：创建线性间距数组。 ```python linspace_arr = np.linspace(0, 1, 5) print(linspace_arr)  # 输出: [0.   0.25 0.5  0.75 1.  ] ```

数组索引与切片

一维数组索引：与 Python 列表类似，可以通过索引访问数组元素。
```
arr = np.array([10, 20, 30, 40, 50])
print(arr[2])  # 输出: 30
```

多维数组索引：对于多维数组，需要提供多个索引值。

arr_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(arr_2d[1, 2])  # 输出: 6

切片操作：可以对数组进行切片，获取子数组。 ```python arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]) sub_arr = arr[2:7:2] print(sub_arr) # 输出: [3 5 7]

arr_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) sub_2d_arr = arr_2d[1:, :2] print(sub_2d_arr)

输出:

[[4 5]

[7 8]]

### 数组操作
#### 算术运算
NumPy 数组支持各种算术运算，这些运算会对数组的每个元素进行操作。
```python
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

add_arr = arr1 + arr2
sub_arr = arr1 - arr2
mul_arr = arr1 * arr2
div_arr = arr1 / arr2

print(add_arr)  # 输出: [5 7 9]
print(sub_arr)  # 输出: [-3 -3 -3]
print(mul_arr)  # 输出: [ 4 10 18]
print(div_arr)  # 输出: [0.25 0.4  0.5 ]

形状操作

查看数组形状：通过 shape 属性可以查看数组的形状。

arr = np.array([[1, 2, 3], [4, 5, 6]])
print(arr.shape)  # 输出: (2, 3)

改变数组形状：

reshape()：在不改变数据的情况下改变数组的形状。

arr = np.array([1, 2, 3, 4, 5, 6])
new_arr = arr.reshape(2, 3)
print(new_arr)  
# 输出:
# [[1 2 3]
#  [4 5 6]]

flatten()：将多维数组展平为一维数组。

arr = np.array([[1, 2, 3], [4, 5, 6]])
flat_arr = arr.flatten()
print(flat_arr)  # 输出: [1 2 3 4 5 6]

排序

可以使用 np.sort() 函数对数组进行排序。

arr = np.array([3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5])
sorted_arr = np.sort(arr)
print(sorted_arr)  # 输出: [1 1 2 3 3 4 5 5 5 6 9]

常见实践

数据分析中的应用

在数据分析中，NumPy 常用于数据的预处理、计算统计指标等。例如，计算数据集的均值、标准差等。

import numpy as np

data = np.array([12, 15, 18, 20, 22])

mean_value = np.mean(data)
std_value = np.std(data)

print("均值:", mean_value)  # 输出: 均值: 17.4
print("标准差:", std_value)  # 输出: 标准差: 3.5355339059327378

机器学习中的应用

在机器学习中，NumPy 是处理数据的基础库。例如，将数据集加载到 NumPy 数组中，进行特征工程和模型训练。

import numpy as np

# 生成一些随机数据
X = np.random.randn(100, 5)  # 100 个样本，每个样本 5 个特征
y = np.random.randn(100)   # 目标变量

# 简单的线性回归模型训练（这里仅作演示）
weights = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
print(weights)

最佳实践

性能优化

向量化操作：尽量使用 NumPy 的向量化操作，避免使用 Python 的循环。向量化操作利用了底层的 C 语言代码，执行速度更快。 ```python import numpy as np import time

使用循环计算数组元素平方

arr = np.array([1, 2, 3, 4, 5]) start_time = time.time() result_loop = [] for num in arr: result_loop.append(num ** 2) end_time = time.time() print(“循环时间:”, end_time - start_time)

使用向量化操作计算数组元素平方

start_time = time.time() result_vectorized = arr ** 2 end_time = time.time() print(“向量化时间:”, end_time - start_time)

2. **选择合适的数据类型**：根据数据的范围和精度要求，选择合适的数据类型。例如，如果数据都是整数且范围较小，可以使用 `int8` 或 `int16` 类型，以减少内存占用。

### 内存管理
1. **避免不必要的副本**：在对数组进行操作时，要注意避免创建不必要的副本。有些操作会返回数组的副本，而有些则是视图。例如，`reshape()` 方法返回的是视图，而 `flatten()` 方法返回的是副本。
```python
arr = np.array([1, 2, 3, 4, 5])
view_arr = arr.reshape(1, 5)
copy_arr = arr.flatten()

# 检查是否是同一个对象
print(np.shares_memory(arr, view_arr))  # 输出: True
print(np.shares_memory(arr, copy_arr))  # 输出: False

释放不再使用的内存：如果不再需要某个数组，可以使用 del 关键字删除数组对象，释放内存。

小结

NumPy 是 Python 中用于数值计算的强大库，它提供了高效的多维数组对象和丰富的函数集。通过掌握 NumPy 的基础概念、使用方法、常见实践以及最佳实践，读者可以在数据科学、机器学习和其他科学计算领域更加高效地处理和分析数据。希望本文能帮助读者深入理解并灵活运用 NumPy，提升编程效率和数据分析能力。

参考资料

NumPy 官方文档
《Python 数据分析实战》
《利用 Python 进行数据分析》

Python 中的 Numpy：强大的数值计算库

简介

目录