为什么这些数字不相等?
下面的代码显然是错误的。 有什么问题?
i <- 0.1
i <- i + 0.05
i
## [1] 0.15
if(i==0.15) cat("i equals 0.15") else cat("i does not equal 0.15")
## i does not equal 0.15
一般(语言不可知)原因
由于不是所有的数字都可以用IEEE浮点算法(几乎所有计算机用来表示十进制数并与它们进行数学运算的标准)精确表示,所以您不会总能得到您所期望的。 这是特别真实的,因为一些简单的有限小数(例如0.1和0.05)的值在计算机中没有精确地表示,所以对它们的算术结果可能不会给出与直接表示“已知“答案。
这是计算机算术的一个众所周知的局限性,并在几个地方进行了讨论:
比较标量
R
的标准解决方案不是使用==
,而是使用all.equal
函数。 或者说,因为all.equal
提供了有关这些差异的详细信息, isTRUE(all.equal(...))
。
if(isTRUE(all.equal(i,0.15))) cat("i equals 0.15") else cat("i does not equal 0.15")
产量
i equals 0.15
使用all.equal
而不是==
更多示例(最后一个示例应该表明这将正确显示差异)。
0.1+0.05==0.15
#[1] FALSE
isTRUE(all.equal(0.1+0.05, 0.15))
#[1] TRUE
1-0.1-0.1-0.1==0.7
#[1] FALSE
isTRUE(all.equal(1-0.1-0.1-0.1, 0.7))
#[1] TRUE
0.3/0.1 == 3
#[1] FALSE
isTRUE(all.equal(0.3/0.1, 3))
#[1] TRUE
0.1+0.1==0.15
#[1] FALSE
isTRUE(all.equal(0.1+0.1, 0.15))
#[1] FALSE
一些更详细的信息,直接从答案中复制到类似的问题:
您遇到的问题是,在大多数情况下,浮点不能精确地表示小数部分,这意味着您经常会发现精确匹配失败。
而当你说:R时,
1.1-0.2
#[1] 0.9
0.9
#[1] 0.9
你可以通过十进制来发现它真正的想法:
sprintf("%.54f",1.1-0.2)
#[1] "0.900000000000000133226762955018784850835800170898437500"
sprintf("%.54f",0.9)
#[1] "0.900000000000000022204460492503130808472633361816406250"
你可以看到这些数字是不同的,但表示有点笨拙。 如果我们用二进制来看待它们(好吧,十六进制,这相当于),我们得到一个更清晰的图像:
sprintf("%a",0.9)
#[1] "0x1.ccccccccccccdp-1"
sprintf("%a",1.1-0.2)
#[1] "0x1.ccccccccccccep-1"
sprintf("%a",1.1-0.2-0.9)
#[1] "0x1p-53"
你可以看到它们相差2^-53
,这很重要,因为这个数字是两个数值之间最小的可表示的差值,其值接近1,因为这是。
我们可以找出任何给定的计算机这个最小的可表示数字是通过查看R的机器领域:
?.Machine
#....
#double.eps the smallest positive floating-point number x
#such that 1 + x != 1. It equals base^ulp.digits if either
#base is 2 or rounding is 0; otherwise, it is
#(base^ulp.digits) / 2. Normally 2.220446e-16.
#....
.Machine$double.eps
#[1] 2.220446e-16
sprintf("%a",.Machine$double.eps)
#[1] "0x1p-52"
你可以使用这个事实来创建一个“接近平等”的函数,它检查差异是否接近浮点最小可表示的数字。 实际上这已经存在: all.equal
。
?all.equal
#....
#all.equal(x,y) is a utility to compare R objects x and y testing ‘near equality’.
#....
#all.equal(target, current,
# tolerance = .Machine$double.eps ^ 0.5,
# scale = NULL, check.attributes = TRUE, ...)
#....
所以all.equal函数实际上是检查数字之间的差异是两个尾数之间最小差异的平方根。
这个算法在接近称为非规范的非常小的数字附近有点滑稽,但是您不必担心这一点。
比较矢量
上面的讨论假定了两个单一值的比较。 在R中,没有标量,只有向量和隐式向量化是语言的一个优势。 为了比较矢量元素的价值,以前的原则成立,但实施略有不同。 ==
是矢量化的(进行元素比较),而all.equal
将整个矢量作为单个实体进行比较。
使用前面的例子
a <- c(0.1+0.05, 1-0.1-0.1-0.1, 0.3/0.1, 0.1+0.1)
b <- c(0.15, 0.7, 3, 0.15)
==
不会给出“预期”结果, all.equal
不会执行元素明智的
a==b
#[1] FALSE FALSE FALSE FALSE
all.equal(a,b)
#[1] "Mean relative difference: 0.01234568"
isTRUE(all.equal(a,b))
#[1] FALSE
相反,必须使用循环这两个向量的版本
mapply(function(x, y) {isTRUE(all.equal(x, y))}, a, b)
#[1] TRUE TRUE TRUE FALSE
如果需要这样的功能版本,可以编写它
elementwise.all.equal <- Vectorize(function(x, y) {isTRUE(all.equal(x, y))})
这可以称为公正的
elementwise.all.equal(a, b)
#[1] TRUE TRUE TRUE FALSE
或者,不要将all.equal
包装在更多的函数调用中,而只需复制all.equal.numeric
的相关内部all.equal.numeric
并使用隐式向量化:
tolerance = .Machine$double.eps^0.5
# this is the default tolerance used in all.equal,
# but you can pick a different tolerance to match your needs
abs(a - b) < tolerance
#[1] TRUE TRUE TRUE FALSE
添加到Brian的评论(这是原因),你可以通过使用all.equal
来代替:
# i <- 0.1
# i <- i + 0.05
# i
#if(all.equal(i, .15)) cat("i equals 0.15n") else cat("i does not equal 0.15n")
#i equals 0.15
Per Joshua在这里的警告是更新的代码(感谢Joshua):
i <- 0.1
i <- i + 0.05
i
if(isTRUE(all.equal(i, .15))) { #code was getting sloppy &went to multiple lines
cat("i equals 0.15n")
} else {
cat("i does not equal 0.15n")
}
#i equals 0.15
这很快,但很快:
if(round(i, 10)==0.15) cat("i equals 0.15") else cat("i does not equal 0.15")
链接地址: http://www.djcxy.com/p/73893.html
上一篇: Why are these numbers not equal?
下一篇: What is the difference between a library and a package in R?