分类 其它 下的文章

简介

pgloader是一个数据同步工具,用来将数据从其它地方迁移到postgresql中,支持从如下源迁移:

  • 文件:CSV、Fixed Format、Postgres COPY text format、DBF、IXF
  • 数据库系统:SQLite、MySql、MSSQLServer、PostgreSQL、Redshift

应用场景

需要往postgresql中导入数据的时候,如数据迁移。

安装

安装概述

安装方式比较丰富,详见
https://pgloader.readthedocs.io/en/latest/install.html

遗憾的是未提供CentOS环境编译好的程序供下载,所以需要手动编译安装。

CentOS编译安装

去官网下载最新源码:

https://github.com/dimitri/pgloader

将源码放到 /usr/bin下,本文为例:


[root@bogon pgloader-3.6.9]# pwd
/usr/local/pgloader-3.6.9

如果下载的是源码压缩包需要使用如下命令解压:


tar -zxvf pgloader-3.6.9.tar.gz

赋予脚本执行权限:

cd /usr/local/pgloader-3.6.9


chmod -R 777 *

执行 bootstrap-centos7.sh 脚本,下载相关依赖


bootstrap-centos7.sh

执行编译:


make  pgloader

如果有提示到 ("libcrypto.so.1.1" "libcrypto.so.1.0.0" "libcrypto.so.3" "libcrypto.so") 没有找到或者相关信息
需要先安装 openssl


yum -y install openssl openssl-devel

复制编译好的程序到系统执行目录 /usr/local/bin/ 下


cp  /usr/local/pgloader-3.6.9/build/bin/pgloader        /usr/local/bin/

查看是否安装好了:


[root@bogon home]# pgloader --version
pgloader version "3.6.7~devel"
compiled with SBCL 2.2.5

使用

pgloader 有两种常见的使用方式:

  • 通过命令行
  • 通过迁移配置文件

命令行

如下命令行:

pgloader mysql://user:password@ip:3306/dbName postgresql://user:password@ip:5432/dbName

  • 将名为dbName的数据库结构和数据 从mysql迁移到postgresql
  • pgloader 为上述 /usr/local/bin/pgloader 的可执行文件
  • 后面是mysql 的连接信息 , postgresql 的连接信息,中间使用空格分隔
  • 需要使用有写入权限的账号,建议使用root用户操作

配置文件迁移

另外一种方式就是编写迁移配置文件,然后使用 pgloader sync.load 命令执行配置文件。

如下配置文件演示了仅同步mysql的source_db库中的ramble_doc 表到 postgresql中的target_db库中,执行完毕之后将在postgresql中新建一个名为ramble_doc 的表,并新增数据。

LOAD DATABASE
     FROM     mysql://root:xxx@192.168.1.92:3306/source_db
     INTO     postgresql://postgres:xxx@192.168.1.24:5432/target_db

INCLUDING ONLY TABLE NAMES matching 'ramble_doc' ;

  • LOAD DATABASE :表示从数据库执行迁移
  • FROM :源数据库连接信息
  • INTO :目标数据库连接信息
  • INCLUDING ONLY TABLE NAMES matching :仅包含匹配的表
  • 最后那个分号不可少
  • 配置文件需要按照格式编写,如缩进

如下配置文件演示了同步mysql 的source_db库下所有表到postgresql的target_db库下面,包含表结构和数据。

LOAD DATABASE
     FROM     mysql://root:xxx@192.168.1.92:3306/source_db
     INTO     postgresql://postgres:xxx@192.168.1.24:5432/target_db
     WITH batch rows = 10000 , batch size =200MB , prefetch rows  = 5000 , workers = 4 ,concurrency = 3
;

  • WITH:with 后面可以追加一些附属参数,各个参数使用英文逗号分隔。常见的参数如:是否需要同步数据还是仅同步结构,是否在写入数据前先删除表等
  • batch rows :在同步数据的时候分批插入postgresql的行数,默认为2.5万。
  • batch size:每批最大数据大小,设置此参数可避免出现内存溢出
  • prefetch rows:在同步数据的时候分批从mysql读取的行数,默认为1000。
  • workders: 线程数量
  • concurrency:并发线程数量

可能遇到的错误

内存溢出

报错信息为:


Heap exhausted during garbage collection: 64 bytes available, 80 requested.


垃圾回收期间堆已耗尽:可用64个字节,请求80个字节。


解决方案为调优分批数量和并发数量,需要根据源数据库数据量,硬件情况不断尝试。

更多配置参考

官网给了一个例子:


LOAD DATABASE
     FROM      mysql://root@localhost/sakila
     INTO postgresql://localhost:54393/sakila

 WITH include drop, create tables, create indexes, reset sequences,
      workers = 8, concurrency = 1,
      multiple readers per thread, rows per range = 50000

  SET PostgreSQL PARAMETERS
      maintenance_work_mem to '128MB',
      work_mem to '12MB',
      search_path to 'sakila, public, "$user"'

  SET MySQL PARAMETERS
      net_read_timeout  = '120',
      net_write_timeout = '120'

 CAST type bigint when (= precision 20) to bigserial drop typemod,
      type date drop not null drop default using zero-dates-to-null,
      -- type tinyint to boolean using tinyint-to-boolean,
      type year to integer

 MATERIALIZE VIEWS film_list, staff_list

 -- INCLUDING ONLY TABLE NAMES MATCHING ~/film/, 'actor'
 -- EXCLUDING TABLE NAMES MATCHING ~<ory>
 -- DECODING TABLE NAMES MATCHING ~/messed/, ~/encoding/ AS utf8
 -- ALTER TABLE NAMES MATCHING 'film' RENAME TO 'films'
 -- ALTER TABLE NAMES MATCHING ~/_list$/ SET SCHEMA 'mv'

 ALTER TABLE NAMES MATCHING ~/_list$/, 'sales_by_store', ~/sales_by/
  SET SCHEMA 'mv'

 ALTER TABLE NAMES MATCHING 'film' RENAME TO 'films'
 ALTER TABLE NAMES MATCHING ~/./ SET (fillfactor='40')

 ALTER SCHEMA 'sakila' RENAME TO 'pagila'

 BEFORE LOAD DO
   $$ create schema if not exists pagila; $$,
   $$ create schema if not exists mv;     $$,
   $$ alter database sakila set search_path to pagila, mv, public; $$;
   

https://pgloader.readthedocs.io/en/latest/ref/mysql.html

总结

pgloader是一个数据库迁移工具,花一点点时间研究一下如何使用,将在数据库迁移的时候起到事半功倍的效果,往往比自己编写迁移脚本更加完善和可靠。

引用

五种常见数据类型

Redis中的数据类型指的是 value存储的数据类型,key都是以String类型存储的,value根据场景需要,可以以String、List等类型进行存储。

各数据类型介绍:

Redis数据类型对应的底层数据结构

String 类型的应用场景

常用命令

  • 存放键值:set key value [EX seconds] [PX milliseconds] [NX|XX]


    • [NX|XX] :


      • nx:如果key不存在则建立

      • xx:如果key存在则修改其值,也可以直接使用setnx/setex命令

  • 获取键值:get key

  • 值递增/递减:incr key


    • 如果字符串中的值是数字类型的,可以使用incr命令每次递增,不是数字类型则报错。
    • 一次想递增N用incrby命令,如果是浮点型数据可以用incrbyfloat命令递增。
    • 同样,递减使用decr、decrby命令。
  • 批量存放键值:mset key value [key value ...]

  • 批量获取键值:mget key [key ...]

  • 获取值长度:strlen key

  • 追加内容:append key value

  • 获取部分字符:getrange key start end

缓存对象

使用 String 来缓存对象有两种方式:

  • 直接缓存整个对象的 JSON,命令例子: SET user:1 '{"name":"seven", "age":18}'。
  • 采用将 key 进行分离为 user:ID:属性,采用 MSET 存储,用 MGET 获取各属性值,命令例子: MSET user:1:name seven1 user:1:age 18 user:2:name seven2 user:2:age 20

常规计数

比如计算访问次数、点赞、转发、库存数量等等。

# 初始化文章的阅读量
> SET aritcle:readcount:1001 0
OK
#阅读量+1
> INCR aritcle:readcount:1001
(integer) 1
#阅读量+1
> INCR aritcle:readcount:1001
(integer) 2

分布式锁

之所以采用Redis来作为分布式锁,可以有几方面理由:

  1. redis足够的快
  2. redis提供了
    setnx + expire
    的机制,完全契合分布式锁的实现要点
  3. Redisson
    客户端的流行,使得基于redis的分布式锁更加简单

SET 命令有个 NX 参数可以实现「key不存在才插入」,可以用它来实现分布式锁:

  • 如果 key 不存在,则显示插入成功,可以用来表示加锁成功;
  • 如果 key 存在,则会显示插入失败,可以用来表示加锁失败。

一般而言,还会对分布式锁加上过期时间,分布式锁的命令如下:

SET lock_key unique_value NX PX 10000
  • lock_key 就是 key 键;
  • unique_value 是客户端生成的唯一的标识;
  • NX 代表只在 lock_key 不存在时,才对 lock_key 进行设置操作;
  • PX 10000 表示设置 lock_key 的过期时间为 10s,这是为了避免应用在运行过程中发生异常而无法释放锁。

共享 session 信息

通常情况下可以使用session信息保存用户的登录(会话)状态,由于这些 Session 信息会被保存在服务器端,如果用户一的 Session 信息被存储在服务器一,但第二次访问时用户一被分配到服务器二,这个时候服务器并没有用户一的 Session 信息,就会出现需要重复登录的问题。如下:

可以借助 Redis 对这些 Session 信息进行统一的存储和管理,这样无论请求发送到那台服务器,服务器都会去同一个 Redis 获取相关的 Session 信息,这样就解决了分布式系统下 Session 存储的问题。

List 类型的应用场景

常用命令

  • 存储值:


    • 左端存值:lpush key value [value ...]
    • 右端存值:rpush key value [value ...]
    • 索引存值:lset key index value
  • 弹出元素:


    • 左端弹出:lpop key
    • 右端弹出:rpop key
  • 获取元素个数:llen key

  • 获取列表元素:


    • 两边获取:lrange key start stop
    • 索引获取:lindex key index
  • 删除元素:


    • 根据值删除:lrem key count value
    • 范围删除:ltrim key start stop

消息队列

  • 消息保序:使用 LPUSH + RPOP,对队列进行先进先出的消息处理;满足消息队列的保序性
  • 阻塞读取:使用 BRPOP;阻塞读取队列中的数据,避免消费者不停地调用 RPOP 命令带了不必要的性能损失
  • 重复消息处理:生产者实现全局唯一 ID;满足消息队列的处理重复消息的能力
  • 消息的可靠性:使用 BRPOPLPUSH让消费者程序从一个 List 中读取消息,同时,Redis 会把这个消息再插入到另一个 List(可以叫作备份 List)留存;这样一来,如果消费者程序读了消息但没能正常处理,等它重启后,就可以从备份 List 中重新读取消息并进行处理了。满足消息队列的可靠性

但是有两个问题:

  1. 生产者需要自行实现全局唯一 ID;
  2. 不能以消费组形式消费数据

Hash 类型

常用命令

  • 存放值:


    • 单个:hset key field value
    • 多个:hmset key field value [field value ...]
    • 不存在时:hsetnx key field value
  • 获取字段值:


    • 单个:hget key field
    • 多个:hmget key field [field ...]
    • 获取所有键与值:hgetall key
    • 获取所有字段:hkeys key
    • 获取所有值:hvals key
  • 判断是否存在:hexists key field

  • 获取字段数量:hlen key

  • 递增/减:hincrby key field increment

  • 删除字段:hdel key field [field ...]

缓存对象

一般对象用 String + Json 存储,对象中某些频繁变化的属性可以考虑抽出来用 Hash 类型存储。

购物车

以用户 id 为 key,商品 id 为 field,商品数量为 value,恰好构成了购物车的3个要素,如下图所示。

涉及的命令如下:

  • 添加商品:HSET cart:{用户id} {商品id} 1
  • 添加数量:HINCRBY cart:{用户id} {商品id} 1
  • 商品总数:HLEN cart:
  • 删除商品:HDEL cart:
  • 获取购物车所有商品:HGETALL cart:

Set 类型

聚合计算(并集、交集、差集)场景,比如点赞、共同关注、抽奖活动等。

常用命令

  • 存储值:sadd key member [member ...]

  • 获取所有元素:smembers key

  • 随机获取:srandmember langs count

  • 判断是否存在某member:sismember key member

  • 获取集合中元素个数:scard key

  • 删除集合元素:srem key member [member ...]

  • 弹出元素:spop key [count]

点赞

可以保证
一个用户只能点一个赞
,已经点赞过的用户不能再点赞

# uid:1 用户对文章 article:1 点赞
> SADD article:1 uid:1
(integer) 1
# uid:2 用户对文章 article:1 点赞
> SADD article:1 uid:2
(integer) 1
# uid:3 用户对文章 article:1 点赞
> SADD article:1 uid:3
(integer) 1

# uid:1 取消了对 article:1 文章点赞。
> SREM article:1 uid:1
(integer) 1

# 获取 article:1 文章所有点赞用户 :
> SMEMBERS article:1
1) "uid:3"
2) "uid:2"

# 获取 article:1 文章的点赞用户数量:
> SCARD article:1
(integer) 2

共同关注

Set 类型
支持交集运算
,所以可以用来计算共同关注的好友、公众号等。

key 可以是用户id,value 则是已关注的公众号的id。

# uid:1 用户关注公众号 id 为 5、6、7、8、9
> SADD uid:1 5 6 7 8 9
(integer) 5
# uid:2  用户关注公众号 id 为 7、8、9、10、11
> SADD uid:2 7 8 9 10 11
(integer) 5

# 获取共同关注
> SINTER uid:1 uid:2
1) "7"
2) "8"
3) "9"

# 给 uid:2 推荐 uid:1 关注的公众号:在uid:1中有但是uid:2中没有的
> SDIFF uid:1 uid:2
1) "5"
2) "6"

# 验证某个公众号是否同时被 uid:1 或 uid:2 关注:
> SISMEMBER uid:1 5
(integer) 1 # 返回0,说明关注了
> SISMEMBER uid:2 5
(integer) 0 # 返回0,说明没关注

抽奖活动

存储某活动中中奖的用户名 ,Set 类型因为有去重功能,可以
保证同一个用户不会中奖两次

# key为抽奖活动名,value为员工名称,把所有员工名称放入抽奖箱 :
>SADD lucky Tom Jerry John Sean Marry Lindy Sary Mark
(integer) 5

# 如果允许重复中奖,可以使用 SRANDMEMBER 命令。
# 抽取 1 个一等奖:
> SRANDMEMBER lucky 1
1) "Tom"
# 抽取 2 个二等奖:
> SRANDMEMBER lucky 2
1) "Mark"
2) "Jerry"
# 抽取 3 个三等奖:
> SRANDMEMBER lucky 3
1) "Sary"
2) "Tom"
3) "Jerry"

# 如果不允许重复中奖,可以使用 SPOP 命令。
# 抽取一等奖1个
> SPOP lucky 1
1) "Sary"
# 抽取二等奖2个
> SPOP lucky 2
1) "Jerry"
2) "Mark"
# 抽取三等奖3个
> SPOP lucky 3
1) "John"
2) "Sean"
3) "Lindy"

Zset 类型

排序场景,比如排行榜、电话和姓名排序等。

常用命令

  • 存储值:zadd key [NX|XX] [CH] [INCR] score member [score member ...]
  • 获取元素分数:zscore key member
  • 获取排名范围:zrange key start stop [WITHSCORES]
  • 获取指定分数范围排名:zrangebyscore key min max [WITHSCORES] [LIMIT offset count]
  • 增加指定元素分数:zincrby key increment member
  • 获取集合元素个数:zcard key
  • 获取指定范围分数个数:zcount key min max
  • 删除指定元素:zrem key member [member ...]
  • 获取元素排名:zrank key member

Zset结构

typedef struct zset {
    dict *dict;//哈希表
    zskiplist *zsl;//跳表
} zset;

zset 结构体里有两个数据结构:一个是跳表,一个是哈希表。这样的好处是既能进行高效的范围查询(如 ZRANGEBYSCORE 操作,利用了跳表),也能进行高效单点查询(如 ZSCORE 操作,利用了hash表)。

排行榜

五篇博文,分别获得赞为 200、40、100、50、150。

# arcticle:1 文章获得了200个赞
> ZADD user:seven:ranking 200 arcticle:1
(integer) 1
# arcticle:2 文章获得了40个赞
> ZADD user:seven:ranking 40 arcticle:2
(integer) 1
# arcticle:3 文章获得了100个赞
> ZADD user:seven:ranking 100 arcticle:3
(integer) 1
# arcticle:4 文章获得了50个赞
> ZADD user:seven:ranking 50 arcticle:4
(integer) 1
# arcticle:5 文章获得了150个赞
> ZADD user:seven:ranking 150 arcticle:5
(integer) 1

# 获取文章赞数最多的 3 篇文章, ZREVRANGE 命令(倒序获取有序集合 key 从start下标到stop下标的元素)
# WITHSCORES 表示把 score 也显示出来
> ZREVRANGE user:seven:ranking 0 2 WITHSCORES
1) "arcticle:1"
2) "200"
3) "arcticle:5"
4) "150"
5) "arcticle:3"
6) "100"

# 获取 100 赞到 200 赞的文章,ZRANGEBYSCORE 命令(返回有序集合中指定分数区间内的成员,分数由低到高排序)
> ZRANGEBYSCORE user:xiaolin:ranking 100 200 WITHSCORES
1) "arcticle:3"
2) "100"
3) "arcticle:5"
4) "150"
5) "arcticle:1"
6) "200"

电话,姓名排序

电话排序

# 将电话号码存储到 SortSet 中,然后根据需要来获取号段:
> ZADD phone 0 13100111100 0 13110114300 0 13132110901 
(integer) 3
> ZADD phone 0 13200111100 0 13210414300 0 13252110901 
(integer) 3
> ZADD phone 0 13300111100 0 13310414300 0 13352110901 
(integer) 3

# 获取所有号码
> ZRANGEBYLEX phone - +
1) "13100111100"
2) "13110114300"
3) "13132110901"
4) "13200111100"
5) "13210414300"
6) "13252110901"
7) "13300111100"
8) "13310414300"
9) "13352110901"

# 获取 132 号段的号码:
> ZRANGEBYLEX phone [132 (133
1) "13200111100"
2) "13210414300"
3) "13252110901"

# 获取132、133号段的号码:
> ZRANGEBYLEX phone [132 (134
1) "13200111100"
2) "13210414300"
3) "13252110901"
4) "13300111100"
5) "13310414300"
6) "13352110901"

姓名排序

> zadd names 0 Toumas 0 Jake 0 Bluetuo 0 Gaodeng 0 Aimini 0 Aidehua 
(integer) 6

# 获取所有人的名字:
> ZRANGEBYLEX names - +
1) "Aidehua"
2) "Aimini"
3) "Bluetuo"
4) "Gaodeng"
5) "Jake"
6) "Toumas"

# 获取名字中大写字母A开头的所有人:
> ZRANGEBYLEX names [A (B
1) "Aidehua"
2) "Aimini"

# 获取名字中大写字母 C 到 Z 的所有人:
> ZRANGEBYLEX names [C [Z
1) "Gaodeng"
2) "Jake"
3) "Toumas"

BitMap(2.2 版新增):

介绍

适用于二值状态统计的场景。

签到

只记录签到(1)或未签到(0)

# 记录用户 4 月 3 号已签到
SETBIT uid:sign:100:202304 2 1

# 检查该用户 6 月 3 日是否签到
> GETBIT uid:sign:100:202306 3
1

# 统计用户在 6 月份的签到次数
> BITCOUNT uid:sign:100:202206
1

# 统计这个月首次打卡时间;BITPOS key bitValue [start] [end],start end 表示要检测的范围
BITPOS uid:sign:100:202206 1

判断用户登陆状态

key = login_status 表示存储用户登陆状态集合数据, 将用户 ID 作为 offset,在线就设置为 1,下线设置 0。通过 GETBIT判断对应的用户是否在线。 5000 万用户只需要 6 MB 的空间。

# 表示ID = 10086 的用户已登陆
SETBIT login_status 10086 1

# 检查该用户是否登陆,返回值 1 表示已登录
GETBIT login_status 10086

# 登出,将 offset 对应的 value 设置成 0。
SETBIT login_status 10086 0

连续签到用户总数

把每天的日期作为 Bitmap 的 key,userId 作为 offset,若是打卡则将 offset 位置的 bit 设置成 1。key 对应的集合的每个 bit 位的数据则是一个用户在该日期的打卡记录。

那就可以设置 7 个 Bitmap,对这 7 个 Bitmap 的对应的 bit 位做 『与』运算。那么当一个 userID 在 7 个 Bitmap 对应对应的 offset 位置的 bit = 1 就说明该用户 7 天连续打卡。结果保存到一个新 Bitmap 中,我们再通过 BITCOUNT 统计 bit = 1 的个数便得到了连续打卡 7 天的用户总数了。

HyperLogLog(2.8 版新增)

海量数据基数统计的场景,提供不精确的去重计数。但要注意,HyperLogLog 的统计规则是基于概率完成的,不是非常准确,标准误算率是 0.81%。因此适用于海量数据的场景。

HyperLogLog 的优点是,在输入元素的数量或者体积非常非常大时,计算基数所需的内存空间总是固定的、并且是很小的。在 Redis 里面,每个 HyperLogLog 键只需要花费 12 KB 内存,就可以计算接近 2^64 个不同元素的基数,和元素越多就越耗费内存的 Set 和 Hash 类型相比,HyperLogLog 就非常节省空间。

百万级网页 UV 计数

在统计 UV 时,可以用 PFADD 命令(用于向 HyperLogLog 中添加新元素)把访问页面的每个用户都添加到 HyperLogLog 中。

PFADD page1:uv user1 user2 user3 user4 user5

# 可以用 PFCOUNT 命令直接获得 page1 的 UV 值,获取统计结果
PFCOUNT page1:uv

GEO(3.2 版新增)

存储地理位置信息的场景

Redis GEO 操作方法有:

  • geoadd:添加地理位置的坐标。
  • geopos:获取地理位置的坐标。
  • geodist:计算两个位置之间的距离。
  • georadius:根据用户给定的经纬度坐标来获取指定范围内的地理位置集合。
  • georadiusbymember:根据储存在位置集合里面的某个地点获取指定范围内的地理位置集合。
  • georadius:以给定的经纬度为中心, 返回键包含的位置元素当中, 与中心的距离不超过给定最大距离的所有位置元素。

GEORADIUS方法参数:

GEORADIUS key longitude latitude radius m|km|ft|mi [WITHCOORD] [WITHDIST] [WITHHASH] [COUNT count] [ASC|DESC] [STORE key] [STOREDIST key]

参数说明:

  • m :米,默认单位。
  • km :千米。
  • mi :英里。
  • ft :英尺。
  • WITHDIST: 在返回位置元素的同时, 将位置元素与中心之间的距离也一并返回。
  • WITHCOORD: 将位置元素的经度和维度也一并返回。
  • WITHHASH: 以 52 位有符号整数的形式, 返回位置元素经过原始 geohash 编码的有序集合分值。这个选项主要用于底层应用或者调试, 实际中的作用并不大。
  • COUNT 限定返回的记录数。
  • ASC: 查找结果根据距离从近到远排序。
  • DESC: 查找结果根据从远到近排序。

滴滴叫车

假设车辆 ID 是 33,经纬度位置是(116.034579,39.030452),可以用一个 GEO 集合保存所有车辆的经纬度,集合 key 是 cars:locations。

GEOADD cars:locations 116.034579 39.030452 33

当用户想要寻找自己附近的网约车时,LBS 应用就可以使用 GEORADIUS 命令。
例如,LBS 应用执行下面的命令时,Redis 会根据输入的用户的经纬度信息(116.054579,39.030452 ),查找以这个经纬度为中心的 5 公里内的车辆信息,并返回给 LBS 应用。

GEORADIUS cars:locations 116.054579 39.030452 5 km ASC COUNT 10

附近的人

nearbyPeople 是一个总的 key,user_1 和 user_2 是相当于 nearbyPeople 里面的两个元素以及他们对应的经纬度,这个例子就是把 user_1 和 user_2 的经纬度存在了 nearbyPeople 这个 key 中

redis> GEOADD nearbyPeople 13.36 38.11 "user_1" 15.08 37.50 "user_2"  
(integer) 2

获取 nearbyPeople 中的元素 user_1 和 user_2 这两个元素的经纬度,当然如果之前没有 geoadd 相对应元素的经纬度的话,会返回 nil

redis> GEOPOS nearbyPeople user_1 user_21) 1) "13.36138933897018433"   2) "38.11555639549629859"2) 1) "15.08726745843887329"   2) "37.50266842333162032"

获取 nearbyPeople 中 user_1 和 user_2 这两个节点之间的距离,距离单位可以指定,如下所示:

  • m :米,默认单位。
  • km :千米。
  • mi :英里。
  • ft :英尺。
redis> GEODIST nearbyPeople user_1 user_2"166274.1516"redis> GEODIST nearbyPeople user_1 user_2 km"166.2742"redis> GEODIST nearbyPeople user_1 user_2 mi"103.3182"

把 nearbyPeople 中的 距离经纬度(15,37)200km 以内的元素都找出来,而且带上距离:

redis>GEORADIUS nearbyPeople 15 37 200 km WITHDIST  
1) 1) "user_1"  
   2) "190.4424"  
2) 1) "user_2"  
   2) "56.4413"

Stream(5.0 版新增)

消息队列,解决了基于 List 类型实现的消息队列中存在的两个问题。
可以自动生成全局唯一消息ID,并支持以消费组形式消费数据。

面试题专栏

Java面试题专栏
已上线,欢迎访问。

  • 如果你不知道简历怎么写,简历项目不知道怎么包装;
  • 如果简历中有些内容你不知道该不该写上去;
  • 如果有些综合性问题你不知道怎么答;

那么可以私信我,我会尽我所能帮助你。

简介

image
烂大街的资料不再赘述,简单来说就是
给代码看的注释

Attribute的使用场景

Attribute不仅仅局限于C#中,在整个.NET框架中都提供了非常大的拓展点,任何地方都有Attribute的影子

  1. 编译器层
    比如 Obsolete,Conditional
  2. C#层
    GET,POST,Max,Range,Require
  3. CLR VM层
    StructLayout,DllImport
  4. JIT 层
    MethodImpl

Attribute在C#中的调用

举个常用的例子,读取枚举上的自定义特性。

    public enum Test
    {
        [EnumDescription("hhhhhh")]
        None = 0,
        [EnumDescription("xxxxxx")]
        Done =1
    }
	private static IEnumerable<string> GetEnumDescriptions(this Enum e)
	{
		IEnumerable<string> result = null;
        var type = e.GetType();
        var fieldInfo = type.GetField(e.ToString());
        var attr = fieldInfo?.GetCustomAttributes(typeof(EnumDescriptionAttribute), false);
        if (attr?.Length > 0)
        {
			result = attr.Cast<EnumDescriptionAttribute>().Select(x => x.Description);
        }
		return result ?? Enumerable.Empty<string>();
	}

可以看到,Attribute底层在C#中实现依旧是依赖反射,所以为什么说Attribute是
写给代码看的注释
,因此对反射的优化思路也可以用在Attribute中。
比如在代码中,使用Dictionary缓存结果集。避免过多调用反射造成的性能问题。

        private static IEnumerable<string> GetEnumDescriptionsCache(this Enum e)
        {
            var key = $"{e.GetType().Name}_{e.ToString()}";
            if (_enumMap.ContainsKey(key))
            {
                return _enumMap[key];
            }
            else
            {
                var result = GetEnumDescriptions(e);
                _enumMap.TryAdd(key, result);
                return result;
            }
        }

循环100000次造成的性能差距还是很明显的
image

Newtonsoft.Json对Attrubute的使用

以JsonConverter为蓝本举例说明。

    public class Person
    {
        [JsonConverter(typeof(DateTimeConverter))]
        public DateTime CreateTime { get; set; }
    }
	public class DateTimeConverter : JsonConverter<DateTime>
    {
        public override DateTime ReadJson(JsonReader reader, Type objectType, DateTime existingValue, bool hasExistingValue, JsonSerializer serializer)
        {
            if (reader.Value == null)
                return DateTime.MinValue;

            if (DateTime.TryParse(reader.Value.ToString(), out DateTime result))
                return result;

            return DateTime.MinValue;
        }

        public override void WriteJson(JsonWriter writer, DateTime value, JsonSerializer serializer)
        {
            writer.WriteValue(value.ToString("yyyy-MM-dd HH:mm:ss"));
        }
    }

定义了一个Attribute:JsonConverter.其底层调用如下:

        [RequiresUnreferencedCode(MiscellaneousUtils.TrimWarning)]
        [RequiresDynamicCode(MiscellaneousUtils.AotWarning)]
        public static JsonConverter? GetJsonConverter(object attributeProvider)
        {
			// 底层还是调用Reflection,为了性能,也缓存了对象元数据。
            JsonConverterAttribute? converterAttribute = GetCachedAttribute<JsonConverterAttribute>(attributeProvider);

            if (converterAttribute != null)
            {
                Func<object[]?, object> creator = CreatorCache.Instance.Get(converterAttribute.ConverterType);
                if (creator != null)
                {
                    return (JsonConverter)creator(converterAttribute.ConverterParameters);
                }
            }

            return null;
        }

https://github.com/JamesNK/Newtonsoft.Json/blob/master/Src/Newtonsoft.Json/Serialization/JsonTypeReflector.cs

Attribute在CLR上的调用

    public class NativeMethods
    {
        [DllImport("xxxxx", EntryPoint = "add", CallingConvention = CallingConvention.Cdecl)]
        public extern static int ManagedAdd(int a, int b);
    }

在CLR中,同样用来调用 C/C++ 的导出函数。有兴趣的朋友可以使用windbg查看线程调用栈。以及在MetaData中有一张ImplMap表,存储着C#方法与C++函数的mapping关系

Attribute在JIT上的调用

    public class Person
    {
        public int id { get; set; } = 0;

        [MethodImpl(MethodImplOptions.Synchronized)]
        public void SyncMethod()
        {
            id++;
        }
    }

JIT会自动为该Attribute注入同步代码
image
image

其本质就是注入lock同步块代码,只是颗粒度在整个方法上。相对比较大

结论

Attrubute在C#层面,底层使用反射。因此使用自定义Attribute时,酌情使用缓存来提高性能

Open WebUI和Ollama介绍

Open WebUI 是一个功能丰富且用户友好的自托管 Web 用户界面(WebUI),它被设计用于与大型语言模型(LLMs)进行交互,特别是那些由 Ollama 或与 OpenAI API 兼容的服务所支持的模型。Open WebUI 提供了完全离线运行的能力,这意味着用户可以在没有互联网连接的情况下与模型进行对话,这对于数据隐私和安全敏感的应用场景尤为重要。
以下是 Open WebUI 的一些主要特点:

  1. 直观的界面:Open WebUI 的界面受到 ChatGPT 的启发,提供了一个清晰且用户友好的聊天界面,使得与大型语言模型的交互变得直观。
  2. 扩展性:这个平台是可扩展的,意味着可以通过添加新的插件或功能来定制和增强其能力,适应不同的使用场景和需求。
  3. 离线操作:Open WebUI 支持完全离线运行,不依赖于网络连接,适合在任何设备上使用,无论是在飞机上还是在偏远地区。
  4. 兼容性:它兼容多种 LLM 运行器,包括 Ollama 和 OpenAI 的 API,这使得用户可以从多个来源选择和运行不同的语言模型。
  5. 自托管:用户可以在自己的服务器或设备上部署 Open WebUI,这为数据隐私和控制提供了更高的保障。
  6. Markdown 和 LaTeX 支持:Open WebUI 提供了全面的 Markdown 和 LaTeX 功能,让用户可以生成富文本输出,这在科学和学术交流中非常有用。
  7. 本地 RAG 集成:检索增强生成(RAG)功能允许模型利用本地存储的数据进行更深入和具体的回答,增强了聊天交互的功能。

Ollama 是一个开源项目,其主要目标是简化大型语言模型(LLMs)的部署和运行流程,使得用户能够在本地机器或私有服务器上轻松运行这些模型,而无需依赖云服务。以下是 Ollama 的一些主要特点和功能:

  1. 简化部署: Ollama 设计了简化的过程来在 Docker 容器中部署 LLMs,这大大降低了管理和运行这些模型的复杂性,使得非专业人员也能部署和使用。
  2. 捆绑模型组件: 它将模型的权重、配置和相关数据打包成一个被称为 Modelfile 的单元,这有助于优化模型的设置和配置细节,包括 GPU 的使用情况。
  3. 支持多种模型: Ollama 支持一系列大型语言模型,包括但不限于 Llama 2、Code Llama、Mistral 和 Gemma 等。用户可以根据自己的具体需求选择和定制模型。
  4. 跨平台支持: Ollama 支持 macOS 和 Linux 操作系统,Windows 平台的预览版也已经发布,这使得它在不同操作系统上的兼容性更好。
  5. 命令行操作: 用户可以通过简单的命令行指令启动和运行大型语言模型。例如,运行 Gemma 2B 模型只需要执行 ollama run gemma:2b 这样的命令。
  6. 自定义和扩展性: Ollama 的设计允许用户根据特定需求定制和创建自己的模型,这为模型的个性化使用提供了可能。

通过 Ollama,用户可以获得以下好处:

  • 隐私保护:由于模型在本地运行,因此数据不需要上传到云端,从而保护了用户的隐私。
  • 成本节约:避免了云服务的费用,尤其是对于大量请求的情况。
  • 响应速度:本地部署可以减少延迟,提供更快的响应时间。
  • 灵活性:用户可以自由选择和配置模型,以满足特定的应用需求。
    image

我们可以轻松的使用tong2.5和llama3大模型
image

快速使用

阿里云对Open WebUI做了预集成,可以通过链接,完成一键部署
image

部署后可以通过返回的登录地址直接使用.
image

image

前言

本文介绍一款基于 .NET 6 开发的高级报表工具。该工具支持多种数据源(如数据库、Excel 文件、API 服务等),并具备强大的数据处理和可视化功能。通过内置的集合函数和类 Excel 界面,用户可以轻松设计和生成复杂的报表,满足各类业务需求。

项目介绍

CellReport 是一款专为复杂统计报表设计的工具,支持从数据库、Excel 文件、API 服务等多数据源获取数据,并通过内置的集合函数进行数据组织。其报表设计界面类似 Excel,确保数据展示直观易用。

开发 CellReport 的目的是为了快速制作日常统计报表。通过融合集合运算理念,该工具帮助用户摆脱传统存储过程的束缚,专注于特定指标的加工,并在设计阶段灵活组合数据,大大简化了报表的创建和维护。

项目功能

  • 强大的数据处理能力

CellReport 支持多种数据源接入(如数据库、Excel、CSV 等),并提供内置的数据清洗和转换功能,帮助用户快速准备报表所需数据。

  • 丰富的报表模板

提供多种报表模板(包括柱状图、折线图、饼图、散点图等),通过简单的拖拽和编辑,即可生成专业且美观的统计报表。

  • 智能的数据分析

内置智能数据分析功能,可根据数据特征自动推荐合适的报表类型和可视化方案,同时支持自定义分析公式和算法,增加报表的深度和洞察力。

  • 高效的报表运行

采用先进的计算引擎和缓存技术,即使处理大量数据也能保持高效运行。支持定时任务和数据更新提醒,确保报表数据的实时性和准确性。

项目特点

  • 全面的报表类型:支持常规的清单、分组、交叉报表。 多源与分片:处理多个数据源和分片数据。
  • 数据集运算:支持多数据集的集合运算。
  • 单元格操作:提供单元格扩展和引用功能。
  • 内置脚本引擎:集成类JavaScript语言引擎,支持自定义脚本。
  • 丰富的函数库:提供多种内置函数,支持自定义扩展。
  • 丰富的页面元素:预定义报表组件、ECharts图表组件、数据展示组件等。
  • 灵活的数据引用:报表元素间的数据引用灵活,局部刷新设置便捷。

项目技术

  • 前端设计器
  • 采用 Vue.js、LuckySheet 和 ECharts 等前沿的前端技术,构建了一个基于网页的报表设计环境,提供了直观且功能丰富的用户界面。
  • 后端报表引擎
  • 核心部分基于 .NET 6 开发,实现了报表的高效处理和渲染,支持复杂的报表逻辑和高性能的数据处理能力。

项目效果

1、预览地址

http://20.169.235.199/index.html

测试用户/密码: test/123456

2、部分效果

项目地址

GitHub:
https://github.com/NoneDay/CellReport

Gitee:
https://gitee.com/NoneDay/CellReport

总结

本文示例仅展示了项目工具的部分功能。感兴趣的朋友可以通过项目地址获取更多详细信息。希望本文能在报表开发方面为大家提供有益的帮助。欢迎在评论区留言交流,分享您的宝贵经验和建议。

最后

如果你觉得这篇文章对你有帮助,不妨点个赞支持一下!你的支持是我继续分享知识的动力。如果有任何疑问或需要进一步的帮助,欢迎随时留言。

也可以加入微信公众号
[DotNet技术匠]
社区,与其他热爱技术的同行一起交流心得,共同成长!
优秀是一种习惯,欢迎大家留言学习!