Jak przypisać Gita SHA1 do pliku bez Gita?

Jak rozumiem, gdy Git przypisuje plik hash SHA1, to SHA1 jest unikalny dla pliku na podstawie jego zawartości.

W rezultacie, jeśli plik zostanie przeniesiony z jednego repozytorium do drugiego, SHA1 dla pliku pozostanie taki sam, ponieważ jego zawartość nie uległa zmianie.

Jak Git oblicza SHA1 digest? Czy robi to na pełnej nieskompresowanej zawartości pliku?

Chciałbym emulować przypisywanie SHA1 poza Gitem.


12 answers

W ten sposób Git oblicza SHA1 dla pliku (lub, w sensie Gita, "blob"):

sha1("blob " + filesize + "\0" + data)

Więc możesz łatwo obliczyć go samodzielnie bez zainstalowania Gita. Zauważ, że "\0 " jest bajtem NULL, a nie łańcuchem dwuznakowym.

Na przykład hash pustego pliku:

sha1("blob 0\0") = "e69de29bb2d1d6434b8b29ae775ad8c2e48c5391"

$ touch empty
$ git hash-object empty

Inny przykład:

sha1("blob 7\0foobar\n") = "323fae03f4606ea9991df8befbb2fca795e648fa"

$ echo "foobar" > foo.txt
$ git hash-object foo.txt 

Oto implementacja Pythona:

from hashlib import sha1
def githash(data):
    s = sha1()
    s.update("blob %u\0" % len(data))
    return s.hexdigest()
Author: Ferdinand Beyer,
2014-06-27 19:57:03

A little goodie: in shell

echo -en "blob ${#CONTENTS}\0$CONTENTS" | sha1sum
Author: knittl,
2014-06-27 20:10:15

Możesz stworzyć funkcję powłoki bash, aby ją łatwo obliczyć, jeśli nie masz zainstalowanego Gita.

git_id () { printf 'blob %s\0' "$(ls -l "$1" | awk '{print $5;}')" | cat - "$1" | sha1sum | awk '{print $1}'; }
Author: CB Bailey,
2014-06-27 19:23:35

Spójrz na stronę man dla git-hash-object. Możesz go użyć do obliczenia skrótu git dla dowolnego pliku. Myślę, że git dostarcza więcej niż tylko zawartość pliku do algorytmu haszującego, ale nie wiem na pewno, a jeśli dostarcza dodatkowe dane, to nie wiem, co to jest.

Author: Dale Hagglund,
2009-02-16 09:24:43
/// Calculates the SHA1 for a given string
let calcSHA1 (text:string) =
      |> System.Text.Encoding.ASCII.GetBytes
      |> (new System.Security.Cryptography.SHA1CryptoServiceProvider()).ComputeHash
      |> Array.fold (fun acc e -> 
           let t = System.Convert.ToString(e, 16)
           if t.Length = 1 then acc + "0" + t else acc + t) 
/// Calculates the SHA1 like git
let calcGitSHA1 (text:string) =
    let s = text.Replace("\r\n","\n")
    sprintf "blob %d%c%s" (s.Length) (char 0) s
      |> calcSHA1

Jest to rozwiązanie w F#.

Author: forki23,
2014-06-27 19:14:53

Pełna implementacja Python3:

import os
from hashlib import sha1

def hashfile(filepath):
    filesize_bytes = os.path.getsize(filepath)

    s = sha1()
    s.update(b"blob %u\0" % filesize_bytes)

    with open(filepath, 'rb') as f:

    return s.hexdigest() 
Author: Tomer,
2019-09-23 10:02:01

W Perlu:

#!/usr/bin/env perl
use Digest::SHA1;

my $content = do { local $/ = undef; <> };
print Digest::SHA1->new->add('blob '.length($content)."\0".$content)->hexdigest(), "\n";

Jako polecenie powłoki:

perl -MDigest::SHA1 -E '$/=undef;$_=<>;say Digest::SHA1->new->add("blob ".length()."\0".$_)->hexdigest' < file
Author: dolmen,
2014-06-27 19:14:30

Oraz w Perlu (patrz także Git:: PurePerl at http://search.cpan.org/dist/Git-PurePerl / )

use strict;
use warnings;
use Digest::SHA1;

my @input = &lt;&gt;;

my $content = join("", @input);

my $git_blob = 'blob' . ' ' . length($content) . "\0" . $content;

my $sha1 = Digest::SHA1->new();


print $sha1->hexdigest();
Author: Alec the Geek,
2014-06-27 19:19:38

Używając Ruby, możesz zrobić coś takiego:

require 'digest/sha1'

def git_hash(file)
  data = File.read(file)
  size = data.bytesize.to_s
  Digest::SHA1.hexdigest('blob ' + size + "\0" + data)
Author: Leif,
2014-06-27 20:40:04

Mały skrypt Bash, który powinien produkować identyczne wyjście git hash-object:

    echo -en 'blob '"$(stat -c%s "$1")"'\0';
    cat "$1" 
) | sha1sum | cut -d\  -f 1
Author: Fordi,
2016-09-06 15:12:02

W JavaScript

const crypto = require('crypto')
const bytes = require('utf8-bytes')

function sha1(data) {
    const shasum = crypto.createHash('sha1')
    return shasum.digest('hex')

function shaGit(data) {
    const total_bytes = bytes(data).length
    return sha1(`blob ${total_bytes}\0${data}`)
Author: EnZo,
2018-06-28 13:42:07

Warto zauważyć, że oczywiście Git dodaje znak nowej linii na końcu danych, zanim zostaną one zahaszowane. Plik zawierający nic poza "Hello World!"otrzymuje hash blob 980a0d5..., który jest taki sam jak ten:

$ php -r 'echo sha1("blob 13" . chr(0) . "Hello World!\n") , PHP_EOL;'
Author: Nudge,
2014-06-27 19:26:10